99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

不斷用AI自己生成的內容去喂它,你猜怎么著?

0
分享至

設置星標 關注,從此你的世界多點科學~


ChatGPT等聊天機器人背后的算法能從各種各樣的網絡文本中抓取萬億字節的素材,文本來源可以是網絡文章,也可以是社媒平臺的帖子,還可以是視頻里的字幕或評論。

海量文本素材供算法學習——學習創建如同人類所創的內容。AI在文本中發現復雜微妙的模式,然后輸出搜索摘要、文章、圖片以及其他內容。

為優化、迭代模型,需捕捉更多新內容。但隨著越來越多人使用AI生成文本,然后將結果發布到網上,算法會不可避免地開始從它們自己輸出的作品中學習,學完再輸出……這種自產自學再自產的內容現已遍布互聯網。這是個大問題……

2024年7月,一項發表于《自然》雜志的研究指出:如果讓基于文本的生成式人工智能算法圍繞著本就是AI生成的內容開展訓練,只需幾個訓練周期,它就會產出完全無意義的結果。

杜克大學專家艾米麗·溫格 (Emily Wenger,未參與相關工作) 表示:“人工智能生成的內容在互聯網上快速擴張,這可能對模型本身造成毀滅性影響?!?/p>

雖然新研究重點關注文本,但它的結果也可能影響多模態人工智能模型。這些模型也會依靠在線抓取的訓練數據來生成文本以及圖像和視頻。

隨著生成式AI的應用不斷擴張,上述問題只會越發嚴重。而最終結局可能是模型崩潰,AI自學自產的數據被噪聲淹沒,輸出的內容語無倫次、胡謅亂扯。

產學 自循環

幻覺? 崩潰?

我們知道,生成式人工智能經?!爱a生幻覺”。在收到提示后,它可能說出不準確的事實或“幻想”出絕對不真實的答案。幻覺或可造成嚴重后果,例如AI在醫療保健話題上錯誤卻又權威地將結痂判作腫瘤。

當AI不斷用自身生成的數據來訓練自己,它就會在幾代內退化。這就是模型崩潰,一種獨立存在的現象,有點像近親繁殖——后代更容易遭遇遺傳疾病。

計算機科學家早就意識到了這個問題,但一直不清楚大型人工智能模型如何以及為何發生崩潰。

在《自然》報道的新研究中,作者團隊構建了一個自定義大型語言模型,并用維基百科條目訓練它;接著,他們使用模型自身輸出的數據集對模型進行了9九次微調,并用所謂“困惑度分數”來衡量AI輸出的質量——得分越高意味著生成的文本越令人困惑。

團隊發現,人工智能模型的退化只需短短幾個訓練周期。

這里引用一個案例。團隊先拋給AI一個關于教堂建造歷史的長提示(長到會令大多數人類看得迷糊),后面是模型的自產自學循環了。經過前兩次迭代,AI給出了一個相對連貫的關于復興建筑的回復,文本中偶有“@”插入。但到了第五代,話題已經變成了語言翻譯……到了第九代,也就是最后一代,輸出內容是令人發笑的胡言亂語。

英文原文

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”

翻譯成中文就是

“建筑。除了棲息著一些世界上最大的黑@-@尾長耳大野兔、白@-@尾長耳大野兔、藍@-@尾長耳大野兔、紅@-@尾長耳大野兔、黃@-種群?!?/p>

研究人員解釋稱,用自產數據訓練的人工智能最終往往會輸出重復的話語,而讓AI遠離重復的嘗試則只會導致更糟糕表現。 使用了不同提示信息的多次測試最后都得到相同模式結果,這表明問題出在訓練過程中,而非提示語。

AI作品 加水印

AI訓練 靠人文

人工智能崩潰,部分原因是它逐漸“忘記”了一代又一代的訓練數據。

人腦也會抹去舊的記憶,但與此同時它體驗新的內容、收取新的輸入。對于只能從互聯網上學習的AI來說,“遺忘”是個大問題。

假設AI從原始訓練數據中“看到”了金毛尋回犬、法國斗牛犬和小型格里芬巴塞特犬,而當它被要求描繪出一條狗時,由于網上有更多關于金毛尋回犬的圖片,AI就很可能選定金毛為創作對象。如果后續模型又拿此AI生成的金毛濃度過高的數據集訓練自己,經過若干代后,AI可能“忘記”那些不太熱門的犬種。

由人工智能生成的文本本就偏向眾所周知的概念、措辭和風格,基于這些數據訓練的新算法只會加劇偏向,最終可能導致模型崩潰。

這方面的問題也對全球人工智能的公平性提出了挑戰。由于AI在用自己生成的數據訓練自己時會忽略“不常見”(uncommon)的事物,它也就難以斟酌人類世界的復雜性和細微差別。

以西方社會的少數族裔話題為例:AI可能無法充分展現少數族裔(尤其是少數族裔語言使用者)的思想和信仰。

溫格指出:“確保大型語言模型(LLM)能對少數派內容進行建模是獲得公平預測的關鍵。隨著生成式AI模型在日常生活中越發普及,這一點也會越發重要?!?/p>

那么,應當怎樣解決問題呢?

一種方法是使用水印,即嵌入于AI生成數據內的數字簽名,以此幫助人們從訓練數據集中檢測到特定數據以便確定是否需要刪除這些數據。谷歌、Meta和OpenAI都已提出了此理念,不過他們是否能就單一協議達成一致還有待觀察。當然,水印并非萬能的,因為企業或個人可能選擇不給AI的輸出加水印。

另一個可能的解決方案是調整我們訓練人工智能模型的方式。新研究的作者發現,如果給自產自學的AI提供更多人類提供的訓練素材,新生成的內容可以更加連貫。

前文所述種種并不意味著模型崩潰的問題迫在眉睫。新研究只關注了基于自身輸出的文本進行訓練的AI。如果使用其他AI模型生成的數據進行訓練,會不會出現類似崩潰還有待觀察。此外,AI正越來越多地利用圖像、聲音和視頻,而我們也不清楚能否從這些類型的內容中看到AI模型崩潰。

不可否認,生成式人工智能改變著世界,也展現著取代人類工作的潛力。但事實證明,如果缺少人類思維的原創輸出,目前的模型難以在自我迭代中發展甚至做不到維持穩定。

現在既然發現了問題,我們就需要協調全社會,去標記AI創建的數據,并公開分享信息?!胺駝t,如果沒有人類提供大規模數據,也沒法訪問非AI生成的互聯網數據,那么訓練更新版本的大型語言模型可能會變得越發困難?!?/p>

資料來源:

《世界科學》雜志版在售中 歡迎訂閱

點擊圖片或以下方訂閱方式選購

月刊定價15元/期

全年訂閱價180元

訂閱方式一:

“雜志鋪”訂閱有折扣~

訂閱方式二:

全國各地郵局訂閱。郵發代號:4-263

訂閱方式三:

機構訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哥四個一人一億?楊議回應父親遺產,身為隱形富豪,他真不靠老爹

哥四個一人一億?楊議回應父親遺產,身為隱形富豪,他真不靠老爹

非常先生看娛樂
2025-07-18 17:56:16
黃楊鈿甜天價耳環大結局!央媒通報調查結果,這次終于真相大白了

黃楊鈿甜天價耳環大結局!央媒通報調查結果,這次終于真相大白了

洲洲影視娛評
2025-07-16 22:03:30
歷史重演?中美之間似乎正在復制美日廣場協議,美國會得逞嗎?

歷史重演?中美之間似乎正在復制美日廣場協議,美國會得逞嗎?

boss外傳
2025-07-17 20:35:03
世茂239億拿的地王或被68億回收 中信信托深圳龍崗項目或打折兌付

世茂239億拿的地王或被68億回收 中信信托深圳龍崗項目或打折兌付

財聯社
2025-07-18 16:17:05
青島隊記:楊瀚森3場表現都不錯 開拓者等于16號簽選了個戰術核心

青島隊記:楊瀚森3場表現都不錯 開拓者等于16號簽選了個戰術核心

直播吧
2025-07-16 18:01:26
無意間刷到的「哺乳期上環女」,把我惡心壞了

無意間刷到的「哺乳期上環女」,把我惡心壞了

媒體人溪婉
2025-07-17 12:31:25
果然一語成讖?艾菲爾斷言:小玥兒笑靨如花時大S生命倒計時僅3年

果然一語成讖?艾菲爾斷言:小玥兒笑靨如花時大S生命倒計時僅3年

可樂談情感
2025-07-18 07:22:51
71歲陳佩斯再次讓世界刮目相看,這次,他讓整個娛樂圈“沉默”了

71歲陳佩斯再次讓世界刮目相看,這次,他讓整個娛樂圈“沉默”了

東方不敗然多多
2025-07-11 13:03:42
哪個國家金球獎最多?巴西僅5座,德國29年無金球,多國并列第二

哪個國家金球獎最多?巴西僅5座,德國29年無金球,多國并列第二

籃球圈里的那些事
2025-07-17 17:17:37
從海參崴到圖瓦再到庫頁島,俄羅斯對中國態度發生逆轉?心態變了

從海參崴到圖瓦再到庫頁島,俄羅斯對中國態度發生逆轉?心態變了

沈言論
2025-07-05 17:05:03
活佛王興夫“點化”140位女信徒,全程不穿衣服,場面失控

活佛王興夫“點化”140位女信徒,全程不穿衣服,場面失控

卿昀
2023-09-23 02:38:56
我退掉寬帶,隔壁鄰居打來電話:都怪你,我兒子的名校面試黃了!

我退掉寬帶,隔壁鄰居打來電話:都怪你,我兒子的名校面試黃了!

清茶淺談
2025-07-16 18:43:53
加州州長跳腳:特朗普這是把未來交給中國,休想

加州州長跳腳:特朗普這是把未來交給中國,休想

觀察者網
2025-07-17 22:46:42
俄稱德國若援烏“金牛座”導彈將打擊柏林,現德將送烏數百枚導彈

俄稱德國若援烏“金牛座”導彈將打擊柏林,現德將送烏數百枚導彈

混沌錄
2025-07-16 23:40:28
美女建筑師下海接客,3500一次,可包夜!

美女建筑師下海接客,3500一次,可包夜!

黯泉
2025-07-17 08:29:25
武漢市東湖畔一棟豪宅別墅降價拍賣,被人撿漏底價2317萬競得

武漢市東湖畔一棟豪宅別墅降價拍賣,被人撿漏底價2317萬競得

天天話事
2025-07-18 12:19:42
受騙了!網民誤會天價耳環通報,竟是81個帳號544條博文攪的渾水

受騙了!網民誤會天價耳環通報,竟是81個帳號544條博文攪的渾水

小嵩
2025-07-18 09:07:34
娃哈哈大股東,不忍了

娃哈哈大股東,不忍了

金角財經
2025-07-18 15:24:18
俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

墨印齋
2025-07-16 22:10:10
椰子稱阿卡喜歡夜生活和女孩后續來了!阿卡回應:這方面他是權威

椰子稱阿卡喜歡夜生活和女孩后續來了!阿卡回應:這方面他是權威

網球之家
2025-07-18 13:48:37
2025-07-18 18:47:00
世界科學 incentive-icons
世界科學
《世界科學》編輯部運營賬號
1738文章數 26866關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

體育要聞

楊瀚森4戰43+20+15+9帽:開拓者4戰3勝

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

游戲
藝術
數碼
時尚
軍事航空

《天龍八部·歸來》先鋒服開了,鳩摩智都來了?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

臺電磁吸移動固態硬盤 PD20 mini 發布:最大 2TB,自帶手機支架

上了年紀的女人,千萬別盲目跟風模仿,這些穿衣思路實用優雅

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镇巴县| 临西县| 西和县| 张掖市| 绥芬河市| 肥城市| 石泉县| 阿坝| 韶关市| 平度市| 丹凤县| 三都| 鄯善县| 五大连池市| 历史| 民县| 改则县| 英超| 蓝山县| 龙井市| 临沧市| 莱芜市| 山丹县| 兴仁县| 五家渠市| 保山市| 左权县| 瑞昌市| 阳新县| 蒙自县| 文昌市| 宣汉县| 琼结县| 图木舒克市| 天水市| 年辖:市辖区| 福鼎市| 淮滨县| 锡林浩特市| 宁强县| 凌云县|