AI訓練AI,越訓越傻。
我們都知道,AI容易出現“幻覺”,其中一個很大的原因是因為訓練 AI 模型的數據本身就是虛假信息,最終讓AI編造出自認為是真實的信息。
為了解決AI幻覺的問題,AI公司們會去挖掘更多材料用于訓練,從而不斷優化自身的性能。
但從2024年開始,一些互聯網數據源開始有意限制AI公司去使用,例如《紐約時報》這樣的新聞機構以及Youtube這樣的視頻網站,他們都因為版權問題與OpenAI等廠商進行過互掐,最終的結果要么是直接花錢買數據,要么是放棄這部分數據。
這其實反映了一個很現實的問題:用于訓練 AI 模型的真實數據已經所剩無幾。
在周三晚間與 Stagwell 董事會主席馬克?佩恩的直播對話中,馬斯克表示:“我們現在基本上已經消耗掉了所有人類知識的積累…… 用于人工智能訓練的數據。這個現象基本上是去年發生的。”
不僅是馬斯克,不少人工智能專家都一致認為數據資源已經耗盡。
去年12月的溫哥華NeurIPS大會上,OpenAI聯合創始人兼前首席科學家伊利亞?蘇茨克維爾(Ilya Sutskever)直言:“AI預訓練時代無疑將終結。”
他在這場演講里將數據比作化石燃料,而燃料終將耗盡。“算力在增長,但數據卻沒有增長,AI已經達到了數據峰值,不會再有更多數據了,我們必須處理好現有的數據。”
同時他表示,AI 模型的開發方式會發生改變,下一代AI模型將是真正的AI Agent,且具備推理能力 。
合成數據的前景
推理計算取代訓練計算,這也是博通在年底在美股火了一把的原因之一。
AI只使用另一個 AI 生成的數據進行訓練,這在過去聽起來并不靠譜的做法,現在似乎成了未來的重要解決方法之一。而隨著真實的新數據越來越難以獲得,這種想法也越來越受重視,AI公司們也逐漸開始用合成數據用來訓練他們的主力 AI 模型。
“AI 會進行自我評估,并通過這一自我學習的過程不斷優化自己。”馬斯克認為。
從務實的角度出發,人類的標注速度有限,并且很有可能一開始就存在標注錯誤的問題。另外,有效的數據都是非常昂貴的,一些手握優質數據源的網站或論壇通過向谷歌、OpenAI等公司授權數據,從而賺取高達數億美元。
相比之下,合成數據的一個顯著優勢是降低成本,人工智能初創公司 Writer 表示,其 Palmyra X 004 模型幾乎完全依賴合成數據進行開發,開發成本僅為 70 萬美元,而一個規模相似的 OpenAI 模型的開發成本大約為 460 萬美元。
合成數據的另一個作用就是幫助舊模型“升級”成 推理模型,未來的AI能以更接近思考的方式來一步步解決問題,這種能力已經非常接近AI Agent。
例如近期OpenAI近日發布的o1模型,本質上就是推理模型, 在給出回答之前,o1會思考,通過產生一個很長的內部思維鏈(CoT),逐步推理,模仿人類思考復雜問題的過程。
AI訓AI,越訓越傻?
合成數據看起來又便宜準確性越高,但如果一開始輸入的數據本身就存在問題,那么AI公司甚至無法通過后期更新數據源來進行補救。
來自牛津、劍橋等學校機構的研究人員將這種現象描述成大模型的崩潰,其研究成果還登上了Nature的封面。
其實原理很好理解,模型崩潰是一個退化過程,模型生成的內容會污染下一代的訓練數據集。而在被污染的數據上訓練之后,新一代模型就容易誤解現實。以此循環往復,一代更比一代差。
因此推理模型更適合邏輯、代碼、數學這些理工科類的能力,在文字生成方面很容易受到模型崩潰的影響。反過來,文字生成等能力未來依然需要依賴“傳統模型”。 因此從短時間來看,合成數據還是很難取代真實數據,AI大模型又將迎來一次數據荒。
本文作者:jh,觀點僅代表個人,題圖源:網絡
記得星標微信公眾號:鎂客網(im2maker),更多干貨在等你
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.