大數(shù)據(jù)文摘出品
最近,小編讀了一篇康奈爾大學(xué) (科技校區(qū)) 博士生 JACK MORRIS寫(xiě)的博文,發(fā)現(xiàn)其對(duì)人工智能(AI)的進(jìn)展解讀挺有趣。想分享給讀者。
這篇博文的核心意思是:人工智能領(lǐng)域的飛速發(fā)展,其核心驅(qū)動(dòng)力并非源于理論的革新,而是對(duì)全新數(shù)據(jù)來(lái)源的成功利用。
01 AI進(jìn)展的表象與現(xiàn)實(shí)
作者表示,過(guò)去十五年,人工智能取得了令人難以置信的進(jìn)步,尤其是在最近五年中,這種進(jìn)步的速度更是驚人。
這種持續(xù)的進(jìn)步給人一種必然會(huì)發(fā)生的感覺(jué),仿佛是歷史的必然趨勢(shì)。
圖片來(lái)源: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
部分研究人員甚至據(jù)此提出了一個(gè)“人工智能領(lǐng)域的摩爾定律”的說(shuō)法。
該定律指出,計(jì)算機(jī)在處理特定任務(wù),例如某些類(lèi)型的編碼工作時(shí),其能力會(huì)隨著時(shí)間的推移呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)。
盡管作者并不完全認(rèn)同這種特定的框架,但無(wú)法否認(rèn)人工智能領(lǐng)域整體向上的發(fā)展趨勢(shì)。
我們的人工智能系統(tǒng)每年都在變得更智能、更快速,同時(shí)成本也在不斷降低,而且這種進(jìn)步的勢(shì)頭似乎沒(méi)有盡頭。
大多數(shù)人認(rèn)為,這種持續(xù)的進(jìn)步源于學(xué)術(shù)界和工業(yè)界研究社區(qū)源源不斷的思想供給。
學(xué)術(shù)界的代表主要是麻省理工學(xué)院、斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)。工業(yè)界的貢獻(xiàn)則主要來(lái)自Meta、谷歌以及少數(shù)幾家實(shí)驗(yàn)室。
當(dāng)然,還有許多我們永遠(yuǎn)不會(huì)了解到的秘密研究在其他地方同時(shí)進(jìn)行。
02 技術(shù)突破與研究動(dòng)態(tài)的回顧
毫無(wú)疑問(wèn),科學(xué)研究確實(shí)為我們帶來(lái)了巨大的進(jìn)步,尤其是在系統(tǒng)層面。這些系統(tǒng)層面的研究,是模型訓(xùn)練和推理成本能夠持續(xù)降低的關(guān)鍵所在。
我們可以從過(guò)去幾年中挑選出幾個(gè)顯著的例子來(lái)證明這一點(diǎn)。
2022年,斯坦福大學(xué)的研究人員提出了FlashAttention算法。這種方法能夠更好地利用語(yǔ)言模型中的內(nèi)存,現(xiàn)在已經(jīng)被業(yè)界廣泛應(yīng)用。
2023年,谷歌的研究人員開(kāi)發(fā)了推測(cè)解碼技術(shù)。幾乎所有的模型供應(yīng)商都在使用這項(xiàng)技術(shù)來(lái)加速模型的推理過(guò)程。
據(jù)信,DeepMind也幾乎在同一時(shí)間獨(dú)立開(kāi)發(fā)出了類(lèi)似的技術(shù)。
2024年,一個(gè)由互聯(lián)網(wǎng)愛(ài)好者組成的團(tuán)隊(duì)開(kāi)發(fā)出了Muon優(yōu)化器。它似乎是一種比傳統(tǒng)SGD或Adam更優(yōu)秀的優(yōu)化器,未來(lái)可能成為訓(xùn)練語(yǔ)言模型的主流方式。
2025年,DeepSeek 發(fā)布了DeepSeek-R1。這個(gè)開(kāi)源模型,其推理能力與來(lái)自谷歌和OpenAI的同類(lèi)閉源模型相當(dāng)。
這些例子都證明,我們確實(shí)在不斷地探索和解決問(wèn)題。現(xiàn)實(shí)情況甚至比這更酷,我們正在參與一場(chǎng)去中心化的全球科學(xué)實(shí)踐。
另一方面,研究成果在ArXiv、學(xué)術(shù)會(huì)議和社交媒體上被公開(kāi)分享,使得我們每個(gè)月都在變得更加智慧。
03 人工智能的四個(gè)關(guān)鍵范式轉(zhuǎn)移
然而,一個(gè)矛盾的問(wèn)題出現(xiàn)了:既然我們正在進(jìn)行如此多重要的研究,為什么有些人認(rèn)為進(jìn)展正在放緩?
人們的抱怨之聲依然不絕于耳,尤其是在模型能力提升方面。最近發(fā)布的兩個(gè)備受矚目的巨型模型,Grok 3和GPT-4.5,其能力相較于前代產(chǎn)品的提升非常有限。
一個(gè)尤其突出的例子是,當(dāng)最新的語(yǔ)言模型被用于評(píng)估解答最新的國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽試題時(shí),它們只取得了5%的成績(jī)。
這個(gè)結(jié)果表明,近期關(guān)于系統(tǒng)能力的宣傳可能存在過(guò)度夸大的成分。如果我們嘗試去梳理那些真正具有“重大突破”意義的范式轉(zhuǎn)移,會(huì)發(fā)現(xiàn)它們的發(fā)生頻率完全不同。
人工智能的發(fā)展歷程,可以被四個(gè)核心的突破性節(jié)點(diǎn)所概括。
第一個(gè)突破是深度神經(jīng)網(wǎng)絡(luò)(DNNs)的興起。2012年,AlexNet模型贏得了一場(chǎng)圖像識(shí)別競(jìng)賽,標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)時(shí)代的開(kāi)啟。
第二個(gè)突破是Transformer架構(gòu)與大規(guī)模語(yǔ)言模型(LLMs)的結(jié)合。2017年,谷歌在論文《Attention Is All You Need》中提出了Transformer架構(gòu)。
這直接催生了2018年谷歌的BERT模型和OpenAI的初代GPT模型。
第三個(gè)突破是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。據(jù)作者所知,這一概念最早由OpenAI在2022年的InstructGPT論文中正式提出。
第四個(gè)突破是模型的推理能力。2024年,OpenAI發(fā)布了O1模型,這直接啟發(fā)并催生了后續(xù)的DeepSeek R1。
如果你稍微審視一下,就會(huì)發(fā)現(xiàn)這四個(gè)節(jié)點(diǎn)(DNNs → Transformer LMs → RLHF → 推理)幾乎總結(jié)了人工智能領(lǐng)域發(fā)生的一切。
我們先是有了深度神經(jīng)網(wǎng)絡(luò),主要用于圖像識(shí)別系統(tǒng)。然后我們有了文本分類(lèi)器,接著是聊天機(jī)器人。現(xiàn)在我們擁有了所謂的推理模型。
那么,第五次這樣的重大突破會(huì)來(lái)自哪里?研究這四個(gè)已有的案例可能會(huì)給我們一些啟示。
一個(gè)不那么瘋狂的論點(diǎn)是,所有這些突破性進(jìn)展的底層機(jī)制,在1990年代甚至更早就已經(jīng)存在。
我們只是在應(yīng)用相對(duì)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)架構(gòu),并執(zhí)行監(jiān)督學(xué)習(xí)(對(duì)應(yīng)第一和第二個(gè)突破)或強(qiáng)化學(xué)習(xí)(對(duì)應(yīng)第三和第四個(gè)突破)。
作為預(yù)訓(xùn)練語(yǔ)言模型主要方式的、通過(guò)交叉熵進(jìn)行的監(jiān)督學(xué)習(xí),其思想起源于克勞德·香農(nóng)在1940年代的工作。
作為后訓(xùn)練語(yǔ)言模型主要方式的、通過(guò)RLHF和推理訓(xùn)練進(jìn)行的強(qiáng)化學(xué)習(xí),其歷史要稍晚一些。
它可以追溯到1992年策略梯度方法的引入。
這些思想在1998年第一版的Sutton & Barto合著的《強(qiáng)化學(xué)習(xí)》教科書(shū)中就已經(jīng)相當(dāng)成熟。
如果我們的思想不是新的,那么新的東西究竟是什么?
這里有一個(gè)被忽略的關(guān)鍵環(huán)節(jié):這四個(gè)突破中的每一個(gè),都使我們能夠從一種全新的數(shù)據(jù)源中學(xué)習(xí)。
例如,AlexNet及其后續(xù)模型解鎖了ImageNet數(shù)據(jù)集。ImageNet是一個(gè)大型的、帶有類(lèi)別標(biāo)簽的圖像數(shù)據(jù)庫(kù),它驅(qū)動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域長(zhǎng)達(dá)十五年的發(fā)展。
Transformer架構(gòu)則解鎖了對(duì)“整個(gè)互聯(lián)網(wǎng)”文本數(shù)據(jù)的訓(xùn)練。這引發(fā)了一場(chǎng)下載、分類(lèi)和解析萬(wàn)維網(wǎng)上所有文本的競(jìng)賽,而這項(xiàng)工作現(xiàn)在似乎已基本完成。
RLHF允許我們從人類(lèi)的標(biāo)注中學(xué)習(xí)什么是“好的文本”。這在很大程度上是一種基于感覺(jué)的判斷和學(xué)習(xí)。
而推理能力的突破,似乎讓我們能夠從“驗(yàn)證器”中學(xué)習(xí)。這些驗(yàn)證器包括計(jì)算器、編譯器等,它們可以客觀地評(píng)估語(yǔ)言模型的輸出結(jié)果是否正確。
你需要記住,每一個(gè)里程碑都標(biāo)志著相應(yīng)的數(shù)據(jù)源(ImageNet、網(wǎng)絡(luò)文本、人類(lèi)、驗(yàn)證器)首次被大規(guī)模使用。
每個(gè)里程碑之后都伴隨著一陣狂熱的活動(dòng)。
研究人員競(jìng)相從所有可用的渠道中吸收剩余的有用數(shù)據(jù)。
同時(shí),他們也致力于通過(guò)新的技巧來(lái)更好地利用已有數(shù)據(jù),使系統(tǒng)更高效、數(shù)據(jù)需求更少。
預(yù)計(jì)在2025年的后期和2026年,我們將在推理模型中看到同樣的趨勢(shì)。
研究人員將競(jìng)相尋找、分類(lèi)和驗(yàn)證一切可能被驗(yàn)證的東西。
那么,新思想的重要性到底有多大?
有一種觀點(diǎn)認(rèn)為,在這些案例中,我們實(shí)際的技術(shù)創(chuàng)新可能并沒(méi)有產(chǎn)生決定性的影響。
我們可以做一個(gè)反事實(shí)的思考。
如果沒(méi)有發(fā)明AlexNet,也許會(huì)有另一種架構(gòu)出現(xiàn),同樣能夠有效處理ImageNet。
如果我們從未發(fā)現(xiàn)Transformer,也許我們會(huì)滿(mǎn)足于使用LSTM或SSM,或者找到其他完全不同的方法來(lái)學(xué)習(xí)網(wǎng)絡(luò)上的海量文本數(shù)據(jù)。
這與一些人持有的“數(shù)據(jù)決定論”不謀而合。
一些研究人員觀察到,在所有的訓(xùn)練技術(shù)、模型技巧和超參數(shù)調(diào)整中,真正起決定性作用的,往往是數(shù)據(jù)的改變。
一個(gè)極具說(shuō)服力的例子是,一些研究人員曾致力于開(kāi)發(fā)一種使用非Transformer架構(gòu)的新型BERT類(lèi)模型。
他們花費(fèi)了大約一年的時(shí)間,用數(shù)百種不同的方式調(diào)整架構(gòu),最終成功制造出一種不同類(lèi)型的模型(狀態(tài)空間模型“SSM”)。
當(dāng)這個(gè)SSM模型在與原始Transformer相同的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),它表現(xiàn)出了幾乎等同的性能。
這種等效性的發(fā)現(xiàn)意義深遠(yuǎn)。
它暗示了從一個(gè)給定的數(shù)據(jù)集中,我們所能學(xué)到的東西存在一個(gè)上限。
世界上所有的訓(xùn)練技巧和模型升級(jí),都無(wú)法繞過(guò)這個(gè)冰冷的現(xiàn)實(shí):一個(gè)數(shù)據(jù)集能提供的信息是有限的。
網(wǎng)址: http://www.incompleteideas.net/IncIdeas/BitterLesson.html
也許這種對(duì)新思想的冷漠,正是“苦澀的教訓(xùn)(The Bitter Lesson)”想要傳達(dá)給我們的。
04 未來(lái)范式的預(yù)期
如果數(shù)據(jù)是唯一重要的事情,為什么95%的人還在研究新方法?我們下一個(gè)范式轉(zhuǎn)移將來(lái)自哪里?
一個(gè)顯而易見(jiàn)的推論是,我們的下一個(gè)范式轉(zhuǎn)移不會(huì)來(lái)自對(duì)強(qiáng)化學(xué)習(xí)的改進(jìn),也不會(huì)來(lái)自某種花哨的新型神經(jīng)網(wǎng)絡(luò)。
它將在我們解鎖一個(gè)以前從未接觸過(guò),或者尚未被正確利用的數(shù)據(jù)源時(shí)到來(lái)。
一個(gè)很多人正在努力駕馭的明顯信息來(lái)源是視頻。
根據(jù)網(wǎng)絡(luò)上的一個(gè)隨機(jī)站點(diǎn)統(tǒng)計(jì),每分鐘大約有500小時(shí)的視頻片段被上傳到Y(jié)ouTube。
這是一個(gè)驚人數(shù)量的數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過(guò)整個(gè)互聯(lián)網(wǎng)上的文本總量。視頻也可能是一個(gè)更豐富的信息來(lái)源。
它不僅包含文字,還包含文字背后的語(yǔ)調(diào),以及無(wú)法從文本中收集到的關(guān)于物理和文化的豐富信息。
可以肯定地說(shuō),一旦我們的模型變得足夠高效,或者我們的計(jì)算機(jī)變得足夠強(qiáng)大,谷歌就會(huì)開(kāi)始在YouTube上訓(xùn)練模型。
畢竟,他們擁有這個(gè)平臺(tái),不利用這些數(shù)據(jù)來(lái)獲取優(yōu)勢(shì)是愚蠢的。
人工智能下一個(gè)“大范式”的另一個(gè)有力競(jìng)爭(zhēng)者,是某種具身化的數(shù)據(jù)收集系統(tǒng),用普通人的話說(shuō),就是機(jī)器人。
我們目前還無(wú)法以一種適合在GPU上訓(xùn)練大模型的方式,來(lái)收集和處理來(lái)自攝像頭和傳感器的數(shù)據(jù)。
如果我們能夠構(gòu)建更智能的傳感器,或者將計(jì)算機(jī)的規(guī)模擴(kuò)大到可以輕松處理來(lái)自機(jī)器人的海量數(shù)據(jù)涌入,我們或許就能以一種有益的方式利用這些數(shù)據(jù)。
很難說(shuō)YouTube、機(jī)器人還是其他什么東西會(huì)成為人工智能的下一個(gè)大事件。
我們現(xiàn)在似乎深深地扎根于語(yǔ)言模型的陣營(yíng)中,但語(yǔ)言數(shù)據(jù)似乎也正在被迅速耗盡。
如果我們想在人工智能領(lǐng)域取得進(jìn)展,也許我們應(yīng)該停止尋找新思想,而是開(kāi)始尋找新數(shù)據(jù)。
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.