網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“不是新模型贏了，是新數(shù)據(jù)贏了”：另一種角度解讀 AI 進(jìn)步的真相

2025-07-03 15:07:42　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

最近，小編讀了一篇康奈爾大學(xué) (科技校區(qū)) 博士生 JACK MORRIS寫(xiě)的博文，發(fā)現(xiàn)其對(duì)人工智能（AI）的進(jìn)展解讀挺有趣。想分享給讀者。

這篇博文的核心意思是：人工智能領(lǐng)域的飛速發(fā)展，其核心驅(qū)動(dòng)力并非源于理論的革新，而是對(duì)全新數(shù)據(jù)來(lái)源的成功利用。

01 AI進(jìn)展的表象與現(xiàn)實(shí)

作者表示，過(guò)去十五年，人工智能取得了令人難以置信的進(jìn)步，尤其是在最近五年中，這種進(jìn)步的速度更是驚人。

這種持續(xù)的進(jìn)步給人一種必然會(huì)發(fā)生的感覺(jué)，仿佛是歷史的必然趨勢(shì)。

圖片來(lái)源： https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

部分研究人員甚至據(jù)此提出了一個(gè)“人工智能領(lǐng)域的摩爾定律”的說(shuō)法。

該定律指出，計(jì)算機(jī)在處理特定任務(wù)，例如某些類(lèi)型的編碼工作時(shí)，其能力會(huì)隨著時(shí)間的推移呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)。

盡管作者并不完全認(rèn)同這種特定的框架，但無(wú)法否認(rèn)人工智能領(lǐng)域整體向上的發(fā)展趨勢(shì)。

我們的人工智能系統(tǒng)每年都在變得更智能、更快速，同時(shí)成本也在不斷降低，而且這種進(jìn)步的勢(shì)頭似乎沒(méi)有盡頭。

大多數(shù)人認(rèn)為，這種持續(xù)的進(jìn)步源于學(xué)術(shù)界和工業(yè)界研究社區(qū)源源不斷的思想供給。

學(xué)術(shù)界的代表主要是麻省理工學(xué)院、斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)。工業(yè)界的貢獻(xiàn)則主要來(lái)自Meta、谷歌以及少數(shù)幾家實(shí)驗(yàn)室。

當(dāng)然，還有許多我們永遠(yuǎn)不會(huì)了解到的秘密研究在其他地方同時(shí)進(jìn)行。

02 技術(shù)突破與研究動(dòng)態(tài)的回顧

毫無(wú)疑問(wèn)，科學(xué)研究確實(shí)為我們帶來(lái)了巨大的進(jìn)步，尤其是在系統(tǒng)層面。這些系統(tǒng)層面的研究，是模型訓(xùn)練和推理成本能夠持續(xù)降低的關(guān)鍵所在。

我們可以從過(guò)去幾年中挑選出幾個(gè)顯著的例子來(lái)證明這一點(diǎn)。

2022年，斯坦福大學(xué)的研究人員提出了FlashAttention算法。這種方法能夠更好地利用語(yǔ)言模型中的內(nèi)存，現(xiàn)在已經(jīng)被業(yè)界廣泛應(yīng)用。

2023年，谷歌的研究人員開(kāi)發(fā)了推測(cè)解碼技術(shù)。幾乎所有的模型供應(yīng)商都在使用這項(xiàng)技術(shù)來(lái)加速模型的推理過(guò)程。

據(jù)信，DeepMind也幾乎在同一時(shí)間獨(dú)立開(kāi)發(fā)出了類(lèi)似的技術(shù)。

2024年，一個(gè)由互聯(lián)網(wǎng)愛(ài)好者組成的團(tuán)隊(duì)開(kāi)發(fā)出了Muon優(yōu)化器。它似乎是一種比傳統(tǒng)SGD或Adam更優(yōu)秀的優(yōu)化器，未來(lái)可能成為訓(xùn)練語(yǔ)言模型的主流方式。

2025年，DeepSeek 發(fā)布了DeepSeek-R1。這個(gè)開(kāi)源模型，其推理能力與來(lái)自谷歌和OpenAI的同類(lèi)閉源模型相當(dāng)。

這些例子都證明，我們確實(shí)在不斷地探索和解決問(wèn)題。現(xiàn)實(shí)情況甚至比這更酷，我們正在參與一場(chǎng)去中心化的全球科學(xué)實(shí)踐。

另一方面，研究成果在ArXiv、學(xué)術(shù)會(huì)議和社交媒體上被公開(kāi)分享，使得我們每個(gè)月都在變得更加智慧。

03 人工智能的四個(gè)關(guān)鍵范式轉(zhuǎn)移

然而，一個(gè)矛盾的問(wèn)題出現(xiàn)了：既然我們正在進(jìn)行如此多重要的研究，為什么有些人認(rèn)為進(jìn)展正在放緩？

人們的抱怨之聲依然不絕于耳，尤其是在模型能力提升方面。最近發(fā)布的兩個(gè)備受矚目的巨型模型，Grok 3和GPT-4.5，其能力相較于前代產(chǎn)品的提升非常有限。

一個(gè)尤其突出的例子是，當(dāng)最新的語(yǔ)言模型被用于評(píng)估解答最新的國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽試題時(shí)，它們只取得了5%的成績(jī)。

這個(gè)結(jié)果表明，近期關(guān)于系統(tǒng)能力的宣傳可能存在過(guò)度夸大的成分。如果我們嘗試去梳理那些真正具有“重大突破”意義的范式轉(zhuǎn)移，會(huì)發(fā)現(xiàn)它們的發(fā)生頻率完全不同。

人工智能的發(fā)展歷程，可以被四個(gè)核心的突破性節(jié)點(diǎn)所概括。

第一個(gè)突破是深度神經(jīng)網(wǎng)絡(luò)（DNNs）的興起。2012年，AlexNet模型贏得了一場(chǎng)圖像識(shí)別競(jìng)賽，標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)時(shí)代的開(kāi)啟。

第二個(gè)突破是Transformer架構(gòu)與大規(guī)模語(yǔ)言模型（LLMs）的結(jié)合。2017年，谷歌在論文《Attention Is All You Need》中提出了Transformer架構(gòu)。

這直接催生了2018年谷歌的BERT模型和OpenAI的初代GPT模型。

第三個(gè)突破是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）。據(jù)作者所知，這一概念最早由OpenAI在2022年的InstructGPT論文中正式提出。

第四個(gè)突破是模型的推理能力。2024年，OpenAI發(fā)布了O1模型，這直接啟發(fā)并催生了后續(xù)的DeepSeek R1。

如果你稍微審視一下，就會(huì)發(fā)現(xiàn)這四個(gè)節(jié)點(diǎn)（DNNs → Transformer LMs → RLHF → 推理）幾乎總結(jié)了人工智能領(lǐng)域發(fā)生的一切。

我們先是有了深度神經(jīng)網(wǎng)絡(luò)，主要用于圖像識(shí)別系統(tǒng)。然后我們有了文本分類(lèi)器，接著是聊天機(jī)器人。現(xiàn)在我們擁有了所謂的推理模型。

那么，第五次這樣的重大突破會(huì)來(lái)自哪里？研究這四個(gè)已有的案例可能會(huì)給我們一些啟示。

一個(gè)不那么瘋狂的論點(diǎn)是，所有這些突破性進(jìn)展的底層機(jī)制，在1990年代甚至更早就已經(jīng)存在。

我們只是在應(yīng)用相對(duì)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)架構(gòu)，并執(zhí)行監(jiān)督學(xué)習(xí)（對(duì)應(yīng)第一和第二個(gè)突破）或強(qiáng)化學(xué)習(xí)（對(duì)應(yīng)第三和第四個(gè)突破）。

作為預(yù)訓(xùn)練語(yǔ)言模型主要方式的、通過(guò)交叉熵進(jìn)行的監(jiān)督學(xué)習(xí)，其思想起源于克勞德·香農(nóng)在1940年代的工作。

作為后訓(xùn)練語(yǔ)言模型主要方式的、通過(guò)RLHF和推理訓(xùn)練進(jìn)行的強(qiáng)化學(xué)習(xí)，其歷史要稍晚一些。

它可以追溯到1992年策略梯度方法的引入。

這些思想在1998年第一版的Sutton & Barto合著的《強(qiáng)化學(xué)習(xí)》教科書(shū)中就已經(jīng)相當(dāng)成熟。

如果我們的思想不是新的，那么新的東西究竟是什么？

這里有一個(gè)被忽略的關(guān)鍵環(huán)節(jié)：這四個(gè)突破中的每一個(gè)，都使我們能夠從一種全新的數(shù)據(jù)源中學(xué)習(xí)。

例如，AlexNet及其后續(xù)模型解鎖了ImageNet數(shù)據(jù)集。ImageNet是一個(gè)大型的、帶有類(lèi)別標(biāo)簽的圖像數(shù)據(jù)庫(kù)，它驅(qū)動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域長(zhǎng)達(dá)十五年的發(fā)展。

Transformer架構(gòu)則解鎖了對(duì)“整個(gè)互聯(lián)網(wǎng)”文本數(shù)據(jù)的訓(xùn)練。這引發(fā)了一場(chǎng)下載、分類(lèi)和解析萬(wàn)維網(wǎng)上所有文本的競(jìng)賽，而這項(xiàng)工作現(xiàn)在似乎已基本完成。

RLHF允許我們從人類(lèi)的標(biāo)注中學(xué)習(xí)什么是“好的文本”。這在很大程度上是一種基于感覺(jué)的判斷和學(xué)習(xí)。

而推理能力的突破，似乎讓我們能夠從“驗(yàn)證器”中學(xué)習(xí)。這些驗(yàn)證器包括計(jì)算器、編譯器等，它們可以客觀地評(píng)估語(yǔ)言模型的輸出結(jié)果是否正確。

你需要記住，每一個(gè)里程碑都標(biāo)志著相應(yīng)的數(shù)據(jù)源（ImageNet、網(wǎng)絡(luò)文本、人類(lèi)、驗(yàn)證器）首次被大規(guī)模使用。

每個(gè)里程碑之后都伴隨著一陣狂熱的活動(dòng)。

研究人員競(jìng)相從所有可用的渠道中吸收剩余的有用數(shù)據(jù)。

同時(shí)，他們也致力于通過(guò)新的技巧來(lái)更好地利用已有數(shù)據(jù)，使系統(tǒng)更高效、數(shù)據(jù)需求更少。

預(yù)計(jì)在2025年的后期和2026年，我們將在推理模型中看到同樣的趨勢(shì)。

研究人員將競(jìng)相尋找、分類(lèi)和驗(yàn)證一切可能被驗(yàn)證的東西。

那么，新思想的重要性到底有多大？

有一種觀點(diǎn)認(rèn)為，在這些案例中，我們實(shí)際的技術(shù)創(chuàng)新可能并沒(méi)有產(chǎn)生決定性的影響。

我們可以做一個(gè)反事實(shí)的思考。

如果沒(méi)有發(fā)明AlexNet，也許會(huì)有另一種架構(gòu)出現(xiàn)，同樣能夠有效處理ImageNet。

如果我們從未發(fā)現(xiàn)Transformer，也許我們會(huì)滿(mǎn)足于使用LSTM或SSM，或者找到其他完全不同的方法來(lái)學(xué)習(xí)網(wǎng)絡(luò)上的海量文本數(shù)據(jù)。

這與一些人持有的“數(shù)據(jù)決定論”不謀而合。

一些研究人員觀察到，在所有的訓(xùn)練技術(shù)、模型技巧和超參數(shù)調(diào)整中，真正起決定性作用的，往往是數(shù)據(jù)的改變。

一個(gè)極具說(shuō)服力的例子是，一些研究人員曾致力于開(kāi)發(fā)一種使用非Transformer架構(gòu)的新型BERT類(lèi)模型。

他們花費(fèi)了大約一年的時(shí)間，用數(shù)百種不同的方式調(diào)整架構(gòu)，最終成功制造出一種不同類(lèi)型的模型（狀態(tài)空間模型“SSM”）。

當(dāng)這個(gè)SSM模型在與原始Transformer相同的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)，它表現(xiàn)出了幾乎等同的性能。

這種等效性的發(fā)現(xiàn)意義深遠(yuǎn)。

它暗示了從一個(gè)給定的數(shù)據(jù)集中，我們所能學(xué)到的東西存在一個(gè)上限。

世界上所有的訓(xùn)練技巧和模型升級(jí)，都無(wú)法繞過(guò)這個(gè)冰冷的現(xiàn)實(shí)：一個(gè)數(shù)據(jù)集能提供的信息是有限的。

網(wǎng)址： http://www.incompleteideas.net/IncIdeas/BitterLesson.html

也許這種對(duì)新思想的冷漠，正是“苦澀的教訓(xùn)（The Bitter Lesson）”想要傳達(dá)給我們的。

04 未來(lái)范式的預(yù)期

如果數(shù)據(jù)是唯一重要的事情，為什么95%的人還在研究新方法？我們下一個(gè)范式轉(zhuǎn)移將來(lái)自哪里？

一個(gè)顯而易見(jiàn)的推論是，我們的下一個(gè)范式轉(zhuǎn)移不會(huì)來(lái)自對(duì)強(qiáng)化學(xué)習(xí)的改進(jìn)，也不會(huì)來(lái)自某種花哨的新型神經(jīng)網(wǎng)絡(luò)。

它將在我們解鎖一個(gè)以前從未接觸過(guò)，或者尚未被正確利用的數(shù)據(jù)源時(shí)到來(lái)。

一個(gè)很多人正在努力駕馭的明顯信息來(lái)源是視頻。

根據(jù)網(wǎng)絡(luò)上的一個(gè)隨機(jī)站點(diǎn)統(tǒng)計(jì)，每分鐘大約有500小時(shí)的視頻片段被上傳到Y(jié)ouTube。

這是一個(gè)驚人數(shù)量的數(shù)據(jù)，遠(yuǎn)遠(yuǎn)超過(guò)整個(gè)互聯(lián)網(wǎng)上的文本總量。視頻也可能是一個(gè)更豐富的信息來(lái)源。

它不僅包含文字，還包含文字背后的語(yǔ)調(diào)，以及無(wú)法從文本中收集到的關(guān)于物理和文化的豐富信息。

可以肯定地說(shuō)，一旦我們的模型變得足夠高效，或者我們的計(jì)算機(jī)變得足夠強(qiáng)大，谷歌就會(huì)開(kāi)始在YouTube上訓(xùn)練模型。

畢竟，他們擁有這個(gè)平臺(tái)，不利用這些數(shù)據(jù)來(lái)獲取優(yōu)勢(shì)是愚蠢的。

人工智能下一個(gè)“大范式”的另一個(gè)有力競(jìng)爭(zhēng)者，是某種具身化的數(shù)據(jù)收集系統(tǒng)，用普通人的話說(shuō)，就是機(jī)器人。

我們目前還無(wú)法以一種適合在GPU上訓(xùn)練大模型的方式，來(lái)收集和處理來(lái)自攝像頭和傳感器的數(shù)據(jù)。

如果我們能夠構(gòu)建更智能的傳感器，或者將計(jì)算機(jī)的規(guī)模擴(kuò)大到可以輕松處理來(lái)自機(jī)器人的海量數(shù)據(jù)涌入，我們或許就能以一種有益的方式利用這些數(shù)據(jù)。

很難說(shuō)YouTube、機(jī)器人還是其他什么東西會(huì)成為人工智能的下一個(gè)大事件。

我們現(xiàn)在似乎深深地扎根于語(yǔ)言模型的陣營(yíng)中，但語(yǔ)言數(shù)據(jù)似乎也正在被迅速耗盡。

如果我們想在人工智能領(lǐng)域取得進(jìn)展，也許我們應(yīng)該停止尋找新思想，而是開(kāi)始尋找新數(shù)據(jù)。

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開(kāi)支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.