「停止研究 RL 吧,研究者更應該將精力投入到產品開發中,真正推動人工智能大規模發展的關鍵技術是互聯網,而不是像 Transformer 這樣的模型架構。」
前 OpenAI 研究員 Kevin Lu 最近更新了一篇博客長文《The Only lmportant Technology ls The Internet》,直指互聯網才是推動人工智能進步的核心技術,是 next-token 預測的完美補充。
Kevin Lu 認為,沒有 Transformer 架構,我們可能也會擁有 GPT-4.5 級別的大模型。在 GPT-4 模型以來,基礎模型的能力并沒有顯著的提升,我們可能會像 2015-2020 年時代的 RL 研究一樣,重蹈覆轍,正在進行無關緊要的 RL 研究。
而互聯網提供了豐富而海量的數據來源,這些數據具有多樣性、能提供自然的學習課程、代表了人們真正關心的能力,并且是一種經濟上可行的規模化部署技術。相比之下,單靠優化模型結構、手工制作數據集或微調算法,都難以帶來模型能力質的飛躍。
有趣的是,Kevin Lu 此前在 OpenAI 任職時的主要研究方向之一正是 RL。在推特上,有博主評論道,「當一位前 OpenAI RL 人員說不要做 RL 時,這是值得關注的。」也有網友猜測,OpenAI 前 CTO Mira Murati 離職創業,正是可能發現了這一點。
OpenAI 的 Agent Reseacher 姚順雨也在「X」轉發了 Kevin Lu 的這篇文章,表示文章和他此前的有很多相關聯的觀點。
以下是《The Only lmportant Technology ls The Internet》的全文,在不改變原意的前提下,Founder Park 進行了編譯和微調。
超 9000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
盡管 AI 的進步通常被歸功于 transformers、RNNs 或 diffusion 等里程碑式的研究,但這種看法忽略了人工智能的根本瓶頸:數據。擁有好的數據意味著什么?
如果我們真心希望推動 AI 的發展,那我們應該研究的不是深度學習優化,而是互聯網本身。互聯網才是真正解鎖了 AI 模型規模化擴展(scaling)的技術。
01Transformers 只是一個干擾項
在架構創新的驅動下,人工智能在 5 年內,實現了從 AlexNet 到 Transformer 的發展,現在許多研究者也一直在尋求更優的架構先驗(architecture priors)。人們紛紛猜測,是否能設計出超越 transformer 的架構。事實上,自 transformer 問世以來,確實已經有更好的架構被開發出來,但為何我們很難感受到自 GPT-4 之后的進步呢?
范式的轉換
算力受限 (Compute-bound)時代。曾幾何時,算法的性能與算力同步增長,效率更高的方法表現也更優。當時的關鍵在于如何將數據盡可能高效地「塞入」到模型中,這些方法不僅取得了更好的結果,而且似乎隨著規模的擴大而不斷改進。
數據受限 (Data-bound)時代。實際上,研究并非毫無用處。自 transformer 之后,學術界確實開發出了更好的方法,例如 SSMs (Albert Gu et al。 2021) 和 Mamba (Albert Gu et al。 2023)等。但我們并不認為它們是簡單的勝利:在固定的訓練算力下,訓練一個 transformer 依然能獲得更佳的性能。
但數據受限的范式也帶來了一種解脫:既然所有方法的最終性能都將趨于一致,不妨選擇對推理階段最有利的方法,這很可能是一些亞二次方(subquadratic)的注意力變體,而且我們可能很快就會看到這些方法重新回到聚光燈下(參見《Spending Inference Time》)。
研究人員應該做什么?
現在,假設我們的目標不「僅僅」是推理(這屬于「產品」層面),而是追求漸進的終極性能(即「AGI」)。
顯然,執著于優化架構是錯誤的;
糾結于如何裁剪 Q-function 的軌跡也絕對是錯誤的;
手動構建新數據集的模式無法規模化;
你提出的時間高斯探索方法(temporal Gaussian exploration method)很可能也無法規模化。
大部分學術界成員已經達成了共識:我們應該研究消費數據的新方法。目前主要存在兩大范式:
下一個 token 預測 (next-token prediction)
強化學習 (reinforcement learning)。
但很顯然,我們在創造新范式上進展寥寥。
02人工智能的本質:消費數據
那些里程碑式的研究工作,都為消費數據提供了新的途徑:
AlexNet (Alex Krizhevsky et al. 2012) 使用 next-token 預測消費了 ImageNet 數據集;
GPT-2 (Alec Radford et al. 2019) 使用 next-token 預測消費了互聯網上的文本;
原生多模態模型 GPT-4o、Gemini 1.5 等使用 next-token 預測來消費互聯網上的圖像和音頻;
ChatGPT 使用強化學習消費了聊天場景中充滿隨機性的人類偏好獎勵。
Deepseek R1 使用強化學習來消費了特定領域內具有確定性的可驗證獎勵。
就 next-token 預測而言,互聯網是完美的解決方案:它為這種基于序列的學習方法,提供了海量的、具有序列關聯性的數據。
圖:互聯網充滿了以 HTML 結構呈現的序列,天然適合于 next-token 預測。根據數據排序方式的不同,模型可以習得各種實用能力。
這并不是巧合:這種序列數據完美契合 next-token 預測,互聯網與 next-token 預測是相輔相成的。
行星級的海量數據
Alec Radford 在 2020 年的一次演講中富有遠見地指出,盡管當時提出了各種新方法,但與精心整理更多數據相比,這些方法都顯得無足輕重。我們不再寄希望于通過更好的方法(比如讓損失函數實現一個解析樹)來實現「神奇的」泛化能力,而是遵循一個簡單的原則:如果模型沒有被告知某件事,它當然就不會知道。
我們不再需要通過構建大型監督數據集來手動規定模型的預測內容…… 而是要想辦法讓模型學習和預測「外面世界」的一切。 你可以把我們每一次構建數據集的行為,都看作是相當于把數據集中所有信息的權重設為 1,將世界上其他一切息的權重設為 0。
我們可憐的模型!它們所知甚少,卻仍有海量的信息被屏蔽在外。
在 GPT-2 之后,世界開始關注 OpenAI,時間也證明了它的影響力。
如果我們有 Transformers 卻沒有互聯網呢?
那數據從哪里來?
在低數據量的情境下:一個顯而易見的假設是,在低數據情境下,transformers 將一文不值。我們認為其「架構先驗」劣于卷積網絡或循環網絡,因此其性能理應更差。
依賴書籍:一個不那么極端的情況是,如果沒有互聯網,我們可能會在書籍或教科書上進行預訓練。在所有人類數據中,我們通常可能認為教科書代表了人類智慧的頂峰,其作者接受了大量教育,并為每個詞句傾注了大量心血。從本質上講,這印證了「數據質量優于數量」的理念。
教科書的局限性:phi 模型(源自論文《Textbooks Are All You Need》;Suriya Gunasekar et al. 2023)展示了小模型的出色性能,但仍然需要依賴在互聯網上預訓練的 GPT-4 來進行數據篩選和生成。據 SimpleQA (Jason Wei et al。 2024) 的測量,phi 模型與學者類似,phi 模型與同等規模的模型相比,其世界知識儲備也相對較差。
phi 模型確實相當不錯,但我們尚未看到這些模型能夠達到其基于互聯網訓練的同類模型的終極性能,而且很明顯,教科書缺乏大量的現實世界和多語言知識(盡管在算力受限的場景下它們表現非常強大)。
數據的不同分類
我認為這里與我們之前對 RL 數據的分類有著有趣的關聯。教科書就像「可驗證的獎勵」,它們的陳述(幾乎)總是正確的。相比之下,書籍(尤其是在創意寫作領域)可能包含更多關于人類偏好的數據,能賦予模型更豐富的多樣性。
就像我們可能不信任 o3 或 Sonnet 3.7 來進行創作一樣,我們也可能認為一個僅用高質量數據訓練的模型會缺乏創造性。與此相關的是,我們前文提到的 phi 模型并沒有很好表現出 PMF(product-market fit):當用戶需要知識時,他們更傾向于選擇一個大模型。當他們想在本地使用一個角色扮演寫作模型時,通常不會選擇 phi。
03互聯網對模型訓練非常有用
實際上,書籍和教科書只是互聯網上可用數據的壓縮形式,即便其壓縮過程背后有強大智能的參與。從更高維度來看,互聯網為我們的模型提供了一個極其多樣化的監督來源,也是人類社會的一個縮影。
互聯網使用時間線(圖源:DataReportal)
乍一看,許多研究者可能會覺得,為了在研究上取得進展而將目光轉向產品,是一件奇怪的事情,甚至會分散精力。但我認為這其實很自然:假設我們關心的是 AGI 能為人類做些有益的事情,而不僅僅是像 AlphaZero 在真空環境中表現出智能能力,那么思考 AGI 最終的產品形態就是有意義的。而且我認為,研究(預訓練)和產品(互聯網)之間的協同設計是非常美妙的。
Thinking Machines Lab,從實踐中學習(圖源:Thinking Machines Lab)
去中心化與多樣性
互聯網是去中心化的,任何人都可以以民主的方式貢獻知識,這里沒有唯一的真理來源。互聯網上存在著大量多元視角、文化符號和低資源語言。如果我們用一個大語言模型在這些數據上進行預訓練,我們就會得到一個理解海量知識的智能體。
這意味著產品的管理者(即互聯網的管理者)在 AGI 的設計中扮演著重要角色。如果我們破壞了互聯網的多樣性,我們模型的熵(entropy)在 RL 中的可用性將大打折扣。而如果我們刪除了某些數據,就等于將整個亞文化從 AGI 的認知版圖中抹去。
對齊 (Alignment)。有一個非常有趣的研究結果表明,為了得到「對齊」的模型,你必須在對齊和非對齊的數據上同時進行預訓練(《When Bad Data Leads to Good Models》;Kenneth Li et al. 2025) ,因為預訓練能借此學習到區分兩者的線性邊界。如果你丟棄所有非對齊數據,模型將無法深刻理解什么是非對齊數據,以及它為何不好(另見 Xiangyu Qi et al.2024 和 Mohit Raghavendra et al. 2024)。
去毒性結果。數值越高("Toxigen")表示毒性越大。在 10% 有毒數據上預訓練的模型(10% Toxic data + steering (ours))比在 0% 有毒數據上預訓練的模型(Clean data + steering)毒性更低。
值得一提的是,上述的「有毒」數據來自 4chan,一個以無限制討論和不良內容而聞名的匿名在線論壇。雖然這是一個產品與研究深度關聯的特例(我們需要無限制的討論來獲得對齊的研究模型),但不難想象,還有更多類似的互聯網設計決策,會深遠影響模型的訓練結果。
一個非對齊的例子,請參見 DALL-E 3 背后的技術論文《Improving Image Generation with Better Captions》(James Betker et al. 2023),通過重新生成描述來更好地區分「好」和「壞」的圖像,這種方法如今已在幾乎所有生成模型中得到應用,其原理與人類偏好獎勵中的「贊」與「踩」有異曲同工之妙。
互聯網作為一項技能課程
互聯網的另一個重要特性是它包含了各種難度不一的知識:從小學教育知識(Khan Academy),到大學水平的課程(MIT OpenCourseWare),再到前沿科學(arXiv)。如果你只用前沿科學來訓練模型,那么大量未明言的、需要意會的背景知識,模型將無從學起。
這一點很重要,想象你用一個數據集訓練了模型,它學會了。下一步呢?你只能手動去策劃下一個。OpenAI 最初以每小時 2 美元的時薪雇人標注數據,后來升級到時薪約 100 美元的博士,現在他們的前沿模型已經能執行 o 系列模型的軟件工程任務。
但這工作量很大,我們從手動收集像 CIFAR 這樣的數據集開始,然后是 ImageNet,再然后是更大的 ImageNet……或者從小學數學,到 AIME,再到 FrontierMath。但是,互聯網憑借其服務全球的行星級規模,自然涌現出了一條難度平滑的學習路徑。
RL中的課程。當我們轉向強化學習時,課程扮演著更重要的角色:由于獎勵信號是稀疏的,模型必須先理解解決任務所需的子技能,才能獲得一次非零獎勵。一旦成功,它就可以分析成功經驗并嘗試再次復制成功,從而在稀疏獎勵下實現驚人的學習效果。
但天下沒有免費的午餐:模型仍然需要一個平滑的課程才能有效學習。預訓練的目標是密集的,因此容錯率更高;為了彌補稀疏獎勵的不足,RL 必須依賴一個密集的課程。
用于目標達成的 RL 課程(圖源:Yunzhi Zhang et al.2020)
RL 智能體首先學習達成靠近迷宮起點的目標,然后才學習達成更遠的目標。
自我博弈(self-play)(例如在 AlphaZero 或 AlphaStar 中所用)也創造了一個課程(盡管局限于國際象棋或星際爭霸等狹窄領域)。就像 RL 智能體或視頻游戲玩家想要獲勝(從而發現新策略)一樣,互聯網用戶也想要貢獻新想法(有時會獲得點贊或廣告收入),這便拓展了知識的邊界,形成了一套自然的學習課程。
苦澀的教訓 (The Bitter Lesson)
因此,我們必須牢記:人們是真心想要使用互聯網的,所有這些有價值的特性,都是他們與這個「產品」互動的結果。如果必須手動策劃數據集,那么被策劃的內容和人們認為有用的能力之間就會存在脫節。決定何為有用技能的,不應該是研究者,而應該是互聯網用戶。
人們真正想要使用互聯網的部分原因在于,這項技術對每個用戶來說足夠便宜,從而得以廣泛普及。如果互聯網需要昂貴的訂閱費,用戶就不會大規模地貢獻他們的數據。(另見:https://news.ycombinator.com/item?id=2110938)
我認為人們在討論規模擴展時常常忽略這一點,但互聯網是擴展學習和搜索(數據和計算)的簡單想法,如果你能找到這些簡單的想法并擴展它們,你就會得到很好的結果。
AGI 是人類的記錄
所以,我認為除了數學理論之外,我們還有充足的空間來討論 AGI 應該如何構建:互聯網(以及延伸出來的 AGI)可以從許多視角來考慮,從哲學到社會科學。眾所周知,LLMs 會持續存在他們訓練數據的偏差。如果我們用 20 世紀的數據來訓練一個模型,我們將得到一個可以永久保存的 20 世紀語言結構的快照。我們可以實時觀察人類知識和文化的演變。
在 Wikipedia 文章和 Github 倉庫中,我們可以看到人類智能的協作本質。我們可以模擬合作和人類對更完美結果的渴望。在在線論壇中,我們可以看到辯論和多樣性,人類在這貢獻新想法(并且通常受到某種選擇性壓力以提供一些新想法)。從社交媒體中,AI 學習到人類認為重要到足以與親人分享的事物。它看到了人類的錯誤,以及為修正錯誤而發展的過程,和對真理永恒的追求。
正如 Claude 所寫:
AI 學習的不是我們最好的一面,而是我們完整的面貌——包括爭論、困惑以及集體意義構建的混亂過程。
簡要來說,互聯網之所以對模型訓練非常有用,原因在于:
具有多樣性,包含了大量對模型有用的知識;
為模型學習新技能提供了一條天然的學習路徑。
人們想要使用它,因此他們持續貢獻更多數據(PMF)。
它具有經濟性,這項技術足夠便宜,可供大量人類使用。
04互聯網是 next-token 預測的對偶
強化學習代表未來,甚至是實現超人智能的「必要條件」,這一點或已成為共識。但是,如前所述,我們缺乏供 RL 消費的通用數據源。獲得高質量的獎勵信號是一場艱苦的斗爭:我們要么爭取純凈的聊天數據,要么在零散的可驗證任務中搜尋。而且我們發現,別人的聊天偏好不一定符合我的喜好,而在可驗證任務上訓練的模型,也未必在我關心的非可驗證任務上表現更佳。
互聯網是監督式 next-token 預測的完美補充。我們甚至可以斷言:在以互聯網為基底的情況下,研究人者必然會收斂到 next-token 預測這條路線上。我們可以將互聯網視為孕育人工智能誕生的「原始湯」。
因此,互聯網是 next-token 預測的對偶(dual)。
注:這里的「對偶」是一種隱喻,指兩個概念或系統之間存在一種深刻且往往是對稱的對應關系。
ML 術語 (研究)
產品術語 (對偶)
next-token prediction
互聯網 (internet)
序列數據 (sequential data)
HTML 文件
訓練-測試集差異 (train-test divergence)
產品市場契合度 (product-market fit)
推理成本 (inference cost)
經濟可行性 (economic viability)
魯棒表示 (robust representations)
冗余性(相同信息以多種方式表達)
主動學習 (active learning)
用戶參與度 (user engagement)
多任務學習 (multi-task learning)
行星級規模的多樣性 (planetary-scale diversity)
進化適應度 (evolutionary fitness)
點贊 (upvotes)
涌現 (emergence)
病毒式傳播 (virality)
如上所述,盡管我們付出了所有的研究努力,我們仍然只有兩種主要的學習范式。因此,提出新的「產品」想法可能比提出新的主要范式更容易。這就引出了一個問題:強化學習的對偶是什么?
RL優化困惑度
首先,我注意到有些研究工作通過使用困惑度(perplexity)作為獎勵信號,將 RL 應用于 next-token 預測的目標(Yunhao Tang et al. 2025) 。這個方向旨在搭建一座橋梁,連接 RL 的優勢和互聯網的多樣性。
然而,我認為這有些誤入歧途,因為 RL 范式的美妙之處在于它讓我們能夠消費新的數據源(獎勵),而不是作為一種為舊數據建模的新目標。例如,GANs (Ian Goodfellow et al。 2014) 曾是一種從固定數據中獲取更多信息的強大目標函數,但最終被 diffusion 模型超越,然后最終又回到了 next-token 預測。
真正最激動人心的是找到(或創造)供 RL 消費的全新數據源!
強化學習的對偶是什么?
目前流傳著幾種不同的構想,但每種都有弊端。它們沒有一個是「純粹」的研究想法,而是涉及到圍繞 RL 構建一個產品。在這里,我將對這些可能性進行一些推測。
回想一下,我們期望的特性是:多樣性、自然的學習路徑、產品市場契合度以及經濟可行性。
傳統獎勵
人類偏好 (RLHF):如上所述,這類數據收集困難,因人而異,且充滿噪聲。從 YouTube 或 TikTok 的例子可以看出,它們傾向于優化「用戶參與度」而不是智能。能否證明提升參與度就能提升智能,仍有待觀察。
但未來幾年,我們無疑會看到大量 RL 在 YouTube 上的應用 (Andrej Karpathy)。
可驗證獎勵 (RLVR):這些獎勵僅限于狹窄的領域,且泛化能力有限;o3 和 Claude Sonnet 3.7 的表現便是例證。
應用場景
機器人學 (Robotics):許多人夢想在未來十年內建立大規模的機器人數據收集管道和增長飛輪,將智能帶入現實世界,這無疑是激動人心的。但機器人初創公司的高失敗率也證明了其挑戰性。對于 RL 而言,挑戰包括獎勵難以標注、機器人形態各異、模擬與現實存在差距、環境非平穩等等。正如自動駕駛汽車所揭示的,它在經濟上也未必可行。
推薦系統:這可以視為人類偏好的延伸,但更具有針對性。我們可以用 RL 向用戶推薦某些產品,觀察用戶是否使用或購買。但這要么會因領域過于狹窄而受限,要么在擴展到更寬泛的領域(如「人生建議」)時,面臨更嚴重的獎勵噪聲問題。
AI研究:我們可以用 RL 來進行「AI 研究」(AI Scientist;Chris Lu et al. 2024),訓練一個模型去訓練其他模型,以最大化基準測試性能。這看似是一個廣闊的領域,但在實踐中卻很狹窄。此外,正如 Thinking Machines 所說:「最重要的突破往往來自重新思考我們的目標,而不僅僅是優化現有指標。」
交易 (Trading):現在我們有了一個有趣的、基本無法被「破解」的指標(盡管模型可能會學會市場操縱),但你很可能會在這個過程中虧掉很多錢(你的 RL 智能體很可能會學會「不參與」)。
計算機操作數據:RL 的本質是教授模型一個過程,因此我們可以教它在計算機上執行操作(類似機器人學),Adept 公司就曾做過此嘗試。若能結合人類操作數據(許多交易公司都記錄了員工數據),便可融合 next-token prediction 和 RL。但這同樣不易,且人們通常不會同意自己的數據被記錄(與互聯網不同,在網上互動即意味著貢獻內容,但多數人不會同意安裝鍵盤記錄器)。
編碼與此相關。針對已有測試用例的 RL 是可驗證的,但生成測試用例(以及大規模系統設計、建模技術債務等)則不是。
最后一點思考:無論是用于視頻游戲、讓 Claude 嘗試運營一臺自動售貨機,還是其他任何與利潤或用戶參與度相關的概念。這或許能奏效,但挑戰在于,如何將這種單一的成功轉化為一種多樣化的獎勵信號,并將其規模化成一場規模化的范式轉變。
無論如何,我認為我們距離發現強化學習的正確對偶,一個像互聯網一樣優雅且高效的系統,還有很長的路要走。
我們可憐的模型!它們所知甚少,卻仍有海量的信息被屏蔽在外。
今天,我們的 RL 智能體又錯過了哪些信息呢?
但我希望你能帶著這個夢想離開:總有一天,我們會找到創造它的方法,而那將是一件大事:強化學習流形(強化學習的對偶)。
原文鏈接:https://kevinlu.ai/the-only-important-technology-is-the-internet
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.