【CSDN 編者按】在這個 LLM 飛速演進的時代,我們總習慣將“進步”歸功于新的模型架構、算法創新或更炫的技術名詞。而本文作者提出了一個值得深思的觀點:AI 的真正飛躍,或許從來都不是由“新想法”驅動,而是“新數據源”的覺醒。
原文鏈接:https://blog.jxmo.io/p/there-are-no-new-ideas-in-ai-only
作者 | Jack Morris 翻譯 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
投稿或尋求報道 | zhanghy@csdn.net
大多數人都知道,過去 15 年里 AI 取得了驚人的進步——尤其是在過去 5 年。很多人都認為這種進步是“不可阻擋的”,盡管真正的范式突破并不常見,但技術還是在一系列緩慢而穩定的進展中不斷發展。甚至有人提出了“AI 版摩爾定律”一說,認為計算機完成某類任務(比如編程)的能力正以指數級增長:
盡管出于多種原因,我并不完全認同“AI 摩爾定律”的說法,但必須承認,AI 正在以肉眼可見的速度不斷進步。每年,我們的 AI 模型都在變得更聰明、更快、更便宜,這種趨勢短期內還看不到盡頭。
大多數人都認為,這種持續的進步來自于學術界(主要是 MIT、斯坦福、CMU 等)和工業界(如 Meta、Google以及一些中國研究機構)源源不斷的新研究思路。由于這些研究的推動,我們確實取得了很大進展,特別是在系統方面。正是這些改進,讓我們能更高效、更便宜地訓練模型。以下是我挑選的幾項近幾年比較重要的研究成果:
● 2022 年,斯坦福提出 FlashAttention:一種優化語言模型內存利用的算法,如今幾乎所有主流模型都在用;
● 2023 年,Google 提出“推測解碼”(Speculative Decoding):幾乎所有模型廠商都用它來加速推理(我記得DeepMind 也在同期做過類似研究);
● 2024 年,一群互聯網愛好者推出 Muon:一種比 SGD 或 Adam 更高效的優化器,可能會成為未來訓練 LLM 的主流方案;
● 2025 年,DeepSeek 推出 DeepSeek-R1:一款開源模型,其推理能力與 Google 和 OpenAI 等公司推出的類似閉源模型相當。
可以說,我們的研究體系正在不斷探索新路徑,而且事實比你想象的還要酷:我們正在進行一場去中心化、全球化的科學實踐,研究成果在 ArXiv、學術會議、社交媒體上公開分享,每個月我們都在變得更聰明一點點。
既然研究做得這么多,為什么還有人說 AI 進展“放緩”了?前陣子發布的Grok 3 和 GPT-4.5,與它們的前代產品相比,能力提升非常有限。一個特別明顯的例子是:當這些大語言模型被拿去做最新的國際數學奧林匹克的題目時,得分只有 5%——換句話說,那些看起來很“炸裂”的發布會可能夸大了模型真實的推理能力。
如果我們把視野拉遠,只關注真正意義上的范式轉變,你會發現它們出現的頻率其實很低。下面我來列舉幾個我能想到的。
LLM的四次范式轉變
(1)深度神經網絡(DNN):2012 年,AlexNet 在 ImageNet 圖像識別競賽中獲勝,正式揭開深度神經網絡的時代。
(2)Transformer 架構 + 大語言模型:2017 年,Google 發表論文《Attention Is All You Need》,提出 Transformer 架構,隨后推出 BERT(2018)和 GPT(OpenAI,2018)。
(3)基于人類反饋的強化學習(RLHF):最早由 OpenAI 在 2022 年的 InstructGPT 論文中系統提出。
(4)推理能力模型的崛起:2024 年OpenAI 發布了 o1,隨后DeepSeek推出了 R1。
你可以粗略地把這些過程總結成一條主線:DNN → Transformer → RLHF → 推理模型。一開始我們只是做圖像識別,接著進入文本分類時代,再到能聊天的模型,現在則有了推理模型。
現在問題來了:如果我們希望促成第五次這樣的重大突破,那得從這四次中吸取哪些經驗?
從技術的本質來看,這四次飛躍其實都不是“從天而降的新思想”。甚至可以說,它們的基礎理論早在1990 年代就已成型。所謂的深度神經網絡和 Transformer,本質上都是簡單的神經網絡架構,訓練方式要么采用監督學習,要么采用強化學習。
我們今天用于預訓練語言模型的主要方法——基于交叉熵的監督學習,源于Claude Shannon在 20 世紀 40 年代的研究。而通過 RLHF 和推理訓練對語言模型進行微調的主要方法——強化學習,則稍新一些,可以追溯到 1992 年提出的策略梯度法(這些想法在 1998 年Sutton & Barto的《強化學習》教材第一版中就已有詳解)。
如果我們的想法并非新創,那什么才是新的?
好,我們先接受一個設定,前面提到的那些“重大突破”,其實都只是把早就存在的思路以新的方式應用了一遍。那么,這對“下一次突破”(也就是我前文提到的“第五次重大突破”)意味著什么?答案是:下一個突破,大概率也不是來自某個全新的原創概念,而是我們早就知道、但還沒充分挖掘的老東西。
但還有一塊關鍵拼圖我們不能忽略:每一次范式轉變的背后,都對應著一個全新數據源的啟用。我們來回顧一下這四次突破背后的數據變化:
(1)AlexNet 的出現開啟了 ImageNet 時代:這是第一個大規模標注圖像的數據集,直接推動了接下來十多年計算機視覺領域的快速進展。
(2)Transformer 成功解鎖了“全網文本”這個數據源:AI開始瘋狂爬取、清洗、整理整個互聯網的文本內容(如今基本已經爬得差不多了)。
(3)RLHF 讓我們開始從“人類偏好”中學習:人類用點擊、評分等方式告訴模型什么是“好文本”(雖然標準比較主觀)。
(4)推理模型開啟了“驗證器”作為監督源:我們開始嘗試從像計算器、編譯器這樣的工具中獲取“結果對不對”的信號。
要記住,這些里程碑事件的意義在于:它們首次讓各自對應的數據源(ImageNet、互聯網、人類反饋、驗證器)得到了規模化應用。每個里程碑之后都伴隨著一陣研究熱潮:研究者們一方面競相從所有可用來源中汲取剩余的有用數據,另一方面通過各種新技巧提高系統效率、降低數據需求,以求更好地利用現有數據。
我預計在 2025 到 2026 年,推理模型也將走入這一階段:研究者將爭先恐后地定義、標注、驗證各種能被“推理監督”的數據。
“新想法”到底有多重要?
有人可能會說:技術創新不重要,那總不能全靠數據吧?
但讓我們做個反設:如果沒有 AlexNet,也可能會出現其他模型來處理 ImageNet;如果沒有 Transformer,也可能會有人用 LSTM 或 SSM(State Space Model)類結構吃下互聯網上的海量文本。
這就呼應了一些人提過的理論:“只有數據才是關鍵”。有研究者嘗試用 SSM 架構構建一個類似 BERT 的模型,他們花了一年時間調整模型的架構和超參數,最終效果跟 Transformer 差不多——只要訓練數據是一樣的。
這個結果其實非常值得深思:它意味著對于同一份數據,模型最終所能學到的東西是有“上限”的。無論你怎么花里胡哨地調模型、調優化器,如果數據沒變,那學習能力的天花板也就差不多固定了。
或許,這正是 Sutton 在《苦澀的教訓(The Bitter Lesson)》中想要傳達的核心:長期來看,起決定性作用的不是“人類智慧”,而是計算與數據。那么問題來了:既然最重要的是數據,為什么 95% 的研究人員還在研究新模型、新方法?
下一次 AI 范式轉變將從哪里來?
如果我們接受了這個觀點——AI 的范式轉變來源于“數據源的革命”而非“方法的發明”——那下一次的關鍵突破,很可能是某種尚未被大規模用于訓練的數據資源的解鎖。
目前很多人都在努力攻克的一個明顯信息源是視頻。據某網站統計,每分鐘有大約 500 小時的視頻上傳到 YouTube。這是一個驚人的數據量,遠超互聯網上所有文本的總和。視頻的信息密度也更高:不僅包含語言和語調,還包含視覺、物理動作、情緒甚至文化背景,這些是單純的文本遠遠無法提供的。
可以肯定的是,一旦模型推理速度足夠快,或者 GPU 能力足夠強,Google(作為 YouTube 的擁有者)極有可能率先行動,開始訓練以視頻為核心輸入的 AI 模型——畢竟他們就擁有這個數據平臺,沒理由不用。
另一個熱門方向是“具身智能體”,也就是普通人所理解的“機器人”。目前,我們還沒辦法像處理文本或圖片那樣,去高效處理攝像頭、傳感器等源源不斷流入的原始物理世界數據。原因之一,是這些數據不夠結構化、不適合直接喂給大模型;另一原因是計算資源還跟不上。
如果我們能做出更聰明的感知系統,或者算力提升到能輕松處理機器人所見所聞的程度,我們就可以用這些現實世界的數據,來驅動一波新的 AI 飛躍。
當然了,現在還很難說到底是 YouTube、機器人,還是其他未被發掘的數據源將成為 AI下一個 “大事件”的起點,但可以確定的是:語言數據正在枯竭。如果我們想在 AI 領域繼續取得進展,或許應該停止尋找新想法,轉而開始尋找新的數據。
AI 產品爆發,但你的痛點解決了嗎?
2025 全球產品經理大會
8 月 15–16 日
北京·威斯汀酒店
互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人
12 大專題分享,洞察趨勢、拆解路徑、對話未來。
立即掃碼領取大會PPT
搶占 AI 產品下一波紅利
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.