新智元報道
編輯:KingHZ
【新智元導讀】不是更大模型,而是更強推理、更像人!AGI離落地,還有多遠?OpenAI前研究主管表示,AGI所需突破已經實現!
AGI所需突破已經實現!
OpenAI前研究主管Bob McGrew公開表示:AGI的「技術拼圖」已經齊全,關鍵在于如何將推理能力落地,并重塑價值創造路徑
作為研究主管,他見證了OpenAI從GPT-3的突破到如今推理模型的演變。
他認為,實現通用人工智能 (AGI) 的三大支柱是:
Transformer、規模化預訓練和推理。
AI能力持續增強。在過去五年中,技術發展迅猛、令人興奮。
而且這一趨勢仍在延續,他認為并不存在所謂的「技術墻」。
在紅杉的「訓練數據」(Training Data)系列播客中,他分享了關于AI的洞見。
AGI拼圖已現
「除了預訓練、后訓練、推理這三部分外,未來可能不會再出現根本性突破?!?/p>
Bob McGrew的這個觀點可能有爭議。
但如果穿越到2030年, 總結實現更高智能(也許是AGI,也許是其他形式)所需的根本概念。
他認為,最終會得出全部關鍵點:
1. 基于transformer的語言模型;
2. 大規模預訓練(比如GPT-1和GPT-2);
3. 推理能力的引入與不斷提升;
4. 越來越多的多模態能力。
他甚至認為,到了2035年,我們仍然不會看到這些之外的新趨勢。為什么這么認為?
回到2020年,那時GPT-3剛訓練完成。可以想象一下當時OpenAI的情景:模型還未發布,但已經知道它帶來了「劃時代的變革」。
Dario Amodei、Ilya Sutskever、Alec Radford等一群人圍坐在辦公室,盯著這個模型。他們很清楚接下來的路線圖是什么:
從GPT-3到GPT-4,預訓練規模必須擴大;
必須增強多模態能力,最終發展出能使用電腦的模型;
開始探索「測試時計算」(test time compute)。
所以Bob認為,從現在起大家會繼續擴大、改進和打磨這三個概念。這非常難,需要大量智慧和努力。但若干年后再回頭看,我們不會看到有其他新出現的根本性技術趨勢。
他認為如果錯了,那未來將更加精彩。但現在,他覺得他是對的。
為什么說今年是推理之年
我們正處在AI發展的關鍵節點,見證了預訓練、后訓練與推理三者的融合。
而2025年是「推理之年」。
推理是種新技術。從2023年9月的o1-preview,到六個月后的2024年4月發布o3,僅用了六個月,期間進展迅猛。
同時,OpenAI多年開發的推理能力,正在向Google、DeepSeek、Anthropic等公司擴散——只在短短幾個月內就實現了。
這說明,推理是各大實驗室今年的重點方向。
而且推理模型領域目前還有很多成果,唾手可得。例如,o1-preview與o3之間最大的區別在于:
前者無法使用工具,而后者則能在「思維鏈」(Chain of Thought)中調用工具。
在訓練o1時,OpenAI就知道推理很值得做,但實現起來很難,最終他們用了六個月將其開發并發布。
但推理的下一步并不直觀。
隨著推理能力趨于成熟,技術潛力也將逐漸被「消耗殆盡」。因此,進展的速度可能會放緩,不再像前期那樣迅猛。
預訓練
地位仍在,但角色轉型
許多人說:「預訓練正面臨瓶頸」「Scaling Law即將終結」……
但Bob認為:「預訓練仍然重要,但收益遞減。」
之所以會出現收益遞減,是因為模型的智能增長與所投入的算力呈對數線性關系——也就是說,要提升一定幅度的智能,就必須成倍增加算力。
本質上,預訓練是規模巨大、耗時持久的訓練過程,要用整個數據中心持續運行好幾個月。而當要訓練下一個新模型時,通常要在多個數據中心上完成。
這可以依賴一些算法效率的提升,但從根本上說,必須等新的數據中心建成。這無法像推理那樣在六個月內完成改進,而是需要數年的時間。
不過,這并不意味著預訓練無用。
2025年,預訓練的真正杠桿在于架構的改進。
即使正在重點開發推理能力,仍然希望改進預訓練,提高推理時的效率、支持更長的上下文或更好地利用上下文。而要做到這些時,就必須從頭開始,在新架構上重新進行預訓練,然后再進入整個推理優化流程。
所以,預訓練仍然重要,但它在整個流程中扮演的角色已經發生了變化。
后訓練
模型的人格
預訓練和推理的目標是提升智能。在這兩個環節中,有明確的「Scaling Law」:
投入更多算力,就能獲得更高的智能。
后訓練不提升智能,而是塑造模型的「人格」,與「智能」完全不同。
本質上,智能是「薄問題」(thin problem),只要做得更好,它的適應能力和泛化能力就會提升,幾乎可以遷移到任何任務上——
比如你在數學上做得更好,就能更好地應對法律推理問題。
但「模型人格」是「厚問題」(thick problem)。
這需要去思考:「我希望這個智能體表現出什么樣的個性?我希望它如何行動?」更像是人類多年與他人互動的成長過程。
而如何將人類對「好人格」的定義,轉化為真實、吸引人的AI人格,這本身就非常難,值得深入研究。
這需要像OpenAI的Joanne Jang(下圖左)或Anthropic的Amanda Askell(下圖右)之類的「產品經理」,專門去設計模型人格。
她們對人性有非常深刻的理解。
推理演進路徑與挑戰
推理為何關鍵?
主持人Sonya Huang對推理很感興趣。
而OpenAI似乎很早就堅定地押注在這個推理范式上,可能比其他實驗室都要早。
所以她問了Bob一個問題:「最初OpenAI為什么會對推理下注這么重?」
Bob McGrew認為推理是AGI缺失的關鍵拼圖。
預訓練可以讓模型對問題有一種「直覺式的理解」。
但如果讓人馬上去計算2個五位數的乘法,對一般人來說完全做得到,但不能立刻得到準確結果。因為人類天生就需要「在回答前思考」——
人類需要「草稿紙」,慢慢推導。這就是早期模型(甚至包括GPT-3)所不具備的能力。
后來OpenAI開始關注到一些公開實驗的啟示——比如「逐步思考」(step by step thinking)、「思維鏈」(chain of thought)等概念。
OpenAI意識到模型可以自己引導推理過程,而不是僅僅模仿人類如何思考的樣本。這種能力非常強大,而且可以被訓練出來。
他們知道這會比單純的預訓練更具潛力,因為:
人類的思維是在腦子里的,不是模型能直接獲取的數據;
公開的數據幾乎都是「最終答案」,模型看不到中間推理過程;
所以模型必須自己推導出「思考的方式」。
這就是為什么OpenAI如此看重推理。
之前,Bob提到:「我們尚未揭示完全推理?!?/p>
主持人Stephanie Zhan繼續追問道:「我們現在對推理理解得足夠了嗎?還是說還處在早期研發階段?」
Bob McGrew認為行業一線依舊能看到大量新想法和細節上的改進,但局外人已經看不懂了。
現在,很多進展已經不會公開出現在論文中了。
就像以前,學術界還能做出很大的突破。但后來,當Bob再看到學術論文時,他會想:「哦,這個我們早就做過了,他們剛剛又重新發現了一次?!?/p>
如今,投入到這個方向的精力已經非常巨大。
因此,確實還有很多東西可以探索,但它們已經不是三言兩語可以講清楚的點子了。
參考資料:
https://www.youtube.com/watch?v=z_-nLK4Ps1Q
https://www.sequoiacap.com/podcast/training-data-bob-mcgrew/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.