OpenAI自曝：AI推理砸錢越多，碾壓人類越狠！

2025-05-18 12:50:53　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】你以為GPT-4已經(jīng)夠強(qiáng)了？那只是AI的「預(yù)熱階段」。真正的革命，才剛剛開始——推理模型的時代，來了。這場范式革命，正深刻影響企業(yè)命運(yùn)和個人前途。這不是一場模型參數(shù)的升級，而是一次認(rèn)知邏輯的徹底重寫。

AI推理模型改變了一切。

而OpenAI早有討論。

最近，他們放出了過去關(guān)于推理模型重寫未來的討論。

OpenAI研究員Noam Brown強(qiáng)調(diào)了預(yù)訓(xùn)練和推理兩種關(guān)鍵的AI范式，以及模型隨著處理更多數(shù)據(jù)和計算能力的提升而不斷改進(jìn)的過程。

這些技術(shù)進(jìn)步不僅加速了模型性能的提升，還在重塑人工智能基礎(chǔ)設(shè)施的戰(zhàn)略和經(jīng)濟(jì)動態(tài)。

與此同時，由OpenAI首席經(jīng)濟(jì)學(xué)家Ronnie Chatterji等討論探討了人工智能與國家安全和經(jīng)濟(jì)政策的交叉領(lǐng)域。

這些討論共同強(qiáng)調(diào)了人工智能的雙重軌跡：一方面加速技術(shù)進(jìn)步，另一方面加深其在全球政策、基礎(chǔ)設(shè)施和制度治理中的角色。

AI時代，前所未有

第一個出場的是Noam Brown。

他是OpenAI在多智能體推理領(lǐng)域的研究人員，以共同開發(fā)出首個超越人類水平的無限注德州撲克AI，以及首個達(dá)到人類水平的策略游戲《外交官》（Diplomacy）AI而聞名。

多年來AI已經(jīng)取得了很多很酷、令人印象深刻的成果。

比如說，在1997年，IBM的「深藍(lán)」戰(zhàn)勝了國際象棋冠軍Garry Kasparov。

在2011年在《危險邊緣》節(jié)目中，IBM的「沃森」奪冠。

在某些特定領(lǐng)域，AI也早就有了不少令人驚艷的成果。

比如，很早以前，美國郵政就開始用光學(xué)字符識別技術(shù)來分揀郵件；Facebook的人臉識別功能，也已經(jīng)存在很多年了。

那么問題來了，像ChatGPT這樣的AI，以及現(xiàn)在所處的AI時代，到底特別在哪里？

答案其實(shí)就在于「通用性」。

最重要的區(qū)別在于：以前的AI系統(tǒng)都非常專注于單一任務(wù)。

比如在1997年，IBM的「深藍(lán)」戰(zhàn)勝Garry Kasparov，但背后可是花了兩年甚至更久的時間，專門訓(xùn)練AI只為了下好國際象棋。

深藍(lán)機(jī)組之一

同樣的情況也發(fā)生在《危險邊緣》節(jié)目上，他們花了好幾年時間，只為了讓AI在節(jié)目中表現(xiàn)出色——

但它只會做這一件事，其他什么都不會。

而現(xiàn)在ChatGPT和如今的AI特別之處就在于它們的「通用性」——

也就是說，它們可以完成很多完全不同的任務(wù)，哪怕這些任務(wù)并不是特意訓(xùn)練過的。

這就是我們所處AI新時代真正不同的地方。

Noam Brown接下來強(qiáng)調(diào)了兩種關(guān)鍵的AI范式：預(yù)訓(xùn)練范式和推理范式。

預(yù)訓(xùn)練范式

「預(yù)訓(xùn)練范式」出現(xiàn)得更早，也是最初驅(qū)動ChatGPT的核心方式。

最早，這可以追溯到2019年的GPT-2。

它的基本思路其實(shí)很簡單：

收集大量文本，包含了互聯(lián)網(wǎng)的大部分內(nèi)容；

然后訓(xùn)練AI模型來預(yù)測一句話中下一個可能出現(xiàn)的詞。

聽起來也許很基礎(chǔ)，但這種方法卻能帶來令人驚訝的智能水平。

為什么會這樣呢？

Brown認(rèn)為原因在于，當(dāng)把整個互聯(lián)網(wǎng)的大量文本輸入給模型，里面自然就包含多種多樣的內(nèi)容。

那么當(dāng)模型要預(yù)測某個語句中的下一個詞時，它必須理解很多上下文信息，才能做出最準(zhǔn)確的判斷。

Ilya Sutskever有個特別形象的說法：

想象一下網(wǎng)絡(luò)上有一本推理小說，模型已經(jīng)讀完了整本小說的所有文字，來到結(jié)尾的部分。

故事最后，偵探說：「我知道兇手是誰了。兇手就是____。」

這個時候，如果模型要預(yù)測這句話中最后那個空白部分，它就必須真正「理解」整部小說的情節(jié)。

這就是為什么僅僅通過「預(yù)測下一個詞」的訓(xùn)練方式，模型就能學(xué)到這么多看似復(fù)雜的知識。

這就是預(yù)訓(xùn)練范式的魅力所在。

而且另一個很關(guān)鍵的點(diǎn)在于，它具備很強(qiáng)的通用性——

因?yàn)樗腔谡麄€互聯(lián)網(wǎng)的海量文本進(jìn)行訓(xùn)練的，所以自然能學(xué)到各種各樣的知識和語言表達(dá)方式。

OpenAI原始信仰：Scaling Law

更令人印象深刻的是，大家已經(jīng)持續(xù)觀察到一個很穩(wěn)定的趨勢：當(dāng)在預(yù)訓(xùn)練范式中投入更多的數(shù)據(jù)、更多的計算資源、以及更大的模型規(guī)模，模型在「預(yù)測下一個詞」這項(xiàng)任務(wù)上的表現(xiàn)就會變得越來越好。

AI領(lǐng)域有2篇非常著名的論文。

這些研究表明：當(dāng)擴(kuò)大模型規(guī)模、延長訓(xùn)練時間、增加訓(xùn)練數(shù)據(jù)量之后，模型在完成預(yù)測任務(wù)時會提升。

這種穩(wěn)定可控的增長趨勢，正是促使OpenAI決定大規(guī)模投入資源、繼續(xù)擴(kuò)展模型規(guī)模的核心依據(jù)。

當(dāng)然，光是讓模型更會「預(yù)測下一個詞」，并不一定就意味著它在用戶真正關(guān)心的任務(wù)上，比如編程，真的變得更強(qiáng)了。

但在實(shí)踐中發(fā)現(xiàn)：當(dāng)模型在預(yù)測任務(wù)上表現(xiàn)越來越好時，它在各種「下游任務(wù)」上的表現(xiàn)也會隨之變好，比如寫代碼、做數(shù)學(xué)題、回答問題等等。

這其實(shí)就是GPT范式不斷演進(jìn)的基礎(chǔ)，從GPT-1到GPT-2，一直到現(xiàn)在，模型能力的持續(xù)提升。

但正是這種「簡單粗暴」的擴(kuò)大規(guī)模方式，帶來了性能的巨大飛躍——

這就是令人驚喜的地方。

當(dāng)GPT-3發(fā)布、而且提升的趨勢依然繼續(xù)延伸時，AI領(lǐng)域里很多人都開始認(rèn)為：

好吧，這就是終點(diǎn)了。我們已經(jīng)找到了通往超級智能的道路。我

們只需要不斷擴(kuò)大模型規(guī)模，就能獲得越來越強(qiáng)的智能。

從理論上講，這是對的。

但關(guān)鍵問題在于——這條路的成本非常高昂，而且會迅速飆升。

比如GPT-2的訓(xùn)練成本，大概在5,000到50,000美元之間，取決于具體怎么估算。而根據(jù)一些公開資料，GPT-4的訓(xùn)練成本可能高達(dá)5,000萬美元左右。

如果還要繼續(xù)按照這個方向再擴(kuò)大幾個數(shù)量級，那花費(fèi)將是天文數(shù)字。

而且盡管模型確實(shí)變得更聰明了，但它離理想中的「通用智能」仍然還有一段路要走。

這也呼應(yīng)了Ronnie曾經(jīng)說過的一點(diǎn)：這個領(lǐng)域發(fā)展得非常快。

過去一年里聽到的一些關(guān)于大語言模型（LLM）和「擴(kuò)展范式」的批評，可能在當(dāng)時確實(shí)是有道理的。

但到了2023年9月，情況發(fā)生了變化——

因?yàn)槿祟愐呀?jīng)進(jìn)入了「推理模型」時代。

這就引出了「擴(kuò)展能力」的第二種范式：推理范式（reasoning paradigm）。

推理范式

預(yù)訓(xùn)練的成本已經(jīng)快速增長，動輒就是上千萬美元，有些訓(xùn)練甚至花費(fèi)了上億美元。

雖然理論上還可以繼續(xù)往上堆錢，比如投入十億、甚至數(shù)十億美元，但到某個點(diǎn)之后，經(jīng)濟(jì)回報就不再劃算了。

不過，有一點(diǎn)非常關(guān)鍵：雖然訓(xùn)練的成本越來越高，但實(shí)際向模型提問,讓它給你一個答案的花費(fèi)的「推理成本」，其實(shí)仍然很低。

這就為「擴(kuò)展」開辟了一個新的維度。

設(shè)想一下，如果大家不再單純依賴擴(kuò)大訓(xùn)練量，而是提升模型在「每次回答前進(jìn)行更深層思考」的能力呢？

這正是o系列模型（比如o1）背后的核心思想。

舉個例子：你向GPT-4提一個問題，它可能只花你一分錢左右。

但如果你問o1同樣的問題，它會「認(rèn)真思考」很久，也許會花上一分鐘才回答，而成本可能是大約一美元——

具體來說是數(shù)量級上的估算，有上下浮動。

但這個一美元的回答，往往會比那一分錢的回答好得多。

這就是推理范式帶來的全新可能。

右圖展示了推理范式的實(shí)際效果。

數(shù)學(xué)競賽：AIME

美國數(shù)學(xué)競賽（AIME），是美國數(shù)學(xué)奧林匹克國家隊(duì)的選拔賽之一。

圖中的縱軸表示準(zhǔn)確率，也就是模型在「一次答對」的比例（叫做「pass@1」）；橫軸表示模型在回答問題時所消耗的推理計算量（也就是「思考」時間和資源的多少）。

在圖的最左邊，模型幾乎是「秒回」——也就是基本沒怎么思考；而在最右邊，模型會花上幾分鐘去思考后再作答。

可以明顯看出：隨著模型「思考得越久」，答題準(zhǔn)確率就越高，表現(xiàn)也就越好。

這說明推理時間確實(shí)能帶來質(zhì)量的提升。

這提供了全新的「擴(kuò)展維度」——

大家不必再單靠堆大模型、加大訓(xùn)練成本來提升性能，而是可以通過增加推理時間、花更多資源在「每次思考」上，來獲得更強(qiáng)的結(jié)果。

而且最美妙的是，這個維度幾乎還沒有被充分利用。

就像之前說的，GPT-4一次問答成本大約只有一分錢。

但實(shí)際上，對于很多人真正關(guān)心的問題，他們愿意支付遠(yuǎn)不止一分錢。

我們現(xiàn)在可以開始探索新的定價——

每次問答成本可以是幾美元、幾十美元，甚至更多，這樣就可以支撐模型進(jìn)行更深入、更高質(zhì)量的推理。

目前來看，在競賽數(shù)學(xué)方面，這是AIME 2024的測試數(shù)據(jù)。

GPT-4o得分大約是13%，o1 preview模型得分大約是57%，o1得分達(dá)到83%。

再來看博士級別的科學(xué)問題，也就是上圖最右的GPQA基準(zhǔn)測試。

這是一個多項(xiàng)選擇題測試，設(shè)計目標(biāo)是需要具備領(lǐng)域內(nèi)博士水平才能作答。

人類平均正確率是70%。GPT-4o得分是56%，這個成績已經(jīng)很出色了。

而o1得分則是78%。

而且，自自從發(fā)布以來，這些成績還在持續(xù)提升，而且進(jìn)步非常迅速：

去年9月，發(fā)布o(jì)1 preview；

同年12月，發(fā)布了正式版的o1，并在同月宣布了還未發(fā)布的o3。

這是AI的重點(diǎn)所在。

AI編程：超越人類

關(guān)于編程競賽的表現(xiàn)，以專業(yè)的編程競賽平臺Codeforces為例。

GPT-4o的得分只排在第11百分位，也就是說，它的表現(xiàn)只比約11%的頂尖人類程序員好。

o1模型的Elo分?jǐn)?shù)是1891，相當(dāng)于人類選手的第89百分位。

而o3模型的Elo分?jǐn)?shù)超過了2700，已經(jīng)進(jìn)入了人類專業(yè)編程選手的前0.1%，相當(dāng)于全球第175名的水平。

而且，OpenAI有個內(nèi)部模型，它的水平已排進(jìn)了全球前50名。

Brown預(yù)測：

到今年年底，OpenAI的模型在編程競賽中將會達(dá)到超越人類的水平。

而「達(dá)到超人類水平」這件事本身并不新鮮，AI過去也做到過很多次。

但o3模型特別的地方在于：它不僅僅在編程競賽中表現(xiàn)優(yōu)秀，它在很多任務(wù)上都表現(xiàn)得非常出色。

而在編碼任務(wù)基準(zhǔn)測試Swebench Verifie，o3得分達(dá)到了72%。

這意味著這個模型即使不是專門為了編程訓(xùn)練的，也已經(jīng)具備了強(qiáng)大的實(shí)際編碼能力，對現(xiàn)實(shí)世界的經(jīng)濟(jì)活動會帶來很大影響。

AI進(jìn)步太快了：六個月前還存在的問題，但現(xiàn)在已經(jīng)不成立了。

AI與經(jīng)濟(jì)

Aaron Ronnie Chatterji是OpenAI的多一位首席經(jīng)濟(jì)學(xué)家。

目前，他是杜克大學(xué)的Mark Burgess & Lisa Benson-Burgess杰出教授，專注于學(xué)術(shù)、政策與商業(yè)交匯的領(lǐng)域。

他曾在拜登政府任職，擔(dān)任白宮CHIPS協(xié)調(diào)員以及國家經(jīng)濟(jì)委員會代理副主任。在此之前，他曾任美國商務(wù)部首席經(jīng)濟(jì)學(xué)家，以及白宮經(jīng)濟(jì)顧問委員會的高級經(jīng)濟(jì)學(xué)家。

他認(rèn)為就像當(dāng)前世界在多個維度上已經(jīng)出現(xiàn)的分裂趨勢一樣，AI也不例外。

如果輕易接受這樣分裂的世界，可能會帶來兩個風(fēng)險：

一是OpenAI可能會在一些關(guān)鍵市場失去信譽(yù)，而這些市場正是它努力爭取信任的地方；

二是OpenAI很可能會失去一些關(guān)鍵的人才。

因此，在堅持價值觀的同時，如何在其中找到平衡，是這次討論中的一個重要主題。

OpenAI非常國際化，因此，當(dāng)不同地區(qū)開始采用不同類型的技術(shù)、而超級大國之間的技術(shù)競爭加劇時，這讓很多人感到不安。

AI的經(jīng)濟(jì)影響與意義

從總體上來看，OpenAI內(nèi)部討論的結(jié)論是：AI正在從根本上重塑企業(yè)格局

但這種轉(zhuǎn)型并不只是關(guān)于取代人類或企業(yè)本身的問題，而更像是一場「技術(shù)化競賽」。

這種轉(zhuǎn)型發(fā)生在各類企業(yè)中——包括《財富》500強(qiáng)、大中小型企業(yè)等各個層級。

他們的討論主要從三個維度展開：

第一，AI取代人類。

這里的關(guān)鍵問題其實(shí)不是{AI會不會取代人類}，而是「AI將如何增強(qiáng)或取代人類的角色」。這才是大家真正需要思考的方向。

第二，AI取代公司。

與其說是AI創(chuàng)業(yè)公司會取代傳統(tǒng)企業(yè)，不如說是一場誰更能有效采納和整合AI的競賽。

比如在銀行業(yè)，大家就可以看到這種分化趨勢：一些銀行擁有技術(shù)人才，正在積極投資AI；而另一些仍依賴傳統(tǒng)主機(jī)系統(tǒng)（mainframes），開始借助AI推動現(xiàn)代化轉(zhuǎn)型。

企業(yè)必須作出選擇：要么走在AI轉(zhuǎn)型的前列，要么就被甩在后面。

第三，從個人或企業(yè)的視角出發(fā)來看如何落地AI。

誰能真正理解并應(yīng)用最新的AI技術(shù)，誰就能取得成功。AI的影響范圍涵蓋技術(shù)支持、運(yùn)營效率、戰(zhàn)略決策等多個方面。

所以，關(guān)鍵的問題是：企業(yè)的AI旅程是什么？

你現(xiàn)在處在什么階段？

兩年后你希望達(dá)到什么樣的水平？

這正是許多企業(yè)在思考的問題。

這趟旅程并不是簡單地購買AI工具、獲取許可證那么簡單，而是要把AI嵌入整個價值鏈中，實(shí)現(xiàn)深度融合。

參考資料：

https://forum.openai.com/public/videos/ai-economics-in-the-forum-2025

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.