99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理大模型1年內(nèi)就會撞墻!FrontierMath團(tuán)隊最新研究

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一年之內(nèi),大模型推理訓(xùn)練可能就會撞墻。

以上結(jié)論來自Epoch AI。

這是一個專注于人工智能研究和基準(zhǔn)測試的非營利組織,之前名動一時的FrontierMath基準(zhǔn)測試(評估AI模型數(shù)學(xué)推理能力)就出自它家。

與之伴隨而來的還有另一個消息:

如果推理模型保持「每3-5個月都以10倍速度增長」,那么推理訓(xùn)練所需的算力可能會大幅收斂。

就像DeepSeek-R1之于OpenAI o1-preview那樣。



看了這個結(jié)果,有圍觀網(wǎng)友都著急了:

  • 既然在o3基礎(chǔ)上再scaling非常困難,那為啥咱不探索模塊化架構(gòu)或針對特定任務(wù)的專用模型呢?
    “效率”比“研究過剩”更重要!



推理訓(xùn)練還有scalable的空間

OpenAI的o1是推理模型的開山之作。

和o3、DeepSeek-R1等一樣,它們從傳統(tǒng)的大語言模型發(fā)展而來,在預(yù)訓(xùn)練階段使用了大量人類數(shù)據(jù)進(jìn)行訓(xùn)練,然后在強(qiáng)化學(xué)習(xí)階段(也就是所謂的第二階段),根據(jù)解題的反饋來改進(jìn)自己的推理能力。

雖然推理模型已經(jīng)成為了很多AI使用者的實(shí)用幫手,但關(guān)于推理訓(xùn)練所需算力的公開信息非常少,大概只有以下這些:

  • OpenAI表示,與o1相比,訓(xùn)練o3所需的算力提升了10倍——提升部分幾乎都花在了訓(xùn)練階段。
  • OpenAI沒有公開o1、o3的具體細(xì)節(jié),但可以從DeepSeek-R1、微軟Phi-4-reasoning、英偉達(dá)Llama-Nemotron等其它推理模型。它們所需的推理訓(xùn)練階段算力耕地,但可以根據(jù)它們進(jìn)行推演。
  • Anthropic的創(chuàng)始人兼CEO Dario Amodei曾針對推理模型有過一篇公開文章。

然后就沒有然后了……

根據(jù)現(xiàn)有的信息和資料,Epoch AI進(jìn)行了總結(jié)和分析。

首先,OpenAI公開過這樣一張圖表,上面展示了o3和o1在AIME基準(zhǔn)測試中的表現(xiàn),以及兩者在推理訓(xùn)練階段可能所需的算力的對比——



可以看到,終版o3花費(fèi)的算力是o1的10倍。

Epoch AI分析道:“x軸很可能顯示的是推理訓(xùn)練所需算力而不是總算力。”

Epoch AI羅列了這一猜測的證據(jù)。

第一,初代o1耗費(fèi)的算力比o3低四個數(shù)量級,其在AIME上的得分約為25%。

如果x軸表示總計算量,“不太可能呈現(xiàn)這種情況”。

第二,如果x軸表示的是所需總算力,這張圖意義就不大了。

因為這就意味著OpenAI訓(xùn)練了N個版本的o1,且預(yù)訓(xùn)練階段非常不完整。



依照Epoch AI的猜測,如果o3在推理結(jié)算花費(fèi)的算力是o1的10倍,這意味著什么?

由于很多推理模型背后團(tuán)隊都學(xué)精了,并不公開訓(xùn)練方法和過程,所以只能從現(xiàn)有公開資料里去尋找答案。

比如DeepSeek-R1

Epoch AI此前估算,DeepSeek-R1推理訓(xùn)練中使用的算力約為6e23 FLOP(成本約 100 萬美元),需要生成大約 20萬億個tokens——這只有DeepSeek-V3預(yù)訓(xùn)練成本的20%。

雖然只是一種估算,但R1在各個榜單上的得分和o1非常接近,“因此可以用它來為o1所需算力設(shè)定一個baseline”。

比如英偉達(dá)的Llama-Nemotron Ultra,它在各個基準(zhǔn)上的分?jǐn)?shù)與DeepSeek-R1和o1相當(dāng)。

它是在DeepSeek-R1生成的數(shù)據(jù)上訓(xùn)練的。

公開信息顯示,Llama-Nemotron Ultra的推理階段耗時140000 H100小時,約等于1e23 FLOP。這甚至低于它的原始基礎(chǔ)模型預(yù)訓(xùn)練成本的1%。

再比如微軟的Phi-4-reasoning

它是在o3-mini生成的數(shù)據(jù)上訓(xùn)練的。

Phi-4-reasoning在推理階段規(guī)模更小,成本低于1e20 FLOP,可能是預(yù)訓(xùn)練所需算力成本的<0.01%。

值得注意的是,Llama-Nemotron和Phi-4-reasoning都在RL階段之前進(jìn)行了有監(jiān)督微調(diào)。

咱們再來看看今年1月DeepSeek-R1發(fā)布后,Anthropic的CEODario Amodei寫的一篇文章,這被視為關(guān)于現(xiàn)有推理模型所需算力規(guī)模的最后一點(diǎn)線索:

由于這是新范式,我們目前仍處于規(guī)模拓展的初期階段:所有參與者在第二階段投入的資金量都很少,花費(fèi)從10萬美元提高到100萬美元就能帶來巨大收益。
如今,各公司正迅速加快步伐,將第二階段的規(guī)模擴(kuò)大到數(shù)億乃至數(shù)十億美元。
有一點(diǎn)必須重視,那就是我們正處于一個獨(dú)特的轉(zhuǎn)折點(diǎn)上。

當(dāng)然了,Amodei對非Anthropic模型所需算力的看法可能只基于自家公司內(nèi)部數(shù)據(jù)。

但可以清晰了解,截至今年1月,他認(rèn)為推理模型的訓(xùn)練成本遠(yuǎn)低于“數(shù)千萬美元”,大于1e26 FLOP。

Epoch AI總結(jié)道——

上述的預(yù)估和線索指向一個事實(shí),那就是目前最前沿的推理模型,比如o1,甚至o3,它們的推理訓(xùn)練規(guī)模都還沒見頂,還能繼續(xù)scalable。

但1年內(nèi)可能就撞墻了

換句話說,如果推理訓(xùn)練還沒見頂,那么推理模型還是有潛力在短期內(nèi)快速實(shí)現(xiàn)能力拓展的。

這就意味著,推理模型還很能打,潛力巨大

就像OpenAI展示出的下圖,以及DeepSeek-R1論文中的圖2一樣——模型答題準(zhǔn)確率隨著推理訓(xùn)練步驟的增加而大致呈對數(shù)線性增長。



這表明,至少在數(shù)學(xué)和編程任務(wù)上,推理模型的性能隨著推理訓(xùn)練的擴(kuò)展而增強(qiáng),就像預(yù)訓(xùn)練的scaling law一樣。

行文至此處,Epoch AI寫下這樣一段話:

  • 如果推理階段的算力需求見頂,那么其帶來的增長率將收斂,大概是每年增長4倍。
    絕不會像o1推出后4個月就有了o3那樣,保持幾個月增長10倍的態(tài)勢。

因此,他得出這樣一個結(jié)論——

如果一個推理模型的訓(xùn)練階段僅比前沿推理模型低幾個(比如說少于三個)數(shù)量級,這種增長率可能在一、兩年內(nèi)減緩,甚至撞墻。



然鵝,想要擴(kuò)展推理模型并不是那么簡單的。

單單是數(shù)據(jù)不夠這一項,就可能導(dǎo)致其停滯不前。

大家也都還不清楚,除了數(shù)學(xué)、編程領(lǐng)域,推理訓(xùn)練是否能泛化到其規(guī)律性沒那么強(qiáng)的領(lǐng)域

但可以肯定的是,隨著推理模型的訓(xùn)練越來越成熟,所有推理模型所需的成本可能都趨同。

雖然研究成本的高低并不影響算力和性能之間的關(guān)系,但如果相關(guān)研究保持“花錢如流水”的狀態(tài),那么推理模型可能無法達(dá)到人們心中預(yù)期的最佳水平。

另一方面,即使所需算力的增長速度放緩,推理模型也可能持續(xù)進(jìn)化,就像R1那樣。

換句話說,不只有數(shù)據(jù)或算法創(chuàng)新能推動推理模型的進(jìn)步,算力大增也是推動推理模型進(jìn)步的關(guān)鍵因素。

參考鏈接:
https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張柏芝母親節(jié)上熱搜!3個兒子引熱議,原來謝霆鋒當(dāng)年說的是實(shí)話

張柏芝母親節(jié)上熱搜!3個兒子引熱議,原來謝霆鋒當(dāng)年說的是實(shí)話

素衣讀史
2025-05-13 16:01:22
51歲登山者在珠峰海拔8600米,被當(dāng)尸體遺棄,一夜后死而復(fù)生

51歲登山者在珠峰海拔8600米,被當(dāng)尸體遺棄,一夜后死而復(fù)生

阿七說史
2025-05-12 18:07:31
給妻子洗內(nèi)褲時發(fā)現(xiàn)有蟲卵,查出來源后,我連夜找律師寫離婚協(xié)議

給妻子洗內(nèi)褲時發(fā)現(xiàn)有蟲卵,查出來源后,我連夜找律師寫離婚協(xié)議

懸案解密檔案
2025-05-10 10:55:12
廣州銀行,用四年時間上演“現(xiàn)象級”墜落

廣州銀行,用四年時間上演“現(xiàn)象級”墜落

源媒匯
2025-05-13 18:54:00
1.5億歐!曼城拿下維爾茨:談判畫面曝光+達(dá)成協(xié)議 拜仁尷尬被耍

1.5億歐!曼城拿下維爾茨:談判畫面曝光+達(dá)成協(xié)議 拜仁尷尬被耍

風(fēng)過鄉(xiāng)
2025-05-14 05:59:02
朱亞文公開回應(yīng)離婚,寵妻人設(shè)崩塌?

朱亞文公開回應(yīng)離婚,寵妻人設(shè)崩塌?

美芽
2025-05-13 18:52:45
壞消息,庫里在關(guān)鍵第五場比賽前的最新傷情更新,預(yù)計無法參加

壞消息,庫里在關(guān)鍵第五場比賽前的最新傷情更新,預(yù)計無法參加

好火子
2025-05-14 05:35:57
羅馬諾:阿隆索已告知皇馬,讓TAA參加世俱杯會非常重要

羅馬諾:阿隆索已告知皇馬,讓TAA參加世俱杯會非常重要

懂球帝
2025-05-14 01:15:06
哪吒汽車被一廣告公司申請破產(chǎn)審查

哪吒汽車被一廣告公司申請破產(chǎn)審查

大象新聞
2025-05-13 19:08:24
女子稱用ATM機(jī)存款時被吞4000元,銀行回應(yīng)

女子稱用ATM機(jī)存款時被吞4000元,銀行回應(yīng)

環(huán)球網(wǎng)資訊
2025-05-13 20:58:09
留學(xué)生外網(wǎng)抹黑中國后續(xù):被舉報到公安,學(xué)校回應(yīng),網(wǎng)友:就這?

留學(xué)生外網(wǎng)抹黑中國后續(xù):被舉報到公安,學(xué)校回應(yīng),網(wǎng)友:就這?

說說史事
2025-05-13 16:36:31
克羅斯:即便皇馬當(dāng)時2球領(lǐng)先,我也不覺得他們能夠贏下比賽

克羅斯:即便皇馬當(dāng)時2球領(lǐng)先,我也不覺得他們能夠贏下比賽

懂球帝
2025-05-14 03:02:13
海南一男子駕車沖撞校車,現(xiàn)場畫面流出,傷亡情況披露,官方沉默

海南一男子駕車沖撞校車,現(xiàn)場畫面流出,傷亡情況披露,官方沉默

博士觀察
2025-05-13 23:16:24
40℃高溫殺瘋了,全國天氣大反轉(zhuǎn)!這些地方要變 “火焰山”?

40℃高溫殺瘋了,全國天氣大反轉(zhuǎn)!這些地方要變 “火焰山”?

丹哥熱評
2025-05-13 23:26:14
趙心童帶女友回廣東,美女裁判社媒發(fā)聲,墨菲澄清質(zhì)疑世錦賽冠軍

趙心童帶女友回廣東,美女裁判社媒發(fā)聲,墨菲澄清質(zhì)疑世錦賽冠軍

體育大學(xué)僧
2025-05-12 10:13:35
湖北省確定,適當(dāng)提高退休人員基本養(yǎng)老金水平,過去是怎樣漲的?

湖北省確定,適當(dāng)提高退休人員基本養(yǎng)老金水平,過去是怎樣漲的?

暖心人社
2025-05-13 23:13:22
上海產(chǎn)婦生“黑娃”以后估計沒人敢要!后續(xù)走向也特別引人深思

上海產(chǎn)婦生“黑娃”以后估計沒人敢要!后續(xù)走向也特別引人深思

西樓知趣雜談
2025-05-13 07:13:41
A股:量化砸盤,主力機(jī)構(gòu)出貨,股民:太失望了!明天還要調(diào)整?

A股:量化砸盤,主力機(jī)構(gòu)出貨,股民:太失望了!明天還要調(diào)整?

虎哥閑聊
2025-05-14 00:00:10
“女吃播三巨頭”現(xiàn)狀:臉像骷髏、摘除味覺神經(jīng),有人已立好遺囑

“女吃播三巨頭”現(xiàn)狀:臉像骷髏、摘除味覺神經(jīng),有人已立好遺囑

深析古今
2025-05-13 16:57:13
不給稀土!談判結(jié)束不到12小時,商務(wù)部再出重拳,特朗普大失所望

不給稀土!談判結(jié)束不到12小時,商務(wù)部再出重拳,特朗普大失所望

涵豆說娛
2025-05-13 15:14:26
2025-05-14 06:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10470文章數(shù) 176139關(guān)注度
往期回顧 全部

科技要聞

京東外賣首戰(zhàn)業(yè)績?nèi)绾危縿?chuàng)新業(yè)務(wù)狂攬57億

頭條要聞

退車車主談小米解決方案:20000的積分 好比歡樂豆

頭條要聞

退車車主談小米解決方案:20000的積分 好比歡樂豆

體育要聞

離開曼聯(lián),他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節(jié)上熱搜!3個兒子引熱議

財經(jīng)要聞

老股民被收割670萬 殺豬盤牽出20億大案

汽車要聞

或2027年發(fā)布 全新寶馬1系假想圖曝光

態(tài)度原創(chuàng)

手機(jī)
時尚
旅游
數(shù)碼
公開課

手機(jī)要聞

魅族Note16系列+Flyme AIOS 2發(fā)布:699元起售

松弛感穿搭太適合夏天了,減齡又好看

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

環(huán)球音樂集團(tuán)與蘋果 Apple Music 聯(lián)合推出“聲音療法”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 保康县| 星子县| 云霄县| 红桥区| 班玛县| 利津县| 张家界市| 偏关县| 中牟县| 白玉县| 华池县| 琼中| 霍林郭勒市| 肃宁县| 定南县| 奉新县| 灵璧县| 仙居县| 涟水县| 武平县| 青龙| 伽师县| 从江县| 枣阳市| 东丰县| 河北省| 雅安市| 东台市| 留坝县| 上思县| 东阿县| 德清县| 雅江县| 保康县| 离岛区| 呈贡县| 乐平市| 泽普县| 安远县| 庄浪县| 新乡县|