99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

成本不到150元!李飛飛等26分鐘訓(xùn)出推理模型媲美R1,秘訣:蒸餾

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

成本不到150元,訓(xùn)練出一個(gè)媲美DeepSeek-R1和OpenAI o1的推理模型?!

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學(xué)、華盛頓大學(xué)、艾倫人工智能實(shí)驗(yàn)室等攜手推出的最新杰作:s1

在數(shù)學(xué)和編程能力的評(píng)測(cè)集上,s1的表現(xiàn)比肩DeepSeek-R1和o1。



而訓(xùn)一個(gè)這樣性能的模型,團(tuán)隊(duì)僅僅用了16個(gè)英偉達(dá)H100,訓(xùn)練耗時(shí)26分鐘。

據(jù)TechCrunch,這個(gè)訓(xùn)練過(guò)程消耗了不到50美元的云計(jì)算成本,約合人民幣364.61元;而s1模型作者之一表示,訓(xùn)練s1所需的計(jì)算資源,在當(dāng)下約花20美元(約145.844元)就能租到

怎么做到的???

s1團(tuán)隊(duì)表示,秘訣只有一個(gè):蒸餾

簡(jiǎn)單來(lái)說(shuō),團(tuán)隊(duì)以阿里通義團(tuán)隊(duì)的Qwen2.5- 32B-Instruct作為基礎(chǔ)模型,通過(guò)蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實(shí)驗(yàn)版,最終得到了s1模型。

為了訓(xùn)練s1,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含1000個(gè)問(wèn)題(精心挑選那種)的數(shù)據(jù)集,且每個(gè)問(wèn)題都附有答案,以及Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的思考過(guò)程。

目前,項(xiàng)目論文《s1: Simple test-time scaling》已經(jīng)掛上arXiv,模型s1也已在GitHub上開(kāi)源,研究團(tuán)隊(duì)提供了訓(xùn)練它的數(shù)據(jù)和代碼。

150元成本,訓(xùn)練26分鐘

s1團(tuán)隊(duì)搞這個(gè)花活,起因是OpenAI o1展現(xiàn)了Test-time Scaling的能力。

即「在推理階段通過(guò)增加計(jì)算資源或時(shí)間,來(lái)提升大模型的性能」,這是原本預(yù)訓(xùn)練Scaling Law達(dá)到瓶頸后的一種新Scaling。

但OpenAI并未公開(kāi)是如何實(shí)現(xiàn)這一點(diǎn)的。

在復(fù)現(xiàn)狂潮之下,s1團(tuán)隊(duì)的目標(biāo)是尋找到Test-time Scaling的簡(jiǎn)單方法



過(guò)程中,研究人員先構(gòu)建了一個(gè)1000個(gè)樣本的數(shù)據(jù)集,名為s1K

起初,在遵循質(zhì)量、難度、多樣性原則的基礎(chǔ)上,這個(gè)數(shù)據(jù)集收集了來(lái)自MATH、AGIEval等諸多來(lái)源的59029個(gè)問(wèn)題。



經(jīng)去重、去噪后,通過(guò)質(zhì)量篩選、基于模型性能和推理痕跡長(zhǎng)度的難度篩選,以及基于數(shù)學(xué)學(xué)科分類(lèi)的多樣性篩選,最終留下了一個(gè)涵蓋1000個(gè)精心挑選過(guò)的問(wèn)題的數(shù)據(jù)集

且每個(gè)問(wèn)題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的模型思考過(guò)程。

這就是最終的s1K。



研究人員表示,Test-time Scaling有2種。

第1種,順序Scaling,較晚的計(jì)算取決于焦躁的計(jì)算(如較長(zhǎng)的推理軌跡)。

第2種,并行Scaling,be like計(jì)算獨(dú)立運(yùn)行(如多數(shù)投票任務(wù))。

s1團(tuán)隊(duì)專(zhuān)注于順序這部分,原因是團(tuán)隊(duì)“從直覺(jué)上”認(rèn)為它可以起到更好的Scaling——因?yàn)楹竺娴挠?jì)算可以以中間結(jié)果為基礎(chǔ),從而允許更深入的推理和迭代細(xì)化。

基于此,s1團(tuán)隊(duì)提出了新的順序Scaling方法,以及對(duì)應(yīng)的Benchmark。



研究過(guò)程中,團(tuán)隊(duì)提出了一種簡(jiǎn)單的解碼時(shí)間干預(yù)方法budget forcing,在測(cè)試時(shí)強(qiáng)制設(shè)定最大和/或最小的思考token數(shù)量。

具體來(lái)說(shuō),研究者使用了一種很簡(jiǎn)單的辦法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,來(lái)強(qiáng)制設(shè)定思考token數(shù)量上限,從而讓模型提前結(jié)束思考階段,并促使它提供當(dāng)前思考過(guò)程中的最佳答案。

為了強(qiáng)制設(shè)定思考過(guò)程的token數(shù)量下限,團(tuán)隊(duì)又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當(dāng)前推理軌跡中添加“wait”這個(gè)詞,鼓勵(lì)它多想想,反思反思當(dāng)前的思考結(jié)果,引導(dǎo)最佳答案。

以下是budget forcing這個(gè)辦法的一個(gè)實(shí)操示例:



團(tuán)隊(duì)還為budget forcing提供了baseline。

一是條件長(zhǎng)度控制方法(Conditional length-control methods),該方法依賴(lài)于,在提示中告訴模型它應(yīng)該花費(fèi)多長(zhǎng)時(shí)間來(lái)生成輸出。

團(tuán)隊(duì)按顆粒度將它們分為T(mén)oken-conditional控制、步驟條件控制和類(lèi)條件控制。

  • Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;
  • 步驟條件控制:指定一個(gè)思考步驟的上限。其中每個(gè)步驟約100個(gè)tokens;
  • 類(lèi)條件控制:編寫(xiě)兩個(gè)通用提示,告訴模型思考短時(shí)間或長(zhǎng)時(shí)間。

二是拒絕抽樣(rejection sampling)。

即在抽樣過(guò)程中,若某一生成內(nèi)容符合預(yù)先設(shè)定的計(jì)算預(yù)算,就停止計(jì)算。

該算法通過(guò)其長(zhǎng)度來(lái)捕捉響應(yīng)的后驗(yàn)分布。



而s1模型的整個(gè)訓(xùn)練過(guò)程,只用了不到半個(gè)小時(shí)——

團(tuán)隊(duì)在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數(shù)據(jù)集上進(jìn)行SFT,使用16個(gè)英偉達(dá)H100,訓(xùn)練耗時(shí)26分鐘

s1研究團(tuán)隊(duì)的Niklas Muennighoff(斯坦福大學(xué)研究員)告訴TechCrunch,訓(xùn)練s1所需的計(jì)算資源,在當(dāng)下約花20美元就能租到。

研究新發(fā)現(xiàn):頻繁抑制思考會(huì)導(dǎo)致死循環(huán)

訓(xùn)出模型后,團(tuán)隊(duì)選用3個(gè)推理基準(zhǔn)測(cè)試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬(wàn)維Sky系列、Gemini 2.0 Flash Thinking實(shí)驗(yàn)版等多個(gè)模型進(jìn)行對(duì)比。

3個(gè)推理基準(zhǔn)測(cè)試如下:

  • AIME24:2024年美國(guó)數(shù)學(xué)邀請(qǐng)考試中使用的30個(gè)問(wèn)題
  • MATH500:不同難度的競(jìng)賽數(shù)學(xué)問(wèn)題的基準(zhǔn)
  • GPQA Diamond:生物、化學(xué)和物理領(lǐng)域的198個(gè)博士級(jí)問(wèn)題



整體來(lái)說(shuō),采用了budget forcing的s1-32B擴(kuò)展了更多的test-time compute。

評(píng)測(cè)數(shù)據(jù)顯示,s1-32B在MATH500上拿到了93.0的成績(jī),超過(guò)o1-mini,媲美o1和DeepSeek-R1

不過(guò),如下圖所示,團(tuán)隊(duì)發(fā)現(xiàn),雖然可以用budget forcing和更多的test-time compute來(lái)提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲線最終在性能提升6倍后趨于平緩。

由此,團(tuán)隊(duì)在論文中寫(xiě)道:

過(guò)于頻繁地抑制思考結(jié)束標(biāo)記分隔符,會(huì)導(dǎo)致模型進(jìn)入重復(fù)循環(huán),而不是繼續(xù)推理。



而如下圖所示,在s1K上訓(xùn)練Qwen2.5-32B-Instruct來(lái)得到s1-32B,并為它配備了簡(jiǎn)單的budget forcing后,它采用了不同的scaling范式。

具體來(lái)說(shuō),通過(guò)多數(shù)投票在基礎(chǔ)模型上對(duì)test-time compute進(jìn)行Scale的方法,訓(xùn)出的模型無(wú)法趕上s1-32B的性能。

這就驗(yàn)證了團(tuán)隊(duì)之前的“直覺(jué)”,即順序Scaling比并行Scaling更有效



此外,團(tuán)隊(duì)提到,s1-32B僅僅使用了1000個(gè)樣本訓(xùn)練,在AIME24上的成績(jī)就能接近Gemini 2.0 Thinking,是“樣本效率最高的開(kāi)源數(shù)據(jù)推理模型”。

研究人員還表示,Budget forcing在控制、縮放和性能指標(biāo)上表現(xiàn)最佳。

而其它方法,如Token-conditional控制、步驟條件控制、類(lèi)條件控制等,均存在各種問(wèn)題。

One More Thing

s1模型,是在一個(gè)1000個(gè)精挑細(xì)選的小樣本數(shù)據(jù)集上,通過(guò)SFT,讓小模型能力在數(shù)學(xué)等評(píng)測(cè)集上性能飆升的研究。

但結(jié)合近期刷爆全網(wǎng)的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見(jiàn)模型推理技術(shù)的更多值得挖掘之處。

模型蒸餾技術(shù)加持下,DeepSeek-R1的訓(xùn)練成本震撼硅谷。

現(xiàn)在,AI教母李飛飛等,又一次運(yùn)用「蒸餾」,花費(fèi)低到令人咋舌的訓(xùn)練成本,做出了一個(gè)能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術(shù)更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今起,取消道路(輔路)停車(chē)位收費(fèi)!陜西一市公告

今起,取消道路(輔路)停車(chē)位收費(fèi)!陜西一市公告

91.6陜西交通廣播
2025-07-20 12:49:40
中國(guó)貨物被扣震驚歐洲!480箱全被攔下!7億歐元大案水有多深?

中國(guó)貨物被扣震驚歐洲!480箱全被攔下!7億歐元大案水有多深?

健身狂人
2025-07-20 14:27:54
決定了,正式歸船!下賽季最豪華陣容誕生,6巨頭劍指總冠軍

決定了,正式歸船!下賽季最豪華陣容誕生,6巨頭劍指總冠軍

籃球掃地僧
2025-07-20 12:36:19
探花里出現(xiàn)過(guò)的女生,哪一個(gè)才是yyds?哪一個(gè)是真情流露享受的?

探花里出現(xiàn)過(guò)的女生,哪一個(gè)才是yyds?哪一個(gè)是真情流露享受的?

說(shuō)真話的小陳
2025-07-20 14:48:27
往事不堪回首…埃基蒂克巴黎生涯33場(chǎng)4球4助,遭棄用半年僅1出場(chǎng)

往事不堪回首…埃基蒂克巴黎生涯33場(chǎng)4球4助,遭棄用半年僅1出場(chǎng)

直播吧
2025-07-20 17:31:06
中山中考A類(lèi)計(jì)劃出檔分:紀(jì)中535分、一中531分

中山中考A類(lèi)計(jì)劃出檔分:紀(jì)中535分、一中531分

南方都市報(bào)
2025-07-20 14:15:10
秀恩愛(ài)!楊瀚森漂亮女友中國(guó)追星約基奇,小楊ins秒贊搶沙發(fā):第一!

秀恩愛(ài)!楊瀚森漂亮女友中國(guó)追星約基奇,小楊ins秒贊搶沙發(fā):第一!

818體育
2025-07-20 15:34:32
黑絲和肉絲的穿搭思路

黑絲和肉絲的穿搭思路

美女穿搭分享
2025-07-20 11:06:07
離譜!男生狂蹭電動(dòng)車(chē)被拍+變性后學(xué)校依然把我分男寢被侵犯

離譜!男生狂蹭電動(dòng)車(chē)被拍+變性后學(xué)校依然把我分男寢被侵犯

魔都囡
2025-07-20 03:40:45
“消失的嘴唇”,年紀(jì)一大嘴唇就變薄,顯老沒(méi)氣質(zhì),男神也變路人

“消失的嘴唇”,年紀(jì)一大嘴唇就變薄,顯老沒(méi)氣質(zhì),男神也變路人

上官晚安
2025-07-16 17:48:03
老年暴走團(tuán)“涼了”!央媒怒批后 領(lǐng)隊(duì)還狡辯,身份被扒竟是慣犯

老年暴走團(tuán)“涼了”!央媒怒批后 領(lǐng)隊(duì)還狡辯,身份被扒竟是慣犯

逍遙史記
2025-07-19 14:50:40
全球第四個(gè)!銳龍5 7600X3D在英國(guó)上架:賣(mài)到了近2900元

全球第四個(gè)!銳龍5 7600X3D在英國(guó)上架:賣(mài)到了近2900元

快科技
2025-07-20 16:59:08
一口氣刷完全集!BBC這部神劇看得我頭皮發(fā)麻

一口氣刷完全集!BBC這部神劇看得我頭皮發(fā)麻

天天美劇吧
2025-07-19 17:45:17
岳父去世,我偷偷把岳母接來(lái)養(yǎng)老,隔天大姨姐來(lái)家里說(shuō):不合規(guī)矩

岳父去世,我偷偷把岳母接來(lái)養(yǎng)老,隔天大姨姐來(lái)家里說(shuō):不合規(guī)矩

匹夫來(lái)搞笑
2025-07-20 12:28:01
1.2萬(wàn)億砸向雅魯藏布江,工程建成后,還能看到原生態(tài)的西藏嗎?

1.2萬(wàn)億砸向雅魯藏布江,工程建成后,還能看到原生態(tài)的西藏嗎?

視聽(tīng)故事局
2025-07-20 15:12:23
若埃基蒂克轉(zhuǎn)會(huì)費(fèi)確認(rèn)為9000萬(wàn)歐,利物浦今夏將刷新隊(duì)史轉(zhuǎn)會(huì)費(fèi)前二

若埃基蒂克轉(zhuǎn)會(huì)費(fèi)確認(rèn)為9000萬(wàn)歐,利物浦今夏將刷新隊(duì)史轉(zhuǎn)會(huì)費(fèi)前二

懂球帝
2025-07-20 17:42:05
五年后就落伍?美媒:殲-35確認(rèn)正式量產(chǎn),但很快就會(huì)被取代?

五年后就落伍?美媒:殲-35確認(rèn)正式量產(chǎn),但很快就會(huì)被取代?

林子說(shuō)事
2025-07-20 14:58:26
媒體人:遼寧簽回莫蘭德此前一直保密是為了防止廣東“節(jié)外生枝”

媒體人:遼寧簽回莫蘭德此前一直保密是為了防止廣東“節(jié)外生枝”

直播吧
2025-07-20 10:35:07
中國(guó)光伏再度突破!新能源車(chē)邊跑邊充電,西方國(guó)家驚嘆

中國(guó)光伏再度突破!新能源車(chē)邊跑邊充電,西方國(guó)家驚嘆

寒士之言本尊
2025-07-19 19:06:11
短跑運(yùn)動(dòng)員虞錦去世!年僅18歲太可惜,曝車(chē)禍現(xiàn)場(chǎng),疑過(guò)快導(dǎo)致

短跑運(yùn)動(dòng)員虞錦去世!年僅18歲太可惜,曝車(chē)禍現(xiàn)場(chǎng),疑過(guò)快導(dǎo)致

裕豐娛間說(shuō)
2025-07-20 04:19:11
2025-07-20 18:04:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10893文章數(shù) 176192關(guān)注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復(fù)盤(pán)

頭條要聞

極氪被指賣(mài)"0公里二手車(chē)"虛增銷(xiāo)量 官方:正常商業(yè)行為

頭條要聞

極氪被指賣(mài)"0公里二手車(chē)"虛增銷(xiāo)量 官方:正常商業(yè)行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動(dòng)作?

娛樂(lè)要聞

肖戰(zhàn)改名官宣!徹底不裝了,要自由

財(cái)經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬(wàn)億嗎?

汽車(chē)要聞

輔助駕駛五維測(cè)評(píng) 蔚來(lái)世界模型:大智小糙

態(tài)度原創(chuàng)

時(shí)尚
家居
健康
游戲
房產(chǎn)

被金靖種草了這條裙子

家居要聞

簡(jiǎn)構(gòu)智居 現(xiàn)代功能美學(xué)

呼吸科專(zhuān)家破解呼吸道九大謠言!

《馬里奧賽車(chē):世界》制作人員名單暗示DLC可能性

房產(chǎn)要聞

海南中學(xué)江東校區(qū)學(xué)區(qū)劃片重磅出爐!這些項(xiàng)目贏麻了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 长顺县| 揭阳市| 扶余县| 伊金霍洛旗| 团风县| 东丽区| 永吉县| 扬州市| 甘谷县| 西安市| 南昌市| 图们市| 阳曲县| 泰顺县| 抚宁县| 琼海市| 东安县| 吉木乃县| 青龙| 增城市| 江陵县| 康保县| 万盛区| 儋州市| 西平县| 合阳县| 泉州市| 商南县| 防城港市| 石首市| 剑阁县| 施甸县| 安溪县| 武山县| 偏关县| 得荣县| 桦南县| 新和县| 青冈县| 安岳县| 曲阜市|