99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3并非獨門秘技,谷歌已發背后關鍵機制,方法更簡單、成本更低

0
分享至

小交 發自 凹非寺
量子位 | 公眾號 QbitAI

o1/o3帶火的推理計算Scaling,原來谷歌早在今年8月就曾探討過。



當時,來自斯坦福、牛津以及谷歌DeepMind的團隊提出通過重復采樣來擴展推理計算量——

結果在編碼任務中將性能最多提高40%。

他們發現小模型通過生成多種答案/樣本,其任務表現可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過重復采集5個樣本,性能優于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來自于無限猴子定理。

一只猴子在打字機鍵盤上隨機敲擊鍵盤無限長的時間,幾乎肯定會打出任何給定的文本。



而在大模型的語境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復采樣程序,首先通過大模型中采樣,為給定的問題生成許多候選解。

其次再選擇特定領域的驗證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復采樣的有效性取決于兩個關鍵特性。

  • 覆蓋率,隨著樣本數量的增加,我們可以利用生成的任何樣本解決多少問題。
  • 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識別出正確的樣本?

他們關注的是yes or no的任務,在這些任務中,答案可以直接被打分為對或者錯,主要指標是成功率——即能夠解決問題的比例。

通過重復采樣,考慮這樣一種設置,即模型在嘗試解決問題時可以生成許多候選解。

因此,成功率既受到為許多問題生成正確樣本的能力(即覆蓋率)的影響,也受到識別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數學和編程任務:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結果顯示,在多個任務和模型中,覆蓋率隨樣本數量增加而提升,在某些情況下,重復采樣可使較弱模型超越單樣本性能更好的強模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數學單詞問題時,Llama-3模型的覆蓋率在10,000個樣本的情況下增長到95%以上。

有趣的是,log(覆蓋率)與樣本數之間的關系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數呈近似對數線性增長,超過幾個數量級。



在不同參數量、不同模型以及后訓練水平(基礎模型和微調模型)下,都顯示通過重復采樣Scaling推理時間計算,覆蓋率都有一致的提升。



此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標,以LIama-3為例。

計算公式如下:



比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數量衡量)和覆蓋率。當FLOPs預算固定時,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。



對比API成本,當采樣較多時,開源 DeepSeek-Coder-V2-Instruct 模型可以達到與閉源模型GPT-4o相同的問題解決率,而價格僅為后者的三分之一。



有趣的是,他們發現對于大多數任務和模型,覆蓋率與樣本數之間的關系可以用指數冪律來模擬。



因此總結,這篇文章以重復采樣為軸心,在推理時擴展計算量,從而提高模型性能。

在一系列模型和任務中,重復采樣可以顯著提高使用任何生成樣本解決問題的比例(即覆蓋率)。當可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法),重復采樣可以在推理過程中放大模型的能力。

與使用較強、較昂貴的模型進行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學以及谷歌DeepMind團隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學家Quoc V. Le。



有網友表示,這有點像更簡單的靜態版o3。



o3在評價器的指導下,通過回溯動態搜索程序空間,而這種方法則依賴于靜態采樣和事后評價(投票、獎勵模型等)。兩者都能擴展推理計算,但O3的適應性更強。
o3會反復探索解決方案,不斷完善路徑,而重復采樣會并行生成輸出,沒有反饋回路。如何取舍?o3的計算密集度更高,但在需要結構化推理的任務中表現出色。這種方法在編碼/數學方面更具成本效益。

不過也有網友指出了背后的局限性。



我們不能一味地增加采樣數量來提高性能。在某些時候,模型會出現停滯,生成的樣本也會開始重復。
無論成本如何,都有一個極限,一個模型無法超越的最大思維水平。

參考鏈接:
[1]https://arxiv.org/abs/2407.21787
[2]https://x.com/_philschmid/status/1870396154241843312
[3]https://x.com/rohanpaul_ai/status/1834446350810849510

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!北語教授張愛玲被古樹砸中離世!12天前還露面女兒就讀清華

突發!北語教授張愛玲被古樹砸中離世!12天前還露面女兒就讀清華

深析古今
2025-06-20 08:33:28
任重孫驍驍帶娃逛街,一家三口親子裝,生活狀態竟如此接地氣

任重孫驍驍帶娃逛街,一家三口親子裝,生活狀態竟如此接地氣

農村教育光哥
2025-06-19 10:02:36
湖人百億新老板剛來就給詹皇下馬威!力挺東契奇,新決策耐人尋味

湖人百億新老板剛來就給詹皇下馬威!力挺東契奇,新決策耐人尋味

嘴炮體壇
2025-06-19 11:10:07
10死28傷!輟學生「血洗校園」大開殺戒,尸體成排!學生裝死逃過一劫...

10死28傷!輟學生「血洗校園」大開殺戒,尸體成排!學生裝死逃過一劫...

澳洲紅領巾
2025-06-19 08:21:13
辛納1-2遭布勃利克逆轉,無緣ATP哈雷站八強

辛納1-2遭布勃利克逆轉,無緣ATP哈雷站八強

懂球帝
2025-06-20 03:55:33
3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

深度知局
2025-06-14 08:09:05
她是“紅衛兵”頭目之一,被捕后死不認罪,狡辯道:都是為了革命

她是“紅衛兵”頭目之一,被捕后死不認罪,狡辯道:都是為了革命

歷史龍元閣
2024-06-22 14:50:46
伊朗革命衛隊最新聲明

伊朗革命衛隊最新聲明

環球時報新聞
2025-06-19 14:08:24
以軍稱已摧毀伊朗鈾濃縮設施 伊方暫無回應

以軍稱已摧毀伊朗鈾濃縮設施 伊方暫無回應

財聯社
2025-06-17 23:33:19
在單位,有3個跡象,說明你領導是小人

在單位,有3個跡象,說明你領導是小人

細說職場
2025-06-03 06:44:02
華爾街日報擔憂:以色列快崩盤了,但特朗普也左右為難,難以決斷

華爾街日報擔憂:以色列快崩盤了,但特朗普也左右為難,難以決斷

愛下廚的阿釃
2025-06-20 08:50:31
胡蝶與戴笠老照片曝光:真實樣貌,胡蝶溫柔中有股靈氣,確實漂亮

胡蝶與戴笠老照片曝光:真實樣貌,胡蝶溫柔中有股靈氣,確實漂亮

詩意世界
2025-06-18 15:59:21
不可思議啊!134平的海景房只賣26萬,還帶精裝修,還沒人住過…

不可思議??!134平的海景房只賣26萬,還帶精裝修,還沒人住過…

火山詩話
2025-06-18 14:51:33
大快人心!浙江重拳出擊除名27名專家并公示名單,24人構成犯罪

大快人心!浙江重拳出擊除名27名專家并公示名單,24人構成犯罪

橘子大娛社
2025-06-19 20:15:02
瞞不住了,特拉維夫慘狀曝光!

瞞不住了,特拉維夫慘狀曝光!

星辰故事屋
2025-06-16 12:39:00
大批美軍將進駐臺島!美國自以為計劃很好,卻落入中國的陷阱

大批美軍將進駐臺島!美國自以為計劃很好,卻落入中國的陷阱

健身狂人
2025-06-18 06:10:15
朝鮮沒找中國幫忙,軍艦修復成功,未見一絲損傷,金正恩終于笑了

朝鮮沒找中國幫忙,軍艦修復成功,未見一絲損傷,金正恩終于笑了

歷史求知所
2025-06-19 10:55:08
年賺23億,火鍋界愛馬仕要IPO了

年賺23億,火鍋界愛馬仕要IPO了

投資家
2025-06-19 21:16:16
春城為何變“水城”?——昆明城市內澇的二十年之痛

春城為何變“水城”?——昆明城市內澇的二十年之痛

易觀彩云之南
2025-06-19 19:24:13
燃油耗盡的客機飛向日本迫降遭日方拒絕,機長將一名男子踹出飛機

燃油耗盡的客機飛向日本迫降遭日方拒絕,機長將一名男子踹出飛機

忠于法紀
2025-06-18 18:15:45
2025-06-20 10:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10698文章數 176169關注度
往期回顧 全部

科技要聞

星艦在測試臺爆炸 馬斯克疑回應:擦傷而已

頭條要聞

以前和談代表:以處于過度擴張的狂妄政策中 或被反噬

頭條要聞

以前和談代表:以處于過度擴張的狂妄政策中 或被反噬

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

“小鞏俐”周顯欣,如今49歲模樣大變

財經要聞

寶能汽車接盤威馬?“正交接資產”

汽車要聞

2100km續航/2845mm越級軸距 吉利銀河A7全球首秀

態度原創

本地
家居
教育
時尚
公開課

本地新聞

黎錦匠人鄭春榮:經緯千年 我在海島織黎錦

家居要聞

山水之間 墨染風雨云間

教育要聞

湖北2025高考成績6月25日上午8:00公布

純粹真實,單依純演繹不被定義的高級感

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 都安| 商水县| 绥德县| 方山县| 德格县| 河西区| 长沙市| 金川县| 祁连县| 西藏| 五台县| 海安县| 安图县| 安远县| 韶关市| 衡阳县| 通山县| 汕尾市| 新兴县| 松溪县| 建德市| 济南市| 定南县| 苏尼特右旗| 仁寿县| 南雄市| 白山市| 和平区| 桂平市| 敦化市| 延边| 泾阳县| 万州区| 青州市| 财经| 陇川县| 博罗县| 宁都县| 安西县| 和平县| 高邑县|