99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI版三個臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測試最高分

0
分享至

不圓 發自 凹非寺
量子位 | 公眾號 QbitAI

ChatGPT的對話流暢性、Gemini的多模態能力、DeepSeek的長上下文分析……

能不能讓它們強強聯合,共同解決問題呢?

那個由Transformer作者之一Llion Jones創立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:

  • 最偉大的成就往往源于不同思想的協作,我們相信這一原則同樣適用于人工智能。

AB-MCTS,全稱為自適應分支蒙特卡洛樹搜索(Adaptive Branching Monte Carlo Tree Search),是一種使多個人工智能模型同時處理問題的算法。模型之間交換并完善建議,協同工作,就像人類團隊一樣。



在具有挑戰性的ARC-AGI-2基準測試中,多LLM AB-MCTS解決的問題比單獨工作的任何單個模型(Single-LLM AB-MCTS)都多。

有幾種情況下,只有不同模型的組合才能得出正確答案。



Sakana AI已將該算法以TreeQuest的名稱開源,鏈接可見文末。

兩種搜索策略



AB-MCTS結合了兩種不同的搜索策略:它可以完善現有解決方案(深度搜索),也可以嘗試全新的方法(廣度搜索)。

主要的技術挑戰是將無界分支引入MCTS

標準MCTS僅選擇并擴展葉節點(即每個節點最多被擴展一次),且擴展會添加固定數量的子節點。然而,由于在非零溫度下對LLM的每個查詢都可能從相同提示中產生不同的輸出,分支因子理論上無限。

為了充分利用MCTS的無界分支的潛在性能提升,AB-MCTS允許那些已經擴展過一次的節點再次被擴展并進一步分支,并引入GEN節點來明確表示生成新子節點的動作。

在AB-MCTS的搜索樹中,每個節點N均附帶一個GEN子節點。選中帶有GEN節點的父節點時,會從N生成一個新子節點。



與傳統的MCTS不同,AB-MCTS不會將寬度作為靜態超參數固定。

相反,在搜索樹的每個節點上,AB-MCTS會自適應地決定是探索(“變寬”)通過生成新的候選響應,還是利用(“變深”)通過改進現有的響應,利用外部反饋信號。

在底層,AB-MCTS通過貝葉斯后驗預測分布估計節點潛力,并用Thompson采樣選擇動作,以確保每次擴展都以原則性的方式平衡探索和利用。

這種設計自然地擴展了多次采樣,使AB-MCTS能夠在必要時利用LLMs多樣化且龐大的輸出空間。

在以上基礎上,Sakana AI還提出了兩個變體:AB-MCTS-M和AB-MCTS-A。

簡單地說:

  • AB-MCTS-M:更分層。使用混合效應模型共享子樹間的統計信息,通過分層貝葉斯推斷平衡全局與局部探索。
  • AB-MCTS-A:更輕量。通過CONT節點顯式分離“生成”與“優化”動作,并基于共軛先驗實現高效后驗更新,簡化計算。



其利斷金



對AB-MCTS進行基準測試,結果顯示,AB-MCTS在各種基準測試和LLMs中始終表現出色,獲得的平均排名最高并優于既定基線。

這種持續的成功源于AB-MCTS獨特的動態調整搜索策略的能力,它通過精確平衡探索和利用來適應每個問題的不同需求,而基線方法中幾乎缺乏這種適應性。



LiveCodeBench和CodeContest

上圖左側和中部報告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預算的關系,可以看到,所有方法在計算預算增加時都表現出性能提升。在這兩個基準測試中,AB-MCTS算法通常優于基線方法。

在LiveCodeBench,即使預算很小,AB-MCTS也開始超越基線方法;在CodeContest,預算為32及以上時,AB-MCTS表現出優于基線的性能。

ARC-AGI

上圖右側展示了GPT-4o在ARC-AGI這一特別具有挑戰性的基準測試上的性能表現。可以看到,重復采樣在該設置中證明是一種強大的基線,這表明對于這項任務,廣泛的探索非常重要

雖然標準MCTS在預算增加時只能帶來微小的改進,但AB-MCTS框架實現了與重復采樣相當的性能。這表明AB-MCTS能夠通過在有利時動態擴展其搜索范圍來有效地探索潛在解。



MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三個競賽中的性能表現。由于MLE-Bench在訓練和評估機器學習模型時需要大量的GPU資源,研究團隊僅使用了GPT-4o,并專注于基線方法和AB-MCTS-M。

結果顯示,最佳性能的基線方法在不同競賽中有所不同,這再次強調了不同任務受益于不同的探索-利用權衡。

相比之下,AB-MCTS-M在這些任務中始終表現出色。

這種在不同競賽中的一致成功突顯了AB-MCTS-M在有效適應其搜索策略以應對不同問題結構方面的內在優勢。



為了定量分析AB-MCTS如何平衡探索與利用,論文的研究團隊還考察了生成的搜索樹在每個深度的平均深度和平均寬度。

如上圖顯示,與標準MCTS相比,AB-MCTS方法傾向于生成更寬的樹。這是因為AB-MCTS可以從任何現有節點自適應地決定探索更寬(選擇GEN節點),而標準MCTS則不能。這種機制使得在不同樹深度上能夠進行更靈活的探索。

除了探索寬度的靈活性之外,AB-MCTS在順序優化表現優異的基準測試中也取得了優異的性能,這表明AB-MCTS通過選擇現有子節點進行優化,能夠有效地識別并利用了有潛力的分支。這種自適應特性使其能夠結合探索與利用的優勢,在多種基準測試中表現出強大的性能。



為了研究AB-MCTS的擴展特性,使用DeepSeek-V3對ARC-AGI的實驗進行了擴展,將生成預算增加到512。如上圖所示,隨著預算從200增加到500,AB-MCTS的性能繼續顯著提高,而重復采樣的改進率開始趨于平穩。

標準MCTS在增加預算后也繼續改進,但與AB-MCTS方法相比,其成功率顯著較低。這種性能差距表明,AB-MCTS在大型計算規模下更有效地將搜索導向搜索樹中更有希望的分支



上圖展示了由AB-MCTS-M和標準MCTS生成的搜索樹示例。這些可視化展示了AB-MCTS-M相比標準MCTS具有更強的自適應分支特性。

這種自適應性表明,AB-MCTS-M在整個搜索過程中靈活地平衡探索與利用,能夠動態分配預算以探索多樣化的新候選者(“拓展寬度”)和優化有潛力的候選者(“深入挖掘”)。

以上結果表明,即使考慮到重復采樣的固有優勢,AB-MCTS仍是一種有前景的方法,能夠高效利用生成預算在各種場景中取得更優結果。



在具有挑戰性的ARC-AGI-2基準測試中,AB-MCTS結合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題,而頂尖的獨立模型僅解決了23%。

結果顯示,有幾種情況下,只有不同模型的組合才能得出正確答案。

自然啟發與創新之路



上述關于AB-MCTS的研究并非憑空產生,它基于Sakana AI 2024年在進化模型融合方面的工作,該團隊將重點從“混合以創造”轉向“混合以使用”現有的強大AI。

他們是這樣說的:

  • 在Sakana AI,我們始終致力于通過應用受自然啟發的原則(如進化和集體智能)來開創新型AI系統。

他們也確實這樣做了:

不僅僅是2024年的進化合并模型,就在今年5月,Sakana AI還和哥倫比亞大學的科研人員共同開發了達爾文-哥德爾機(DGM)——這是一個旨在自我進化的AI框架,并非針對固定目標進行優化,而是從生物進化與科學發現中汲取靈感,通過開放式搜索和持續的自我修改來生成新的解決方案。



而前段時間,有兩位物理學家以生物系統自我組裝的過程為參考,揭示了擴散模型“創造力”的本質……

這些發現和創造都是“自然式啟發”的體現。

參考鏈接:
[1]https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/
[2]https://x.com/SakanaAILabs/status/1939854145856708910

論文:https://arxiv.org/abs/2503.04412
算法(TreeQuest): https://github.com/SakanaAI/treequest
ARC-AGI實驗:https://github.com/SakanaAI/ab-mcts-arc2

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

南宮一二
2025-07-20 09:15:49
廣東傳統電視業日益凋零,大量演員無戲可拍,都紛紛去當網紅了

廣東傳統電視業日益凋零,大量演員無戲可拍,都紛紛去當網紅了

安山客
2025-07-20 12:16:11
越南與中國杠上了?中國前腳定下9月3閱兵,越南后腳就定9月2!

越南與中國杠上了?中國前腳定下9月3閱兵,越南后腳就定9月2!

李博世財經
2025-07-20 17:14:15
周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

春江財富
2025-07-20 08:48:52
男按摩師回憶:有的女顧客需要的不是按摩手法,更像是沖著我本人

男按摩師回憶:有的女顧客需要的不是按摩手法,更像是沖著我本人

歷來都很現實
2025-07-08 01:20:54
自作孽不可活!昔日的頭號主播小楊哥,如今落魄不已,卻無人心疼

自作孽不可活!昔日的頭號主播小楊哥,如今落魄不已,卻無人心疼

山河月明史
2025-06-23 21:44:20
黃曉明好友曝葉珂復出原因,回應兩人是否復合,對葉珂態度大逆轉

黃曉明好友曝葉珂復出原因,回應兩人是否復合,對葉珂態度大逆轉

鄭丁嘉話
2025-07-19 14:24:21
趁妻子睡了,岳母把我叫到隔壁房間,讓我做對不起妻子的事

趁妻子睡了,岳母把我叫到隔壁房間,讓我做對不起妻子的事

第7情感
2025-03-11 05:01:22
林彪去世后,在他家找到本小冊子,里面的話竟令毛主席失聲痛哭!

林彪去世后,在他家找到本小冊子,里面的話竟令毛主席失聲痛哭!

書畫藝術收藏
2025-03-23 20:00:08
中國女籃狂勝韓國!5人表現出色,2人被重點批評,MVP并非張子宇

中國女籃狂勝韓國!5人表現出色,2人被重點批評,MVP并非張子宇

侃球熊弟
2025-07-20 18:21:31
原來他們是夫妻,戲里戲外恩愛29年,如今因女兒高考成績終于火了

原來他們是夫妻,戲里戲外恩愛29年,如今因女兒高考成績終于火了

白面書誏
2025-07-20 23:17:36
他最先發現毛澤東的才華,曾預言:這是一個可能改變中國未來的人

他最先發現毛澤東的才華,曾預言:這是一個可能改變中國未來的人

有范又有料
2025-07-10 10:34:04
貴州畢節兩所民辦學校互發聲明,指責對方中高考數據造假,當地教育部門介入

貴州畢節兩所民辦學校互發聲明,指責對方中高考數據造假,當地教育部門介入

極目新聞
2025-07-20 12:03:33
法國專家直言:看不懂中國!還沒開始動工,中國都已經建設完成了

法國專家直言:看不懂中國!還沒開始動工,中國都已經建設完成了

侃侃兒談
2025-06-27 11:48:35
再這么卷下去,汽車行業真的要完蛋了…

再這么卷下去,汽車行業真的要完蛋了…

買車家
2025-07-18 17:58:26
史上最變態殘忍的饑餓實驗:36名健康男子被活活餓24周,再恢復正常飲食,結果令人瞠目…

史上最變態殘忍的饑餓實驗:36名健康男子被活活餓24周,再恢復正常飲食,結果令人瞠目…

最英國
2025-05-16 07:41:08
麥坎茨談比爾:快船又弄回了喬治 他防守和單打還不如喬治

麥坎茨談比爾:快船又弄回了喬治 他防守和單打還不如喬治

直播吧
2025-07-20 22:07:13
吉爾吉斯斯坦500多萬人口400萬自稱中國將軍后裔,兩千年藏著啥?

吉爾吉斯斯坦500多萬人口400萬自稱中國將軍后裔,兩千年藏著啥?

芳芳歷史燴
2025-07-20 20:38:51
烏克蘭收復扎波羅熱南部多地!完全控制蘇梅的金德拉蒂夫卡

烏克蘭收復扎波羅熱南部多地!完全控制蘇梅的金德拉蒂夫卡

項鵬飛
2025-07-20 21:40:34
湖南省最讓人惋惜的五大商場,曾經都人氣火爆,如今卻很落寞

湖南省最讓人惋惜的五大商場,曾經都人氣火爆,如今卻很落寞

三農老歷
2025-07-20 17:06:31
2025-07-21 00:07:01
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

房產
旅游
手機
家居
藝術

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

榮耀Magic V Flip2下周預熱:搭載驍龍8+ Gen1芯片

家居要聞

簡構智居 現代功能美學

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 朝阳区| 澜沧| 固原市| 高陵县| 台州市| 衡山县| 青铜峡市| 青神县| 永福县| 张家界市| 贺兰县| 柘荣县| 古丈县| 武鸣县| 咸宁市| 左权县| 余干县| 合江县| 饶阳县| 兖州市| 河东区| 秭归县| 南汇区| 疏勒县| 金堂县| 新营市| 黑水县| 新疆| 宝坻区| 西宁市| 徐州市| 绩溪县| 孟州市| 桐柏县| 宣恩县| 英山县| 衢州市| 会昌县| 分宜县| 连江县| 威信县|