網易首頁 > 網易號 > 正文申請入駐

AI版三個臭皮匠！ChatGPT/Gemini/DeepSeek合體拿下AGI測試最高分

2025-07-08 17:03:21　來源: 量子位

北京舉報

分享至

不圓發自凹非寺
量子位 | 公眾號 QbitAI

ChatGPT的對話流暢性、Gemini的多模態能力、DeepSeek的長上下文分析……

能不能讓它們強強聯合，共同解決問題呢？

那個由Transformer作者之一Llion Jones創立的明星AI公司Sakana AI，提出了新方法AB-MCTS，核心思想是：

最偉大的成就往往源于不同思想的協作，我們相信這一原則同樣適用于人工智能。

AB-MCTS，全稱為自適應分支蒙特卡洛樹搜索（Adaptive Branching Monte Carlo Tree Search），是一種使多個人工智能模型同時處理問題的算法。模型之間交換并完善建議，協同工作，就像人類團隊一樣。

在具有挑戰性的ARC-AGI-2基準測試中，多LLM AB-MCTS解決的問題比單獨工作的任何單個模型（Single-LLM AB-MCTS）都多。

有幾種情況下，只有不同模型的組合才能得出正確答案。

Sakana AI已將該算法以TreeQuest的名稱開源，鏈接可見文末。

兩種搜索策略

AB-MCTS結合了兩種不同的搜索策略：它可以完善現有解決方案（深度搜索），也可以嘗試全新的方法（廣度搜索）。

主要的技術挑戰是將無界分支引入MCTS。

標準MCTS僅選擇并擴展葉節點（即每個節點最多被擴展一次），且擴展會添加固定數量的子節點。然而，由于在非零溫度下對LLM的每個查詢都可能從相同提示中產生不同的輸出，分支因子理論上無限。

為了充分利用MCTS的無界分支的潛在性能提升，AB-MCTS允許那些已經擴展過一次的節點再次被擴展并進一步分支，并引入GEN節點來明確表示生成新子節點的動作。

在AB-MCTS的搜索樹中，每個節點N均附帶一個GEN子節點。選中帶有GEN節點的父節點時，會從N生成一個新子節點。

與傳統的MCTS不同，AB-MCTS不會將寬度作為靜態超參數固定。

相反，在搜索樹的每個節點上，AB-MCTS會自適應地決定是探索（“變寬”）通過生成新的候選響應，還是利用（“變深”）通過改進現有的響應，利用外部反饋信號。

在底層，AB-MCTS通過貝葉斯后驗預測分布估計節點潛力，并用Thompson采樣選擇動作，以確保每次擴展都以原則性的方式平衡探索和利用。

這種設計自然地擴展了多次采樣，使AB-MCTS能夠在必要時利用LLMs多樣化且龐大的輸出空間。

在以上基礎上，Sakana AI還提出了兩個變體：AB-MCTS-M和AB-MCTS-A。

簡單地說：

AB-MCTS-M：更分層。使用混合效應模型共享子樹間的統計信息，通過分層貝葉斯推斷平衡全局與局部探索。
AB-MCTS-A：更輕量。通過CONT節點顯式分離“生成”與“優化”動作，并基于共軛先驗實現高效后驗更新，簡化計算。

其利斷金

對AB-MCTS進行基準測試，結果顯示，AB-MCTS在各種基準測試和LLMs中始終表現出色，獲得的平均排名最高并優于既定基線。

這種持續的成功源于AB-MCTS獨特的動態調整搜索策略的能力，它通過精確平衡探索和利用來適應每個問題的不同需求，而基線方法中幾乎缺乏這種適應性。

LiveCodeBench和CodeContest

上圖左側和中部報告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預算的關系，可以看到，所有方法在計算預算增加時都表現出性能提升。在這兩個基準測試中，AB-MCTS算法通常優于基線方法。

在LiveCodeBench，即使預算很小，AB-MCTS也開始超越基線方法；在CodeContest，預算為32及以上時，AB-MCTS表現出優于基線的性能。

ARC-AGI

上圖右側展示了GPT-4o在ARC-AGI這一特別具有挑戰性的基準測試上的性能表現。可以看到，重復采樣在該設置中證明是一種強大的基線，這表明對于這項任務，廣泛的探索非常重要

雖然標準MCTS在預算增加時只能帶來微小的改進，但AB-MCTS框架實現了與重復采樣相當的性能。這表明AB-MCTS能夠通過在有利時動態擴展其搜索范圍來有效地探索潛在解。

MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三個競賽中的性能表現。由于MLE-Bench在訓練和評估機器學習模型時需要大量的GPU資源，研究團隊僅使用了GPT-4o，并專注于基線方法和AB-MCTS-M。

結果顯示，最佳性能的基線方法在不同競賽中有所不同，這再次強調了不同任務受益于不同的探索-利用權衡。

相比之下，AB-MCTS-M在這些任務中始終表現出色。

這種在不同競賽中的一致成功突顯了AB-MCTS-M在有效適應其搜索策略以應對不同問題結構方面的內在優勢。

為了定量分析AB-MCTS如何平衡探索與利用，論文的研究團隊還考察了生成的搜索樹在每個深度的平均深度和平均寬度。

如上圖顯示，與標準MCTS相比，AB-MCTS方法傾向于生成更寬的樹。這是因為AB-MCTS可以從任何現有節點自適應地決定探索更寬（選擇GEN節點），而標準MCTS則不能。這種機制使得在不同樹深度上能夠進行更靈活的探索。

除了探索寬度的靈活性之外，AB-MCTS在順序優化表現優異的基準測試中也取得了優異的性能，這表明AB-MCTS通過選擇現有子節點進行優化，能夠有效地識別并利用了有潛力的分支。這種自適應特性使其能夠結合探索與利用的優勢，在多種基準測試中表現出強大的性能。

為了研究AB-MCTS的擴展特性，使用DeepSeek-V3對ARC-AGI的實驗進行了擴展，將生成預算增加到512。如上圖所示，隨著預算從200增加到500，AB-MCTS的性能繼續顯著提高，而重復采樣的改進率開始趨于平穩。

標準MCTS在增加預算后也繼續改進，但與AB-MCTS方法相比，其成功率顯著較低。這種性能差距表明，AB-MCTS在大型計算規模下更有效地將搜索導向搜索樹中更有希望的分支。

上圖展示了由AB-MCTS-M和標準MCTS生成的搜索樹示例。這些可視化展示了AB-MCTS-M相比標準MCTS具有更強的自適應分支特性。

這種自適應性表明，AB-MCTS-M在整個搜索過程中靈活地平衡探索與利用，能夠動態分配預算以探索多樣化的新候選者（“拓展寬度”）和優化有潛力的候選者（“深入挖掘”）。

以上結果表明，即使考慮到重復采樣的固有優勢，AB-MCTS仍是一種有前景的方法，能夠高效利用生成預算在各種場景中取得更優結果。

在具有挑戰性的ARC-AGI-2基準測試中，AB-MCTS結合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題，而頂尖的獨立模型僅解決了23%。

結果顯示，有幾種情況下，只有不同模型的組合才能得出正確答案。

自然啟發與創新之路

上述關于AB-MCTS的研究并非憑空產生，它基于Sakana AI 2024年在進化模型融合方面的工作，該團隊將重點從“混合以創造”轉向“混合以使用”現有的強大AI。

他們是這樣說的：

在Sakana AI，我們始終致力于通過應用受自然啟發的原則（如進化和集體智能）來開創新型AI系統。

他們也確實這樣做了：

不僅僅是2024年的進化合并模型，就在今年5月，Sakana AI還和哥倫比亞大學的科研人員共同開發了達爾文-哥德爾機（DGM）——這是一個旨在自我進化的AI框架，并非針對固定目標進行優化，而是從生物進化與科學發現中汲取靈感，通過開放式搜索和持續的自我修改來生成新的解決方案。

而前段時間，有兩位物理學家以生物系統自我組裝的過程為參考，揭示了擴散模型“創造力”的本質……

這些發現和創造都是“自然式啟發”的體現。

參考鏈接：
[1]https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/
[2]https://x.com/SakanaAILabs/status/1939854145856708910

論文：https://arxiv.org/abs/2503.04412
算法（TreeQuest）: https://github.com/SakanaAI/treequest
ARC-AGI實驗：https://github.com/SakanaAI/ab-mcts-arc2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.