網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OAI/谷歌/DeepSeek首次合體「AI夢(mèng)之隊(duì)」！戰(zhàn)力飆升30%，碾壓一切單模型

2025-07-05 18:11:14　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧好困

【新智元導(dǎo)讀】三個(gè)前沿AI能融合成AGI嗎？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型，在推理過程中動(dòng)態(tài)協(xié)作，通過試錯(cuò)優(yōu)化生成過程，有效融合群體AI智慧。

三個(gè)臭皮匠頂個(gè)諸葛亮、雙拳難敵四手。。。

這些對(duì)于人類再自然不過的群體智慧思維，似乎從來沒有發(fā)生在AI身上。

我們總是期望某個(gè)AI能夠足夠智能，科技巨頭們之間的比拼也是通過單模型的不斷更新來標(biāo)榜先進(jìn)性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型，到底哪個(gè)寫的代碼更好？

但如果，將多個(gè)AI模型的能力「融會(huì)貫通」，能否也達(dá)到三個(gè)臭AI頂個(gè)AGI的效果？

最近，一項(xiàng)來自于Sakana AI的研究，在推理過程中——而不是在構(gòu)建——試圖將三種模型的能力整合起來。

結(jié)果令人驚訝，整合后的模型能力都遠(yuǎn)超單個(gè)模型，三模合一的性能也好于只有兩個(gè)模型合體的性能。

Sakana AI使用一種新的推理時(shí)Scaling算法，自適應(yīng)分支蒙特卡洛樹搜索AB-MCTS（Adaptive Branching Monte Carlo Tree Search）。

該算法使AI能夠高效地執(zhí)行試錯(cuò)操作，并讓多個(gè)前沿AI模型協(xié)同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當(dāng)前最先進(jìn)的AI模型組合起來，在ARC-AGI-2基準(zhǔn)測(cè)試中取得了令人驚訝的成績(jī)。

多模型的得分遠(yuǎn)超單獨(dú)的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。

論文地址：https://arxiv.org/abs/2503.04412

這種想法，曾經(jīng)在在2024年關(guān)于進(jìn)化模型融合的研究中得到過初期驗(yàn)證，通過進(jìn)化計(jì)算和模型融合，利用現(xiàn)有開源模型挖掘到了多模型所蘊(yùn)含的巨大群體智慧。

但AB-MCTS更進(jìn)一步，不僅在構(gòu)建新模型時(shí)，而且在推理過程中也使用多個(gè)模型。

利用不斷進(jìn)步的前沿模型（例如ChatGPT、Gemini和DeepSeek），生成一種新的群體智能的形式。

推理時(shí)Scaling

當(dāng)你面對(duì)一個(gè)無法一眼看透的難題時(shí)，會(huì)怎么做？

很可能，你會(huì)花更長(zhǎng)時(shí)間獨(dú)立思考，親身實(shí)踐、反復(fù)試錯(cuò)，或是與他人協(xié)作。

那么，我們是不是也能讓AI用同樣的方式去解決難題呢？

第一種方法和人類使用的「更長(zhǎng)時(shí)間思考」策略如出一轍——通過RL生成更長(zhǎng)的思維鏈，來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
第二種方法，是讓模型反復(fù)審視問題、不斷優(yōu)化答案，甚至在必要時(shí)推倒重來。
第三種則是讓LLM之間進(jìn)行頭腦風(fēng)暴，類似于一種「群體智慧」。

這次團(tuán)隊(duì)提出的AB-MCTS，正是通過推理時(shí)Scaling技術(shù)，讓AI不僅能高效地執(zhí)行試錯(cuò)，還能讓多個(gè)不同的AI進(jìn)行集體思考。

駕馭搜索的兩個(gè)維度：深度與廣度

目前，有兩種常見的方法可以讓LLM進(jìn)行試錯(cuò)：

第一種，是名為「序列優(yōu)化」的深度優(yōu)先搜索。它利用LLM生成答案，然后對(duì)其進(jìn)行反復(fù)優(yōu)化。

第二種，是「重復(fù)采樣」，即讓LLM根據(jù)同一個(gè)提示詞多次生成解決方案。這種廣度優(yōu)先搜索，會(huì)重復(fù)地查詢LLM，但不會(huì)參考先前嘗試的結(jié)果。而LLM的隨機(jī)性，則會(huì)對(duì)同一問題會(huì)產(chǎn)生不同的答案。

實(shí)踐證明，無論是深入搜索（優(yōu)化現(xiàn)有解決方案）還是擴(kuò)展搜索（生成新解決方案），都能有效幫助LLM找到更優(yōu)的答案。

為了將這兩者有效地結(jié)合起來，團(tuán)隊(duì)提出了一種用于推理時(shí)Scaling的、更高效的全新方法——AB-MCTS。

它能根據(jù)具體問題和上下文，在深度和廣度兩個(gè)方向上進(jìn)行靈活搜索。

為了實(shí)現(xiàn)這種靈活搜索，AB-MCTS擴(kuò)展了在AlphaGo等系統(tǒng)中得到成功應(yīng)用的蒙特卡洛樹搜索 (MCTS)，并采用湯普森采樣來決定探索方向。

具體而言，在每個(gè)節(jié)點(diǎn)（代表初始提示詞或一個(gè)已生成的解決方案），AB-MCTS會(huì)利用概率模型來評(píng)估兩種可能行動(dòng)的潛在價(jià)值：

生成一個(gè)全新的解決方案
或者優(yōu)化一個(gè)現(xiàn)有的方案

隨后，從這些模型中進(jìn)行采樣，根據(jù)估算出的價(jià)值來決定下一步的探索方向。

為了評(píng)估尚未生成的新方案的質(zhì)量，AB-MCTS會(huì)通過混合模型和概率分布來對(duì)評(píng)估過程進(jìn)行建模，從而實(shí)現(xiàn)真正靈活的搜索。

第三個(gè)維度：AI

為了最大化LLM作為集體智能的潛力，一個(gè)名為Multi-LLM AB-MCTS的系統(tǒng)應(yīng)運(yùn)而生。

它不僅能自適應(yīng)地探索搜索方向，還能根據(jù)給定的問題和情境，選擇使用哪個(gè)LLM。

具體來說，Multi-LLM AB-MCTS的運(yùn)作方式如下：

步驟1：算法將決定是（1）選擇一個(gè)現(xiàn)有節(jié)點(diǎn)（深入搜索），并在下一層級(jí)重復(fù)步驟1；還是（2）從當(dāng)前節(jié)點(diǎn)生成一個(gè)新的解決方案（擴(kuò)展搜索），并進(jìn)入步驟2。

步驟2：選擇一個(gè)LLM。

步驟3：被選中的LLM會(huì)基于父節(jié)點(diǎn)生成一個(gè)更優(yōu)的解決方案，并對(duì)結(jié)果進(jìn)行評(píng)估。這個(gè)新生成的解決方案將作為一個(gè)新節(jié)點(diǎn)添加到搜索樹中。

至于如何選擇模型，團(tuán)隊(duì)的方法是——

首先，為每種模型分配了一個(gè)獨(dú)立的概率模型，并采用類似AB-MCTS的方式使用湯普森采樣；

然后，這些概率模型就會(huì)根據(jù)每個(gè)LLM在搜索過程中的表現(xiàn)進(jìn)行更新；

最終，讓表現(xiàn)更優(yōu)的LLM被選中的可能性越來越高。

實(shí)驗(yàn)結(jié)果

ARC-AGI旨在評(píng)估一種類人、靈活的智能，這種智能可以高效地進(jìn)行推理并解決新問題，而不像傳統(tǒng)指標(biāo)那樣測(cè)試特定技能或知識(shí)。

實(shí)驗(yàn)采用的是更具挑戰(zhàn)性的ARC-AGI-2。

來自ARC-AGI-2的一個(gè)示例問題：任務(wù)是從左側(cè)的三個(gè)演示案例中推斷出共同的轉(zhuǎn)換規(guī)則，并將其應(yīng)用到右側(cè)的測(cè)試案例中

為了主要評(píng)估搜索算法的最大潛在性能，使用了Pass@k指標(biāo)，該指標(biāo)用于衡量在k次嘗試內(nèi)是否至少找到了一個(gè)正確的解決方案。

這與ARC-AGI-2比賽的官方標(biāo)準(zhǔn)不同，后者通常采用Pass@2標(biāo)準(zhǔn)（提交兩個(gè)最終答案，其中一個(gè)是正確的）。

Pass@2方法需要從搜索結(jié)果中選擇有希望的候選方案的額外步驟。

實(shí)驗(yàn)是在ARC-AGI-2的公共評(píng)估集中的120個(gè)任務(wù)上進(jìn)行的。

結(jié)合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現(xiàn)出更高的得分。

重復(fù)采樣一直被認(rèn)為是ARC-AGI中一種非常有效的方法。

事實(shí)上，在實(shí)驗(yàn)中，使用o4-mini進(jìn)行重復(fù)采樣成功解決了23%的問題（即生成了能夠正確轉(zhuǎn)換測(cè)試用例的Python代碼）。

這一結(jié)果遠(yuǎn)超單次嘗試的得分，展示了重復(fù)采樣的強(qiáng)大能力。

AB-MCTS進(jìn)一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調(diào)用后變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用，最終能夠?yàn)槌^30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發(fā)現(xiàn)的一個(gè)關(guān)鍵特征是它能夠根據(jù)各個(gè)LLM在特定問題上的專長(zhǎng)動(dòng)態(tài)地分配它們。

下圖清楚地展示了這一行為：對(duì)于在演示示例中成功率較高的情況（圖的左側(cè)），觀察到對(duì)某個(gè)特定LLM的明顯偏好。

這種偏向發(fā)生的原因是在搜索過程中，算法識(shí)別出哪個(gè)LLM對(duì)于給定的問題最有效，并隨后增加該模型的使用頻率。

還有一些有趣的例子，其中單個(gè)LLM無法解決的問題在組合使用多個(gè)LLM后得以解決。

這超出了為每個(gè)問題分配最佳LLM的簡(jiǎn)單做法。

在下面的例子中，盡管o4-mini最初生成的解答是錯(cuò)誤的，但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結(jié)合前沿模型，解決原本無法解決的問題，從而推動(dòng)將LLMs用作集體智能所能實(shí)現(xiàn)的邊界。

使用Multi-LLMAB-MCTS解決ARC-AGI-2時(shí)的搜索樹示例。

節(jié)點(diǎn)中的數(shù)字表示生成順序，顏色代表所選的LLM。

黃色節(jié)點(diǎn)表示生成了正確轉(zhuǎn)換測(cè)試用例的代碼的節(jié)點(diǎn)。

這是一個(gè)單一LLM均無法找到解決方案，但通過多個(gè)LLM的組合成功解決問題的示例。

多LLMAB-MCTS使得不同LLM之間能夠協(xié)作。

上圖展示了一個(gè)例子，其中DeepSeek-R1-0528在o4-mini（來自上圖問題中生成的錯(cuò)誤解答）的基礎(chǔ)上改進(jìn)，最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時(shí)Scaling多個(gè)前沿模型的合作來提升性能。在結(jié)合多個(gè)LLM方面，也提出了諸如多智能體辯論（Multiagent Debate）、智能體混合（Mixture-of-Agents）和LE-MCTS等其他方法。

自2024年中以來，「推理」模型逐漸受到重視，這些模型通過強(qiáng)化學(xué)習(xí)優(yōu)化推理過程，開啟了繼模型擴(kuò)展之后的新范式——推理時(shí)Scaling時(shí)代。

通過反復(fù)執(zhí)行這些模型的推理過程，并結(jié)合多個(gè)具有獨(dú)特個(gè)性的LLMs，可以進(jìn)一步提升推理性能。

盡管人類大腦本身已堪稱自然奇跡，但真正撼動(dòng)時(shí)代的偉業(yè)，從不屬于孤膽英雄。

無論是將人類送上月球的阿波羅計(jì)劃，構(gòu)建全球信息命脈的互聯(lián)網(wǎng)，還是破譯生命密碼的人類基因組計(jì)劃，這些里程碑式的成就，皆源于無數(shù)頭腦之間的協(xié)作與共鳴。

正是多樣知識(shí)的交匯、思想的碰撞，才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。

參考資料：

https://sakana.ai/ab-mcts/

https://arxiv.org/abs/2503.04412

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.