新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】三個(gè)前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動(dòng)態(tài)協(xié)作,通過試錯(cuò)優(yōu)化生成過程,有效融合群體AI智慧。
三個(gè)臭皮匠頂個(gè)諸葛亮、雙拳難敵四手。。。
這些對(duì)于人類再自然不過的群體智慧思維,似乎從來沒有發(fā)生在AI身上。
我們總是期望某個(gè)AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標(biāo)榜先進(jìn)性。
比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個(gè)寫的代碼更好?
但如果,將多個(gè)AI模型的能力「融會(huì)貫通」,能否也達(dá)到三個(gè)臭AI頂個(gè)AGI的效果?
最近,一項(xiàng)來自于Sakana AI的研究,在推理過程中——而不是在構(gòu)建——試圖將三種模型的能力整合起來。
結(jié)果令人驚訝,整合后的模型能力都遠(yuǎn)超單個(gè)模型,三模合一的性能也好于只有兩個(gè)模型合體的性能。
Sakana AI使用一種新的推理時(shí)Scaling算法,自適應(yīng)分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。
該算法使AI能夠高效地執(zhí)行試錯(cuò)操作,并讓多個(gè)前沿AI模型協(xié)同合作。
使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當(dāng)前最先進(jìn)的AI模型組合起來,在ARC-AGI-2基準(zhǔn)測(cè)試中取得了令人驚訝的成績(jī)。
多模型的得分遠(yuǎn)超單獨(dú)的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。
論文地址:https://arxiv.org/abs/2503.04412
這種想法,曾經(jīng)在在2024年關(guān)于進(jìn)化模型融合的研究中得到過初期驗(yàn)證,通過進(jìn)化計(jì)算和模型融合,利用現(xiàn)有開源模型挖掘到了多模型所蘊(yùn)含的巨大群體智慧。
但AB-MCTS更進(jìn)一步,不僅在構(gòu)建新模型時(shí),而且在推理過程中也使用多個(gè)模型。
利用不斷進(jìn)步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。
推理時(shí)Scaling
當(dāng)你面對(duì)一個(gè)無法一眼看透的難題時(shí),會(huì)怎么做?
很可能,你會(huì)花更長(zhǎng)時(shí)間獨(dú)立思考,親身實(shí)踐、反復(fù)試錯(cuò),或是與他人協(xié)作。
那么,我們是不是也能讓AI用同樣的方式去解決難題呢?
第一種方法和人類使用的「更長(zhǎng)時(shí)間思考」策略如出一轍——通過RL生成更長(zhǎng)的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
第二種方法,是讓模型反復(fù)審視問題、不斷優(yōu)化答案,甚至在必要時(shí)推倒重來。
第三種則是讓LLM之間進(jìn)行頭腦風(fēng)暴,類似于一種「群體智慧」。
這次團(tuán)隊(duì)提出的AB-MCTS,正是通過推理時(shí)Scaling技術(shù),讓AI不僅能高效地執(zhí)行試錯(cuò),還能讓多個(gè)不同的AI進(jìn)行集體思考。
駕馭搜索的兩個(gè)維度:深度與廣度
目前,有兩種常見的方法可以讓LLM進(jìn)行試錯(cuò):
第一種,是名為「序列優(yōu)化」的深度優(yōu)先搜索。它利用LLM生成答案,然后對(duì)其進(jìn)行反復(fù)優(yōu)化。
第二種,是「重復(fù)采樣」,即讓LLM根據(jù)同一個(gè)提示詞多次生成解決方案。這種廣度優(yōu)先搜索,會(huì)重復(fù)地查詢LLM,但不會(huì)參考先前嘗試的結(jié)果。而LLM的隨機(jī)性,則會(huì)對(duì)同一問題會(huì)產(chǎn)生不同的答案。
實(shí)踐證明,無論是深入搜索(優(yōu)化現(xiàn)有解決方案)還是擴(kuò)展搜索(生成新解決方案),都能有效幫助LLM找到更優(yōu)的答案。
為了將這兩者有效地結(jié)合起來,團(tuán)隊(duì)提出了一種用于推理時(shí)Scaling的、更高效的全新方法——AB-MCTS。
它能根據(jù)具體問題和上下文,在深度和廣度兩個(gè)方向上進(jìn)行靈活搜索。
為了實(shí)現(xiàn)這種靈活搜索,AB-MCTS擴(kuò)展了在AlphaGo等系統(tǒng)中得到成功應(yīng)用的蒙特卡洛樹搜索 (MCTS),并采用湯普森采樣來決定探索方向。
具體而言,在每個(gè)節(jié)點(diǎn)(代表初始提示詞或一個(gè)已生成的解決方案),AB-MCTS會(huì)利用概率模型來評(píng)估兩種可能行動(dòng)的潛在價(jià)值:
生成一個(gè)全新的解決方案
或者優(yōu)化一個(gè)現(xiàn)有的方案
隨后,從這些模型中進(jìn)行采樣,根據(jù)估算出的價(jià)值來決定下一步的探索方向。
為了評(píng)估尚未生成的新方案的質(zhì)量,AB-MCTS會(huì)通過混合模型和概率分布來對(duì)評(píng)估過程進(jìn)行建模,從而實(shí)現(xiàn)真正靈活的搜索。
第三個(gè)維度:AI
為了最大化LLM作為集體智能的潛力,一個(gè)名為Multi-LLM AB-MCTS的系統(tǒng)應(yīng)運(yùn)而生。
它不僅能自適應(yīng)地探索搜索方向,還能根據(jù)給定的問題和情境,選擇使用哪個(gè)LLM。
具體來說,Multi-LLM AB-MCTS的運(yùn)作方式如下:
步驟1:算法將決定是(1)選擇一個(gè)現(xiàn)有節(jié)點(diǎn)(深入搜索),并在下一層級(jí)重復(fù)步驟1;還是(2)從當(dāng)前節(jié)點(diǎn)生成一個(gè)新的解決方案(擴(kuò)展搜索),并進(jìn)入步驟2。
步驟2:選擇一個(gè)LLM。
步驟3:被選中的LLM會(huì)基于父節(jié)點(diǎn)生成一個(gè)更優(yōu)的解決方案,并對(duì)結(jié)果進(jìn)行評(píng)估。這個(gè)新生成的解決方案將作為一個(gè)新節(jié)點(diǎn)添加到搜索樹中。
至于如何選擇模型,團(tuán)隊(duì)的方法是——
首先,為每種模型分配了一個(gè)獨(dú)立的概率模型,并采用類似AB-MCTS的方式使用湯普森采樣;
然后,這些概率模型就會(huì)根據(jù)每個(gè)LLM在搜索過程中的表現(xiàn)進(jìn)行更新;
最終,讓表現(xiàn)更優(yōu)的LLM被選中的可能性越來越高。
實(shí)驗(yàn)結(jié)果
ARC-AGI旨在評(píng)估一種類人、靈活的智能,這種智能可以高效地進(jìn)行推理并解決新問題,而不像傳統(tǒng)指標(biāo)那樣測(cè)試特定技能或知識(shí)。
實(shí)驗(yàn)采用的是更具挑戰(zhàn)性的ARC-AGI-2。
來自ARC-AGI-2的一個(gè)示例問題:任務(wù)是從左側(cè)的三個(gè)演示案例中推斷出共同的轉(zhuǎn)換規(guī)則,并將其應(yīng)用到右側(cè)的測(cè)試案例中
為了主要評(píng)估搜索算法的最大潛在性能,使用了Pass@k指標(biāo),該指標(biāo)用于衡量在k次嘗試內(nèi)是否至少找到了一個(gè)正確的解決方案。
這與ARC-AGI-2比賽的官方標(biāo)準(zhǔn)不同,后者通常采用Pass@2標(biāo)準(zhǔn)(提交兩個(gè)最終答案,其中一個(gè)是正確的)。
Pass@2方法需要從搜索結(jié)果中選擇有希望的候選方案的額外步驟。
實(shí)驗(yàn)是在ARC-AGI-2的公共評(píng)估集中的120個(gè)任務(wù)上進(jìn)行的。
結(jié)合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現(xiàn)出更高的得分。
重復(fù)采樣一直被認(rèn)為是ARC-AGI中一種非常有效的方法。
事實(shí)上,在實(shí)驗(yàn)中,使用o4-mini進(jìn)行重復(fù)采樣成功解決了23%的問題(即生成了能夠正確轉(zhuǎn)換測(cè)試用例的Python代碼)。
這一結(jié)果遠(yuǎn)超單次嘗試的得分,展示了重復(fù)采樣的強(qiáng)大能力。
AB-MCTS進(jìn)一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調(diào)用后變得更加明顯。
通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠?yàn)槌^30%的問題找到正確的解決方案。
在Multi-LLMAB-MCTS中發(fā)現(xiàn)的一個(gè)關(guān)鍵特征是它能夠根據(jù)各個(gè)LLM在特定問題上的專長(zhǎng)動(dòng)態(tài)地分配它們。
下圖清楚地展示了這一行為:對(duì)于在演示示例中成功率較高的情況(圖的左側(cè)),觀察到對(duì)某個(gè)特定LLM的明顯偏好。
這種偏向發(fā)生的原因是在搜索過程中,算法識(shí)別出哪個(gè)LLM對(duì)于給定的問題最有效,并隨后增加該模型的使用頻率。
還有一些有趣的例子,其中單個(gè)LLM無法解決的問題在組合使用多個(gè)LLM后得以解決。
這超出了為每個(gè)問題分配最佳LLM的簡(jiǎn)單做法。
在下面的例子中,盡管o4-mini最初生成的解答是錯(cuò)誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。
這表明Multi-LLMAB-MCTS可以靈活地結(jié)合前沿模型,解決原本無法解決的問題,從而推動(dòng)將LLMs用作集體智能所能實(shí)現(xiàn)的邊界。
使用Multi-LLMAB-MCTS解決ARC-AGI-2時(shí)的搜索樹示例。
節(jié)點(diǎn)中的數(shù)字表示生成順序,顏色代表所選的LLM。
黃色節(jié)點(diǎn)表示生成了正確轉(zhuǎn)換測(cè)試用例的代碼的節(jié)點(diǎn)。
這是一個(gè)單一LLM均無法找到解決方案,但通過多個(gè)LLM的組合成功解決問題的示例。
多LLMAB-MCTS使得不同LLM之間能夠協(xié)作。
上圖展示了一個(gè)例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯(cuò)誤解答)的基礎(chǔ)上改進(jìn),最終得出了正確答案。
Multi-LLMAB-MCTS旨在通過推理時(shí)Scaling多個(gè)前沿模型的合作來提升性能。在結(jié)合多個(gè)LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。
自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強(qiáng)化學(xué)習(xí)優(yōu)化推理過程,開啟了繼模型擴(kuò)展之后的新范式——推理時(shí)Scaling時(shí)代。
通過反復(fù)執(zhí)行這些模型的推理過程,并結(jié)合多個(gè)具有獨(dú)特個(gè)性的LLMs,可以進(jìn)一步提升推理性能。
盡管人類大腦本身已堪稱自然奇跡,但真正撼動(dòng)時(shí)代的偉業(yè),從不屬于孤膽英雄。
無論是將人類送上月球的阿波羅計(jì)劃,構(gòu)建全球信息命脈的互聯(lián)網(wǎng),還是破譯生命密碼的人類基因組計(jì)劃,這些里程碑式的成就,皆源于無數(shù)頭腦之間的協(xié)作與共鳴。
正是多樣知識(shí)的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。
參考資料:
https://sakana.ai/ab-mcts/
https://arxiv.org/abs/2503.04412
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.