99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OAI/谷歌/DeepSeek首次合體「AI夢(mèng)之隊(duì)」!戰(zhàn)力飆升30%,碾壓一切單模型

0
分享至


新智元報(bào)道

編輯:定慧 好困

【新智元導(dǎo)讀】三個(gè)前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動(dòng)態(tài)協(xié)作,通過試錯(cuò)優(yōu)化生成過程,有效融合群體AI智慧。

三個(gè)臭皮匠頂個(gè)諸葛亮、雙拳難敵四手。。。

這些對(duì)于人類再自然不過的群體智慧思維,似乎從來沒有發(fā)生在AI身上。

我們總是期望某個(gè)AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標(biāo)榜先進(jìn)性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個(gè)寫的代碼更好?

但如果,將多個(gè)AI模型的能力「融會(huì)貫通」,能否也達(dá)到三個(gè)臭AI頂個(gè)AGI的效果?


最近,一項(xiàng)來自于Sakana AI的研究,在推理過程中——而不是在構(gòu)建——試圖將三種模型的能力整合起來。

結(jié)果令人驚訝,整合后的模型能力都遠(yuǎn)超單個(gè)模型,三模合一的性能也好于只有兩個(gè)模型合體的性能。


Sakana AI使用一種新的推理時(shí)Scaling算法,自適應(yīng)分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。

該算法使AI能夠高效地執(zhí)行試錯(cuò)操作,并讓多個(gè)前沿AI模型協(xié)同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當(dāng)前最先進(jìn)的AI模型組合起來,在ARC-AGI-2基準(zhǔn)測(cè)試中取得了令人驚訝的成績(jī)。

多模型的得分遠(yuǎn)超單獨(dú)的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。


論文地址:https://arxiv.org/abs/2503.04412

這種想法,曾經(jīng)在在2024年關(guān)于進(jìn)化模型融合的研究中得到過初期驗(yàn)證,通過進(jìn)化計(jì)算和模型融合,利用現(xiàn)有開源模型挖掘到了多模型所蘊(yùn)含的巨大群體智慧。


但AB-MCTS更進(jìn)一步,不僅在構(gòu)建新模型時(shí),而且在推理過程中也使用多個(gè)模型。

利用不斷進(jìn)步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。

推理時(shí)Scaling

當(dāng)你面對(duì)一個(gè)無法一眼看透的難題時(shí),會(huì)怎么做?

很可能,你會(huì)花更長(zhǎng)時(shí)間獨(dú)立思考,親身實(shí)踐、反復(fù)試錯(cuò),或是與他人協(xié)作。

那么,我們是不是也能讓AI用同樣的方式去解決難題呢?

  • 第一種方法和人類使用的「更長(zhǎng)時(shí)間思考」策略如出一轍——通過RL生成更長(zhǎng)的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。

  • 第二種方法,是讓模型反復(fù)審視問題、不斷優(yōu)化答案,甚至在必要時(shí)推倒重來。

  • 第三種則是讓LLM之間進(jìn)行頭腦風(fēng)暴,類似于一種「群體智慧」。

這次團(tuán)隊(duì)提出的AB-MCTS,正是通過推理時(shí)Scaling技術(shù),讓AI不僅能高效地執(zhí)行試錯(cuò),還能讓多個(gè)不同的AI進(jìn)行集體思考。


駕馭搜索的兩個(gè)維度:深度與廣度

目前,有兩種常見的方法可以讓LLM進(jìn)行試錯(cuò):

  • 第一種,是名為「序列優(yōu)化」的深度優(yōu)先搜索。它利用LLM生成答案,然后對(duì)其進(jìn)行反復(fù)優(yōu)化。

  • 第二種,是「重復(fù)采樣」,即讓LLM根據(jù)同一個(gè)提示詞多次生成解決方案。這種廣度優(yōu)先搜索,會(huì)重復(fù)地查詢LLM,但不會(huì)參考先前嘗試的結(jié)果。而LLM的隨機(jī)性,則會(huì)對(duì)同一問題會(huì)產(chǎn)生不同的答案。


實(shí)踐證明,無論是深入搜索(優(yōu)化現(xiàn)有解決方案)還是擴(kuò)展搜索(生成新解決方案),都能有效幫助LLM找到更優(yōu)的答案。

為了將這兩者有效地結(jié)合起來,團(tuán)隊(duì)提出了一種用于推理時(shí)Scaling的、更高效的全新方法——AB-MCTS。

它能根據(jù)具體問題和上下文,在深度和廣度兩個(gè)方向上進(jìn)行靈活搜索。


為了實(shí)現(xiàn)這種靈活搜索,AB-MCTS擴(kuò)展了在AlphaGo等系統(tǒng)中得到成功應(yīng)用的蒙特卡洛樹搜索 (MCTS),并采用湯普森采樣來決定探索方向。

具體而言,在每個(gè)節(jié)點(diǎn)(代表初始提示詞或一個(gè)已生成的解決方案),AB-MCTS會(huì)利用概率模型來評(píng)估兩種可能行動(dòng)的潛在價(jià)值:

  • 生成一個(gè)全新的解決方案

  • 或者優(yōu)化一個(gè)現(xiàn)有的方案

隨后,從這些模型中進(jìn)行采樣,根據(jù)估算出的價(jià)值來決定下一步的探索方向。

為了評(píng)估尚未生成的新方案的質(zhì)量,AB-MCTS會(huì)通過混合模型和概率分布來對(duì)評(píng)估過程進(jìn)行建模,從而實(shí)現(xiàn)真正靈活的搜索。

第三個(gè)維度:AI

為了最大化LLM作為集體智能的潛力,一個(gè)名為Multi-LLM AB-MCTS的系統(tǒng)應(yīng)運(yùn)而生。

它不僅能自適應(yīng)地探索搜索方向,還能根據(jù)給定的問題和情境,選擇使用哪個(gè)LLM。


具體來說,Multi-LLM AB-MCTS的運(yùn)作方式如下:

  • 步驟1:算法將決定是(1)選擇一個(gè)現(xiàn)有節(jié)點(diǎn)(深入搜索),并在下一層級(jí)重復(fù)步驟1;還是(2)從當(dāng)前節(jié)點(diǎn)生成一個(gè)新的解決方案(擴(kuò)展搜索),并進(jìn)入步驟2。

  • 步驟2:選擇一個(gè)LLM。

  • 步驟3:被選中的LLM會(huì)基于父節(jié)點(diǎn)生成一個(gè)更優(yōu)的解決方案,并對(duì)結(jié)果進(jìn)行評(píng)估。這個(gè)新生成的解決方案將作為一個(gè)新節(jié)點(diǎn)添加到搜索樹中。

至于如何選擇模型,團(tuán)隊(duì)的方法是——

  • 首先,為每種模型分配了一個(gè)獨(dú)立的概率模型,并采用類似AB-MCTS的方式使用湯普森采樣;

  • 然后,這些概率模型就會(huì)根據(jù)每個(gè)LLM在搜索過程中的表現(xiàn)進(jìn)行更新;

  • 最終,讓表現(xiàn)更優(yōu)的LLM被選中的可能性越來越高。


實(shí)驗(yàn)結(jié)果

ARC-AGI旨在評(píng)估一種類人、靈活的智能,這種智能可以高效地進(jìn)行推理并解決新問題,而不像傳統(tǒng)指標(biāo)那樣測(cè)試特定技能或知識(shí)。

實(shí)驗(yàn)采用的是更具挑戰(zhàn)性的ARC-AGI-2


來自ARC-AGI-2的一個(gè)示例問題:任務(wù)是從左側(cè)的三個(gè)演示案例中推斷出共同的轉(zhuǎn)換規(guī)則,并將其應(yīng)用到右側(cè)的測(cè)試案例中

為了主要評(píng)估搜索算法的最大潛在性能,使用了Pass@k指標(biāo),該指標(biāo)用于衡量在k次嘗試內(nèi)是否至少找到了一個(gè)正確的解決方案。

這與ARC-AGI-2比賽的官方標(biāo)準(zhǔn)不同,后者通常采用Pass@2標(biāo)準(zhǔn)(提交兩個(gè)最終答案,其中一個(gè)是正確的)。

Pass@2方法需要從搜索結(jié)果中選擇有希望的候選方案的額外步驟。

實(shí)驗(yàn)是在ARC-AGI-2的公共評(píng)估集中的120個(gè)任務(wù)上進(jìn)行的。


結(jié)合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現(xiàn)出更高的得分。


重復(fù)采樣一直被認(rèn)為是ARC-AGI中一種非常有效的方法。

事實(shí)上,在實(shí)驗(yàn)中,使用o4-mini進(jìn)行重復(fù)采樣成功解決了23%的問題(即生成了能夠正確轉(zhuǎn)換測(cè)試用例的Python代碼)。

這一結(jié)果遠(yuǎn)超單次嘗試的得分,展示了重復(fù)采樣的強(qiáng)大能力。

AB-MCTS進(jìn)一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調(diào)用后變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠?yàn)槌^30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發(fā)現(xiàn)的一個(gè)關(guān)鍵特征是它能夠根據(jù)各個(gè)LLM在特定問題上的專長(zhǎng)動(dòng)態(tài)地分配它們。

下圖清楚地展示了這一行為:對(duì)于在演示示例中成功率較高的情況(圖的左側(cè)),觀察到對(duì)某個(gè)特定LLM的明顯偏好。

這種偏向發(fā)生的原因是在搜索過程中,算法識(shí)別出哪個(gè)LLM對(duì)于給定的問題最有效,并隨后增加該模型的使用頻率。


還有一些有趣的例子,其中單個(gè)LLM無法解決的問題在組合使用多個(gè)LLM后得以解決。

這超出了為每個(gè)問題分配最佳LLM的簡(jiǎn)單做法。

在下面的例子中,盡管o4-mini最初生成的解答是錯(cuò)誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結(jié)合前沿模型,解決原本無法解決的問題,從而推動(dòng)將LLMs用作集體智能所能實(shí)現(xiàn)的邊界。


使用Multi-LLMAB-MCTS解決ARC-AGI-2時(shí)的搜索樹示例。

節(jié)點(diǎn)中的數(shù)字表示生成順序,顏色代表所選的LLM。

黃色節(jié)點(diǎn)表示生成了正確轉(zhuǎn)換測(cè)試用例的代碼的節(jié)點(diǎn)。

這是一個(gè)單一LLM均無法找到解決方案,但通過多個(gè)LLM的組合成功解決問題的示例。


多LLMAB-MCTS使得不同LLM之間能夠協(xié)作。

上圖展示了一個(gè)例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯(cuò)誤解答)的基礎(chǔ)上改進(jìn),最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時(shí)Scaling多個(gè)前沿模型的合作來提升性能。在結(jié)合多個(gè)LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。

自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強(qiáng)化學(xué)習(xí)優(yōu)化推理過程,開啟了繼模型擴(kuò)展之后的新范式——推理時(shí)Scaling時(shí)代。

通過反復(fù)執(zhí)行這些模型的推理過程,并結(jié)合多個(gè)具有獨(dú)特個(gè)性的LLMs,可以進(jìn)一步提升推理性能。

盡管人類大腦本身已堪稱自然奇跡,但真正撼動(dòng)時(shí)代的偉業(yè),從不屬于孤膽英雄。

無論是將人類送上月球的阿波羅計(jì)劃,構(gòu)建全球信息命脈的互聯(lián)網(wǎng),還是破譯生命密碼的人類基因組計(jì)劃,這些里程碑式的成就,皆源于無數(shù)頭腦之間的協(xié)作與共鳴。

正是多樣知識(shí)的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。

參考資料:

https://sakana.ai/ab-mcts/

https://arxiv.org/abs/2503.04412


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
據(jù)說是:亞洲第一美腿 ,果然名不虛傳,太標(biāo)志了

據(jù)說是:亞洲第一美腿 ,果然名不虛傳,太標(biāo)志了

東方不敗然多多
2025-07-05 11:56:47
談?wù)勅A為盤古模型被指存在“抄襲”這事

談?wù)勅A為盤古模型被指存在“抄襲”這事

關(guān)爾東
2025-07-05 14:31:35
軍統(tǒng)最危險(xiǎn)的雙面間諜:白天是戴笠的心腹,晚上是絕密情報(bào)傳遞者

軍統(tǒng)最危險(xiǎn)的雙面間諜:白天是戴笠的心腹,晚上是絕密情報(bào)傳遞者

第四思維
2025-07-02 17:46:22
王之騰接替趙勇,陳展接替楊昊,王藝竹領(lǐng)銜,女排大運(yùn)會(huì)名單曝光

王之騰接替趙勇,陳展接替楊昊,王藝竹領(lǐng)銜,女排大運(yùn)會(huì)名單曝光

跑者排球視角
2025-07-05 23:03:32
武大研究:每年213萬人因心梗而死!天熱寧愿喝涼水,也別吃5物

武大研究:每年213萬人因心梗而死!天熱寧愿喝涼水,也別吃5物

牛鍋巴小釩
2025-07-05 11:30:01
友誼萬歲!南京奧體客隊(duì)更衣室用飲料擺放“蘇州”二字為蘇州加油

友誼萬歲!南京奧體客隊(duì)更衣室用飲料擺放“蘇州”二字為蘇州加油

直播吧
2025-07-05 17:50:10
佩通坦跌落?泰王一出手,全場(chǎng)跪了!這步棋下得太高明了

佩通坦跌落?泰王一出手,全場(chǎng)跪了!這步棋下得太高明了

匹夫來搞笑
2025-07-05 16:19:51
早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過了60歲,起床要盡量做到這4點(diǎn)

早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過了60歲,起床要盡量做到這4點(diǎn)

今日養(yǎng)生之道
2025-07-05 14:52:55
印度人口:剎不住的列車

印度人口:剎不住的列車

大道微言
2025-07-04 15:42:10
英皇破產(chǎn)倒計(jì)時(shí),容祖兒“白菜價(jià)”被收購,謝霆鋒也保不住了?

英皇破產(chǎn)倒計(jì)時(shí),容祖兒“白菜價(jià)”被收購,謝霆鋒也保不住了?

情感大頭說說
2025-07-04 12:28:16
西班牙兩位公主終于合體了!沒了來后的監(jiān)督,姐妹倆都圓潤(rùn)了不少

西班牙兩位公主終于合體了!沒了來后的監(jiān)督,姐妹倆都圓潤(rùn)了不少

小咪侃娛圈
2025-07-05 08:55:39
德天空:穆西亞拉已被送往醫(yī)院,疑似腓骨骨折

德天空:穆西亞拉已被送往醫(yī)院,疑似腓骨骨折

懂球帝
2025-07-06 02:10:41
剛剛,利空突襲!發(fā)生了啥?

剛剛,利空突襲!發(fā)生了啥?

證券時(shí)報(bào)
2025-07-06 00:23:07
賣不掉!自由市場(chǎng)第5大超巨!43+19武神將被買斷,湖人勇士還等啥

賣不掉!自由市場(chǎng)第5大超巨!43+19武神將被買斷,湖人勇士還等啥

嘴炮體壇
2025-07-05 10:00:26
72歲曾志偉和25歲女星合影,姿勢(shì)不雅惹爭(zhēng)議!此前曾因給電詐頭目慶生道歉

72歲曾志偉和25歲女星合影,姿勢(shì)不雅惹爭(zhēng)議!此前曾因給電詐頭目慶生道歉

新民周刊
2025-07-05 18:37:50
互聯(lián)網(wǎng)大佬諷刺漫畫

互聯(lián)網(wǎng)大佬諷刺漫畫

特例的貓
2025-07-04 16:21:43
中央組織部決定,王殿常履新

中央組織部決定,王殿常履新

魯中晨報(bào)
2025-07-05 21:39:25
以法之名:陳勝龍一個(gè)不起眼的習(xí)慣,竟能幫鄭雅萍省不少事

以法之名:陳勝龍一個(gè)不起眼的習(xí)慣,竟能幫鄭雅萍省不少事

TVB的四小花
2025-07-06 01:59:44
《以法之名》演技倒數(shù)的女星,大鬧海關(guān)、履歷造假,還能混圈?

《以法之名》演技倒數(shù)的女星,大鬧海關(guān)、履歷造假,還能混圈?

萌神木木
2025-07-04 16:16:12
楊受成,香港最后一個(gè)“賭神”的破產(chǎn)倒計(jì)時(shí)

楊受成,香港最后一個(gè)“賭神”的破產(chǎn)倒計(jì)時(shí)

正經(jīng)污君
2025-07-05 10:47:38
2025-07-06 08:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12996文章數(shù) 66083關(guān)注度
往期回顧 全部

科技要聞

盤古團(tuán)隊(duì)回應(yīng)抄襲事件:嚴(yán)格遵循開源要求

頭條要聞

馬斯克宣布“美國黨”成立:還給人民自由

頭條要聞

馬斯克宣布“美國黨”成立:還給人民自由

體育要聞

史上最真實(shí)的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲帶娃出游 馬筱梅小玥兒感情超好

財(cái)經(jīng)要聞

特朗普簽署 美國萬億減稅支出法來了

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市

態(tài)度原創(chuàng)

時(shí)尚
健康
手機(jī)
公開課
軍事航空

超適合夏天穿的20條褲子!涼快透氣!賊顯瘦

呼吸科專家破解呼吸道九大謠言!

手機(jī)要聞

iOS 26新功能:垃圾短信可靜音

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以方收到哈馬斯對(duì)停火提案回應(yīng) 或在多哈間接談判

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 富阳市| 成都市| 平江县| 新宾| 黄骅市| 辽中县| 青浦区| 乾安县| 博白县| 府谷县| 青神县| 汝阳县| 汝州市| 上林县| 中牟县| 开阳县| 应用必备| 湖口县| 康定县| 开阳县| 陈巴尔虎旗| 大渡口区| 理塘县| 江安县| 大埔县| 布拖县| 醴陵市| 达拉特旗| 兰考县| 嘉峪关市| 瓮安县| 延庆县| 新田县| 津南区| 资兴市| 曲阳县| 始兴县| 抚州市| 永泰县| 株洲县| 蒙阴县|