99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI版三個臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測試最高分

0
分享至

不圓 發自 凹非寺
量子位 | 公眾號 QbitAI

ChatGPT的對話流暢性、Gemini的多模態能力、DeepSeek的長上下文分析……

能不能讓它們強強聯合,共同解決問題呢?

那個由Transformer作者之一Llion Jones創立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:

  • 最偉大的成就往往源于不同思想的協作,我們相信這一原則同樣適用于人工智能。

AB-MCTS,全稱為自適應分支蒙特卡洛樹搜索(Adaptive Branching Monte Carlo Tree Search),是一種使多個人工智能模型同時處理問題的算法。模型之間交換并完善建議,協同工作,就像人類團隊一樣。



在具有挑戰性的ARC-AGI-2基準測試中,多LLM AB-MCTS解決的問題比單獨工作的任何單個模型(Single-LLM AB-MCTS)都多。

有幾種情況下,只有不同模型的組合才能得出正確答案。



Sakana AI已將該算法以TreeQuest的名稱開源,鏈接可見文末。

兩種搜索策略



AB-MCTS結合了兩種不同的搜索策略:它可以完善現有解決方案(深度搜索),也可以嘗試全新的方法(廣度搜索)。

主要的技術挑戰是將無界分支引入MCTS

標準MCTS僅選擇并擴展葉節點(即每個節點最多被擴展一次),且擴展會添加固定數量的子節點。然而,由于在非零溫度下對LLM的每個查詢都可能從相同提示中產生不同的輸出,分支因子理論上無限。

為了充分利用MCTS的無界分支的潛在性能提升,AB-MCTS允許那些已經擴展過一次的節點再次被擴展并進一步分支,并引入GEN節點來明確表示生成新子節點的動作。

在AB-MCTS的搜索樹中,每個節點N均附帶一個GEN子節點。選中帶有GEN節點的父節點時,會從N生成一個新子節點。



與傳統的MCTS不同,AB-MCTS不會將寬度作為靜態超參數固定。

相反,在搜索樹的每個節點上,AB-MCTS會自適應地決定是探索(“變寬”)通過生成新的候選響應,還是利用(“變深”)通過改進現有的響應,利用外部反饋信號。

在底層,AB-MCTS通過貝葉斯后驗預測分布估計節點潛力,并用Thompson采樣選擇動作,以確保每次擴展都以原則性的方式平衡探索和利用。

這種設計自然地擴展了多次采樣,使AB-MCTS能夠在必要時利用LLMs多樣化且龐大的輸出空間。

在以上基礎上,Sakana AI還提出了兩個變體:AB-MCTS-M和AB-MCTS-A。

簡單地說:

  • AB-MCTS-M:更分層。使用混合效應模型共享子樹間的統計信息,通過分層貝葉斯推斷平衡全局與局部探索。
  • AB-MCTS-A:更輕量。通過CONT節點顯式分離“生成”與“優化”動作,并基于共軛先驗實現高效后驗更新,簡化計算。



其利斷金



對AB-MCTS進行基準測試,結果顯示,AB-MCTS在各種基準測試和LLMs中始終表現出色,獲得的平均排名最高并優于既定基線。

這種持續的成功源于AB-MCTS獨特的動態調整搜索策略的能力,它通過精確平衡探索和利用來適應每個問題的不同需求,而基線方法中幾乎缺乏這種適應性。



LiveCodeBench和CodeContest

上圖左側和中部報告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預算的關系,可以看到,所有方法在計算預算增加時都表現出性能提升。在這兩個基準測試中,AB-MCTS算法通常優于基線方法。

在LiveCodeBench,即使預算很小,AB-MCTS也開始超越基線方法;在CodeContest,預算為32及以上時,AB-MCTS表現出優于基線的性能。

ARC-AGI

上圖右側展示了GPT-4o在ARC-AGI這一特別具有挑戰性的基準測試上的性能表現。可以看到,重復采樣在該設置中證明是一種強大的基線,這表明對于這項任務,廣泛的探索非常重要

雖然標準MCTS在預算增加時只能帶來微小的改進,但AB-MCTS框架實現了與重復采樣相當的性能。這表明AB-MCTS能夠通過在有利時動態擴展其搜索范圍來有效地探索潛在解。



MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三個競賽中的性能表現。由于MLE-Bench在訓練和評估機器學習模型時需要大量的GPU資源,研究團隊僅使用了GPT-4o,并專注于基線方法和AB-MCTS-M。

結果顯示,最佳性能的基線方法在不同競賽中有所不同,這再次強調了不同任務受益于不同的探索-利用權衡。

相比之下,AB-MCTS-M在這些任務中始終表現出色。

這種在不同競賽中的一致成功突顯了AB-MCTS-M在有效適應其搜索策略以應對不同問題結構方面的內在優勢。



為了定量分析AB-MCTS如何平衡探索與利用,論文的研究團隊還考察了生成的搜索樹在每個深度的平均深度和平均寬度。

如上圖顯示,與標準MCTS相比,AB-MCTS方法傾向于生成更寬的樹。這是因為AB-MCTS可以從任何現有節點自適應地決定探索更寬(選擇GEN節點),而標準MCTS則不能。這種機制使得在不同樹深度上能夠進行更靈活的探索。

除了探索寬度的靈活性之外,AB-MCTS在順序優化表現優異的基準測試中也取得了優異的性能,這表明AB-MCTS通過選擇現有子節點進行優化,能夠有效地識別并利用了有潛力的分支。這種自適應特性使其能夠結合探索與利用的優勢,在多種基準測試中表現出強大的性能。



為了研究AB-MCTS的擴展特性,使用DeepSeek-V3對ARC-AGI的實驗進行了擴展,將生成預算增加到512。如上圖所示,隨著預算從200增加到500,AB-MCTS的性能繼續顯著提高,而重復采樣的改進率開始趨于平穩。

標準MCTS在增加預算后也繼續改進,但與AB-MCTS方法相比,其成功率顯著較低。這種性能差距表明,AB-MCTS在大型計算規模下更有效地將搜索導向搜索樹中更有希望的分支



上圖展示了由AB-MCTS-M和標準MCTS生成的搜索樹示例。這些可視化展示了AB-MCTS-M相比標準MCTS具有更強的自適應分支特性。

這種自適應性表明,AB-MCTS-M在整個搜索過程中靈活地平衡探索與利用,能夠動態分配預算以探索多樣化的新候選者(“拓展寬度”)和優化有潛力的候選者(“深入挖掘”)。

以上結果表明,即使考慮到重復采樣的固有優勢,AB-MCTS仍是一種有前景的方法,能夠高效利用生成預算在各種場景中取得更優結果。



在具有挑戰性的ARC-AGI-2基準測試中,AB-MCTS結合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題,而頂尖的獨立模型僅解決了23%。

結果顯示,有幾種情況下,只有不同模型的組合才能得出正確答案。

自然啟發與創新之路



上述關于AB-MCTS的研究并非憑空產生,它基于Sakana AI 2024年在進化模型融合方面的工作,該團隊將重點從“混合以創造”轉向“混合以使用”現有的強大AI。

他們是這樣說的:

  • 在Sakana AI,我們始終致力于通過應用受自然啟發的原則(如進化和集體智能)來開創新型AI系統。

他們也確實這樣做了:

不僅僅是2024年的進化合并模型,就在今年5月,Sakana AI還和哥倫比亞大學的科研人員共同開發了達爾文-哥德爾機(DGM)——這是一個旨在自我進化的AI框架,并非針對固定目標進行優化,而是從生物進化與科學發現中汲取靈感,通過開放式搜索和持續的自我修改來生成新的解決方案。



而前段時間,有兩位物理學家以生物系統自我組裝的過程為參考,揭示了擴散模型“創造力”的本質……

這些發現和創造都是“自然式啟發”的體現。

參考鏈接:
[1]https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/
[2]https://x.com/SakanaAILabs/status/1939854145856708910

論文:https://arxiv.org/abs/2503.04412
算法(TreeQuest): https://github.com/SakanaAI/treequest
ARC-AGI實驗:https://github.com/SakanaAI/ab-mcts-arc2

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
咖啡抗癌再立功!南方醫科大最新:咖啡因能激活T細胞,顯著增強抗癌免疫反應

咖啡抗癌再立功!南方醫科大最新:咖啡因能激活T細胞,顯著增強抗癌免疫反應

醫諾維
2025-07-08 17:15:20
王晶又曝大瓜:古天樂偷偷在美國結婚,你都不知道,那隨時能離婚

王晶又曝大瓜:古天樂偷偷在美國結婚,你都不知道,那隨時能離婚

冷紫葉
2025-07-08 16:19:28
以色列下達最后通牒,不許售賣殲10?三國大量采購中式武器

以色列下達最后通牒,不許售賣殲10?三國大量采購中式武器

科技有趣事
2025-07-08 09:40:42
養老金補發倒計時!2025漲幅3.6%落地,六類人多拿三倍錢!

養老金補發倒計時!2025漲幅3.6%落地,六類人多拿三倍錢!

記錄生活日常阿蜴
2025-07-08 03:52:17
重慶中心城區這場雨為什么來得又快又猛?專家釋疑

重慶中心城區這場雨為什么來得又快又猛?專家釋疑

上游新聞
2025-07-08 19:47:30
網傳川西墜河車輛80萬,開了9年!司機是大姐在色達朋友的孩子?

網傳川西墜河車輛80萬,開了9年!司機是大姐在色達朋友的孩子?

二月侃事
2025-07-08 13:46:22
已確認!是著名演員馮鞏

已確認!是著名演員馮鞏

CD潮生活
2025-07-07 17:40:53
衡水少年張錫峰,“豬拱白菜”之后

衡水少年張錫峰,“豬拱白菜”之后

南風窗
2025-07-07 14:56:15
急轉彎,臺風路徑又變了!直逼浙江,停航停運!上海雷電+大風預警高掛

急轉彎,臺風路徑又變了!直逼浙江,停航停運!上海雷電+大風預警高掛

魯中晨報
2025-07-08 15:00:15
幼兒鉛中毒持續升級!畢業一年仍超標,內幕曝光,血鉛是冰山一角

幼兒鉛中毒持續升級!畢業一年仍超標,內幕曝光,血鉛是冰山一角

趣文說娛
2025-07-08 10:17:18
容祖兒回應英皇欠債166億傳聞:老板私下說問題不大,無需去跑數

容祖兒回應英皇欠債166億傳聞:老板私下說問題不大,無需去跑數

開開森森
2025-07-07 21:59:42
伊以大戰損失慘重,伊前軍官痛心:我9年前就要去中國買100架殲10

伊以大戰損失慘重,伊前軍官痛心:我9年前就要去中國買100架殲10

戰旗紅
2025-07-05 23:49:19
血鉛事件真相大白!官方公布后廚加顏料視頻,網友提出3大疑點!

血鉛事件真相大白!官方公布后廚加顏料視頻,網友提出3大疑點!

古希臘掌管松餅的神
2025-07-08 13:19:32
鹿晗關曉彤和好!關曉彤最近態度大變,穿情侶款,發新作示愛鹿晗

鹿晗關曉彤和好!關曉彤最近態度大變,穿情侶款,發新作示愛鹿晗

檸檬有娛樂
2025-07-07 09:03:42
先贏后輸!中國U16男足3比4不敵韓國,和平杯排名第三

先贏后輸!中國U16男足3比4不敵韓國,和平杯排名第三

澎湃新聞
2025-07-08 21:34:41
兔死狗烹!利雅得新月在世俱杯上取得成功后,將清洗多位大牌外援

兔死狗烹!利雅得新月在世俱杯上取得成功后,將清洗多位大牌外援

星耀國際足壇
2025-07-08 20:03:16
新加坡前總理李顯龍給學生建議:不要把你所有的時間都花在學習上

新加坡前總理李顯龍給學生建議:不要把你所有的時間都花在學習上

尚曦讀史
2025-07-08 04:12:23
7旬大爺網貸40萬不還,催收公司上門,看到證件后擺手:這賬收不了

7旬大爺網貸40萬不還,催收公司上門,看到證件后擺手:這賬收不了

五元講堂
2025-07-07 15:08:38
上海2025年養老金調整在即,工齡30年養老金5000,能補發1500嗎?

上海2025年養老金調整在即,工齡30年養老金5000,能補發1500嗎?

社保大看臺
2025-07-07 19:10:38
央視曝光,如今卷土重來!58600元一瓶的聽花酒,到底什么人在喝

央視曝光,如今卷土重來!58600元一瓶的聽花酒,到底什么人在喝

興史興談
2025-07-08 17:54:03
2025-07-08 23:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10817文章數 176180關注度
往期回顧 全部

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

時尚
健康
藝術
公開課
軍事航空

身高190+神顏男主竟失業?胡一天近況曝光引熱議!

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美國將對烏克蘭輸送更多武器

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安新县| 迁西县| 灯塔市| 彰武县| 金湖县| 泗洪县| 兴安县| 崇礼县| 离岛区| 信阳市| 江门市| 资讯 | 云安县| 建德市| 化隆| 华坪县| 曲水县| 巍山| 绥化市| 安陆市| 临桂县| 同仁县| 德清县| 广安市| 梅河口市| 法库县| 巴马| 云龙县| 商水县| 武强县| 安平县| 剑阁县| 江门市| 方山县| 渭源县| 七台河市| 米泉市| 蓝田县| 马山县| 宜都市| 兴城市|