99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破多智能體系統邊界,開源方案OWL超越OpenAI Deep Research

0
分享至



港大、camel-ai 等多家機構聯合提出了一種名為新的名為 Workforce 的創新多智能體框架,以及配套的 OWL(Optimized Workforce Learning)訓練方法,在通用 AI Assistant 的標桿基準測試 GAIA 上取得了 69.70% 的準確率,不僅刷新了開源系統的最佳紀錄,更是超越了多家商業系統以及 OpenAI Deep Research 的開源方案。

該研究成果所有代碼均已開源,目前已經在 github 上收獲了 17k 的 star。



  • 論文標題:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 論文地址:https://arxiv.org/abs/2505.23885
  • 項目代碼:https://github.com/camel-ai/owl





背景與挑戰:多智能體系統的「領域壁壘」

隨著 LLM 的飛速發展,單一智能體在處理復雜現實任務時逐漸暴露出局限性。為此,多智能體系統(MAS)應運而生,通過讓多個專門化的智能體協作完成復雜任務,顯著提升了系統的整體性能。然而,當前的多智能體系統普遍面臨一個核心問題:跨領域遷移能力嚴重不足。現有系統往往針對特定領域深度定制,這種設計模式帶來了兩大弊端:

  1. 推理層面的限制:部署到新領域往往需要重新設計整個系統架構。例如,專為軟件工程設計的MetaGPT框架依賴于特定的標準操作程序,難以直接應用到其他領域。
  2. 訓練層面的挑戰:現有方法通常需要對所有智能體進行全量訓練。以 MALT 為例,其固定的生成器 - 驗證器 - 改進器流水線要求對每個組件分別進行訓練,遷移成本極高。

這些局限性制約了多智能體系統的靈活性和可擴展性,迫切需要一種更加通用、模塊化的解決方案。

創新突破:Workforce 架構的「解耦設計」

研究團隊提出的 Workforce 框架通過創新的「解耦設計」理念,解決了跨領域遷移難題。該框架將系統分解為三個核心組件:

  1. 領域無關的規劃器(Planner Agent),其負責分析輸入任務并將其分解為若干子任務,基于高層目標生成抽象的任務分解策略。這個組件是整個系統的「大腦」,其設計完全獨立于具體應用領域。
  2. 智能協調器(Coordinator Agent),作為中央協調機制,負責將子任務分配給最適合的工作節點,同時管理任務依賴關系并整合中間結果。協調器通過共享的「任務通道」實現高效的通信管理。
  3. 專業工作節點(Worker Nodes),由一個或多個專門化智能體組成,配備特定的能力和工具包來執行分配的子任務。工作節點可以根據應用需求靈活替換或添加,無需修改核心規劃機制。

這種模塊化架構的最大優勢在于實現了「穩定核心,可變外圍」的設計哲學。當需要適應新領域時,只需更換或添加相應的工作節點,而規劃器和協調器可以保持不變,大大降低了系統遷移的復雜度和成本。



技術創新:OWL 訓練方法的「精準優化」

在 Workforce 架構基礎上,研究團隊進一步提出了 OWL(Optimized Workforce Learning)訓練方法,專注于優化核心規劃器的能力,而非對整個系統進行全量訓練。整體采用兩階段訓練策略:

  1. 第一階段:監督微調(SFT),使用專家演示數據對規劃器進行初始化訓練,讓其掌握基礎的任務分解技能。研究團隊精心構建了包含 1599 個高質量軌跡的訓練數據集,涵蓋在線信息搜索、推理、多模態處理等多個能力維度。
  2. 第二階段:強化學習優化,采用直接偏好優化(DPO)算法進一步提升規劃器的決策質量,使其能夠發展出超越簡單模仿的復雜決策能力。

這種精心設計的課程確保了規劃器能夠處理現實世界中的各種復雜任務類型。

實驗驗證:全面超越現有基準

研究團隊在 GAIA 基準測試上進行了全面的實驗驗證。GAIA 是評估通用 AI 助手的權威基準,要求系統具備多模態理解、網絡搜索、代碼執行和復雜推理等綜合能力。

在多智能體推理方面,Workforce 展現出了顯著優勢,在 GAIA 的 validation 集上 pass@1 達到了 69.70% 的準確率,大幅超越此前最好的開源系統,并超越了 OpenAI Deep Research(67.36%)等強大的商業系統。



在 OWL 訓練方法效果驗證方面,OWL 的訓練設計使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能從 36.36% 提升到了 52.73%,超越了未訓練的 72B 模型(49.09%),并在 Level 3 任務上達到了與 GPT-4o 相當的性能(26.92%)。



深入的分析實驗揭示了 Workforce 框架的多項優勢:

  1. 跨能力維度維持穩定:Workforce 框架在各個能力維度都展現出優勢,無論任務需要 1 種、2 種還是 3 種以上的能力,Workforce 都能保持穩定的性能表現,而單智能體方法在多能力任務上出現顯著性能下降。
  2. 測試時自我糾錯:通過 Workforce 設計的任務失敗時觸發的自我反思與重新規劃機制,系統能夠在測試時動態調整策略,隨著重新規劃次數增加,性能持續提升,展現出強大的自我糾錯和進化能力。
  3. 模塊化訓練優勢:對比實驗顯示,僅訓練規劃器就能達到與訓練全部組件相近的性能,同時大幅降低計算成本,驗證了「規劃器優先」設計理念的正確性。





實際應用:真實環境下的諸多挑戰

由于真實世界任務的復雜性和不穩定性,在真實環境中解決問題會面臨諸多挑戰。對此,研究團隊進行了深入分析,將挑戰主要分為以下幾類:

  1. 信息源差異:同一查詢在不同信息源可能得到不同答案。
  2. 信息時效性:網絡信息的動態變化可能導致預期答案失效。
  3. 語言歧義性:用戶查詢中的模糊表達需要系統進行智能推理和消歧。
  4. 網絡環境限制:網絡不穩定、訪問權限限制等現實問題都需要系統妥善處理。

結論:通向通用人工智能的新路徑

OWL 的成功為構建真正通用的人工智能系統開辟了一種新的路徑。其中,Workforce 的模塊化設計和跨領域遷移能力,帶來了以下優勢:

  1. 架構層面:通過解耦設計實現系統的高度模塊化,既保證了核心能力的穩定性,又提供了外圍功能的靈活性。
  2. 訓練層面:專注于核心組件的優化而非全系統訓練,顯著提高了訓練效率和遷移能力。
  3. 應用層面:為各種實際應用場景提供了即插即用的解決方案,大大降低了部署門檻。

通過將即插即用的工作節點與可泛化的規劃核心相結合,該方法能夠為通用 AI 助手提供可擴展的基礎,加速通用 AI 助手的研究進程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

鋭娛之樂
2025-06-20 20:32:56
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

界史
2025-06-21 11:45:00
一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

詩詞中國
2025-01-18 13:12:38
87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

蕭竹輕語
2025-06-18 18:31:19
破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

素年文史
2025-06-21 12:40:03
花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

快科技
2025-06-20 11:23:13
闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

聯友說娛
2025-06-21 14:21:52
評論“違規吃喝”,新華社更勝一籌

評論“違規吃喝”,新華社更勝一籌

海濤評論
2025-06-20 22:22:44
足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

側身凌空斬
2025-06-21 21:30:33
馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

阿紿聊社會
2025-06-21 11:33:39
伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

胖福的小木屋
2025-06-20 23:48:20
特斯拉重大宣布:計劃再投資超500億元!大行警告......

特斯拉重大宣布:計劃再投資超500億元!大行警告......

每日經濟新聞
2025-06-21 14:29:07
汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

古希臘掌管月桂的神
2025-06-20 13:36:25
達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

奧拜爾
2025-06-21 21:05:05
以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

柏銘銳談
2025-06-20 16:01:48
2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

時代投研
2025-06-20 21:17:03
小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

奇思妙想草葉君
2025-06-21 01:19:08
知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

星光看娛樂
2025-06-20 10:35:27
周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

政知新媒體
2025-06-20 19:25:24
“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

科技處長
2025-06-20 22:14:57
2025-06-21 23:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

游戲
藝術
教育
時尚
軍事航空

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

天啊,凱特王妃都在準備葬禮了?

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德安县| 枣阳市| 禄丰县| 收藏| 鹰潭市| 冀州市| 海晏县| 怀仁县| 江北区| 乌兰县| 叙永县| 郯城县| 丰台区| 靖州| 德钦县| 若羌县| 磐安县| 澄迈县| 巴林右旗| 哈尔滨市| 怀远县| 东安县| 阳东县| 满洲里市| 右玉县| 商水县| 海门市| 营山县| 平陆县| 依兰县| 南阳市| 仁布县| 枣强县| 资讯 | 合阳县| 交城县| 临漳县| 当涂县| 静安区| 集安市| 云林县|