99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破多智能體系統邊界,開源方案OWL超越OpenAI Deep Research

0
分享至



港大、camel-ai 等多家機構聯合提出了一種名為新的名為 Workforce 的創新多智能體框架,以及配套的 OWL(Optimized Workforce Learning)訓練方法,在通用 AI Assistant 的標桿基準測試 GAIA 上取得了 69.70% 的準確率,不僅刷新了開源系統的最佳紀錄,更是超越了多家商業系統以及 OpenAI Deep Research 的開源方案。

該研究成果所有代碼均已開源,目前已經在 github 上收獲了 17k 的 star。



  • 論文標題:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 論文地址:https://arxiv.org/abs/2505.23885
  • 項目代碼:https://github.com/camel-ai/owl





背景與挑戰:多智能體系統的「領域壁壘」

隨著 LLM 的飛速發展,單一智能體在處理復雜現實任務時逐漸暴露出局限性。為此,多智能體系統(MAS)應運而生,通過讓多個專門化的智能體協作完成復雜任務,顯著提升了系統的整體性能。然而,當前的多智能體系統普遍面臨一個核心問題:跨領域遷移能力嚴重不足。現有系統往往針對特定領域深度定制,這種設計模式帶來了兩大弊端:

  1. 推理層面的限制:部署到新領域往往需要重新設計整個系統架構。例如,專為軟件工程設計的MetaGPT框架依賴于特定的標準操作程序,難以直接應用到其他領域。
  2. 訓練層面的挑戰:現有方法通常需要對所有智能體進行全量訓練。以 MALT 為例,其固定的生成器 - 驗證器 - 改進器流水線要求對每個組件分別進行訓練,遷移成本極高。

這些局限性制約了多智能體系統的靈活性和可擴展性,迫切需要一種更加通用、模塊化的解決方案。

創新突破:Workforce 架構的「解耦設計」

研究團隊提出的 Workforce 框架通過創新的「解耦設計」理念,解決了跨領域遷移難題。該框架將系統分解為三個核心組件:

  1. 領域無關的規劃器(Planner Agent),其負責分析輸入任務并將其分解為若干子任務,基于高層目標生成抽象的任務分解策略。這個組件是整個系統的「大腦」,其設計完全獨立于具體應用領域。
  2. 智能協調器(Coordinator Agent),作為中央協調機制,負責將子任務分配給最適合的工作節點,同時管理任務依賴關系并整合中間結果。協調器通過共享的「任務通道」實現高效的通信管理。
  3. 專業工作節點(Worker Nodes),由一個或多個專門化智能體組成,配備特定的能力和工具包來執行分配的子任務。工作節點可以根據應用需求靈活替換或添加,無需修改核心規劃機制。

這種模塊化架構的最大優勢在于實現了「穩定核心,可變外圍」的設計哲學。當需要適應新領域時,只需更換或添加相應的工作節點,而規劃器和協調器可以保持不變,大大降低了系統遷移的復雜度和成本。



技術創新:OWL 訓練方法的「精準優化」

在 Workforce 架構基礎上,研究團隊進一步提出了 OWL(Optimized Workforce Learning)訓練方法,專注于優化核心規劃器的能力,而非對整個系統進行全量訓練。整體采用兩階段訓練策略:

  1. 第一階段:監督微調(SFT),使用專家演示數據對規劃器進行初始化訓練,讓其掌握基礎的任務分解技能。研究團隊精心構建了包含 1599 個高質量軌跡的訓練數據集,涵蓋在線信息搜索、推理、多模態處理等多個能力維度。
  2. 第二階段:強化學習優化,采用直接偏好優化(DPO)算法進一步提升規劃器的決策質量,使其能夠發展出超越簡單模仿的復雜決策能力。

這種精心設計的課程確保了規劃器能夠處理現實世界中的各種復雜任務類型。

實驗驗證:全面超越現有基準

研究團隊在 GAIA 基準測試上進行了全面的實驗驗證。GAIA 是評估通用 AI 助手的權威基準,要求系統具備多模態理解、網絡搜索、代碼執行和復雜推理等綜合能力。

在多智能體推理方面,Workforce 展現出了顯著優勢,在 GAIA 的 validation 集上 pass@1 達到了 69.70% 的準確率,大幅超越此前最好的開源系統,并超越了 OpenAI Deep Research(67.36%)等強大的商業系統。



在 OWL 訓練方法效果驗證方面,OWL 的訓練設計使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能從 36.36% 提升到了 52.73%,超越了未訓練的 72B 模型(49.09%),并在 Level 3 任務上達到了與 GPT-4o 相當的性能(26.92%)。



深入的分析實驗揭示了 Workforce 框架的多項優勢:

  1. 跨能力維度維持穩定:Workforce 框架在各個能力維度都展現出優勢,無論任務需要 1 種、2 種還是 3 種以上的能力,Workforce 都能保持穩定的性能表現,而單智能體方法在多能力任務上出現顯著性能下降。
  2. 測試時自我糾錯:通過 Workforce 設計的任務失敗時觸發的自我反思與重新規劃機制,系統能夠在測試時動態調整策略,隨著重新規劃次數增加,性能持續提升,展現出強大的自我糾錯和進化能力。
  3. 模塊化訓練優勢:對比實驗顯示,僅訓練規劃器就能達到與訓練全部組件相近的性能,同時大幅降低計算成本,驗證了「規劃器優先」設計理念的正確性。





實際應用:真實環境下的諸多挑戰

由于真實世界任務的復雜性和不穩定性,在真實環境中解決問題會面臨諸多挑戰。對此,研究團隊進行了深入分析,將挑戰主要分為以下幾類:

  1. 信息源差異:同一查詢在不同信息源可能得到不同答案。
  2. 信息時效性:網絡信息的動態變化可能導致預期答案失效。
  3. 語言歧義性:用戶查詢中的模糊表達需要系統進行智能推理和消歧。
  4. 網絡環境限制:網絡不穩定、訪問權限限制等現實問題都需要系統妥善處理。

結論:通向通用人工智能的新路徑

OWL 的成功為構建真正通用的人工智能系統開辟了一種新的路徑。其中,Workforce 的模塊化設計和跨領域遷移能力,帶來了以下優勢:

  1. 架構層面:通過解耦設計實現系統的高度模塊化,既保證了核心能力的穩定性,又提供了外圍功能的靈活性。
  2. 訓練層面:專注于核心組件的優化而非全系統訓練,顯著提高了訓練效率和遷移能力。
  3. 應用層面:為各種實際應用場景提供了即插即用的解決方案,大大降低了部署門檻。

通過將即插即用的工作節點與可泛化的規劃核心相結合,該方法能夠為通用 AI 助手提供可擴展的基礎,加速通用 AI 助手的研究進程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一集團公司發通知,要求全員毛發檢測,這是搞啥花頭啊

一集團公司發通知,要求全員毛發檢測,這是搞啥花頭啊

小人物看盡人間百態
2025-06-18 09:53:39
那爾那茜同學發聲:高考是579分,留學沒花家里一分錢!忽悠傻子

那爾那茜同學發聲:高考是579分,留學沒花家里一分錢!忽悠傻子

愛下廚的阿椅
2025-06-18 06:26:17
以色列炸醒了全世界!伊朗已到亡國邊緣?

以色列炸醒了全世界!伊朗已到亡國邊緣?

華山穹劍
2025-06-15 21:48:57
宴請及送禮需求急劇減少,800元-1500元價格帶倒掛最嚴重……中酒協發布白酒市場中期報告,提醒企業切忌盲目擴產

宴請及送禮需求急劇減少,800元-1500元價格帶倒掛最嚴重……中酒協發布白酒市場中期報告,提醒企業切忌盲目擴產

每日經濟新聞
2025-06-18 18:47:31
男團“破蛋風”海報,比曾毅“春宮表”還炸裂!

男團“破蛋風”海報,比曾毅“春宮表”還炸裂!

廣告創意
2025-06-17 19:20:58
伊朗擊落三架F-35,為什么全世界都不相信?

伊朗擊落三架F-35,為什么全世界都不相信?

牲產隊2024
2025-06-15 21:12:58
如今,租房卻成了更清醒的選擇,甚至有人喊出“房子狗都不買”。

如今,租房卻成了更清醒的選擇,甚至有人喊出“房子狗都不買”。

流蘇晚晴
2025-06-18 18:54:10
中俄決不接受任何人或國家為法西斯主義招魂

中俄決不接受任何人或國家為法西斯主義招魂

看看新聞Knews
2025-06-17 16:02:31
美國“尼米茲”號航母正駛往中東地區 途中關閉了應答器并停止傳輸位置信息

美國“尼米茲”號航母正駛往中東地區 途中關閉了應答器并停止傳輸位置信息

財聯社
2025-06-18 19:44:08
南京一退休阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

南京一退休阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-04-15 17:27:13
馬競官方曬勇士前鋒巴特勒照片:馬競在第1順位選擇了巴特勒

馬競官方曬勇士前鋒巴特勒照片:馬競在第1順位選擇了巴特勒

懂球帝
2025-06-18 16:59:17
文強死刑前交代兒子3句話,死后家人沒辦葬禮,骨灰遲遲不敢下葬

文強死刑前交代兒子3句話,死后家人沒辦葬禮,骨灰遲遲不敢下葬

紅色先驅
2025-06-17 21:15:03
升級!特大暴雨!驟降10℃!河南這場降雨將持續數日,最大雨量或破300毫米極端紀錄

升級!特大暴雨!驟降10℃!河南這場降雨將持續數日,最大雨量或破300毫米極端紀錄

魯中晨報
2025-06-18 07:14:08
痛并思痛!隨著久爾杰維奇出任國足新帥,充分證明了三大事實!

痛并思痛!隨著久爾杰維奇出任國足新帥,充分證明了三大事實!

田先生籃球
2025-06-18 10:54:31
留幾手怒批車評圈亂象:陳震早就不跟你們玩了!

留幾手怒批車評圈亂象:陳震早就不跟你們玩了!

雷科技
2025-06-18 19:22:14
吳艷妮曬小蠻腰被熱議,和賽場上的腰截然不同,網友:腰P過了

吳艷妮曬小蠻腰被熱議,和賽場上的腰截然不同,網友:腰P過了

史書無明
2025-06-18 17:18:57
半場3-0,上港暴擊河南,19歲蒯紀聞妙傳,19歲李新翔驚艷破門

半場3-0,上港暴擊河南,19歲蒯紀聞妙傳,19歲李新翔驚艷破門

側身凌空斬
2025-06-18 20:27:56
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
女籃輕松勝日本!楊舒予+2內統治級,2老后衛好使,4將穩定輸出!

女籃輕松勝日本!楊舒予+2內統治級,2老后衛好使,4將穩定輸出!

籃球資訊達人
2025-06-18 21:16:32
謝霆鋒丁真坐在石頭上像兩個農村小伙一點也不像明星,好接地氣!

謝霆鋒丁真坐在石頭上像兩個農村小伙一點也不像明星,好接地氣!

鄭丁嘉話
2025-06-18 10:30:02
2025-06-18 22:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

女子拿下上海3000萬的豪宅 交房2年未辦下不動產權證

頭條要聞

女子拿下上海3000萬的豪宅 交房2年未辦下不動產權證

體育要聞

高僧下山了!文班結束少林寺10日修行

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

本地
時尚
游戲
數碼
親子

本地新聞

黎錦匠人鄭春榮:經緯千年 我在海島織黎錦

從桔梗裙到流光裙,慵懶又顯瘦,微胖女生閉眼入!

我們采訪了《劍星》導演金亨泰,他說游戲一開始其實不長這樣

數碼要聞

小米平板 7S Pro 支持遠控 PC、妙享桌面,適配蘋果設備協同

親子要聞

那些長大后依然“跟媽親”的孩子,通常是媽媽做對了這4件事,受益匪淺

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 名山县| 双桥区| 兴业县| 宜城市| 洛南县| 迁安市| 腾冲县| 安陆市| 贡嘎县| 三门峡市| 古田县| 崇仁县| 青田县| 南通市| 盐边县| 桦甸市| 竹山县| 禹城市| 巫山县| 德令哈市| 保山市| 桦甸市| 平谷区| 新巴尔虎右旗| 双柏县| 甘肃省| 儋州市| 巧家县| 镇坪县| 乌兰浩特市| 天津市| 攀枝花市| 鞍山市| 伊金霍洛旗| 高碑店市| 溧阳市| 葫芦岛市| 福贡县| 杭锦旗| 天长市| 岱山县|