港大、camel-ai 等多家機構聯合提出了一種名為新的名為 Workforce 的創新多智能體框架,以及配套的 OWL(Optimized Workforce Learning)訓練方法,在通用 AI Assistant 的標桿基準測試 GAIA 上取得了 69.70% 的準確率,不僅刷新了開源系統的最佳紀錄,更是超越了多家商業系統以及 OpenAI Deep Research 的開源方案。
該研究成果所有代碼均已開源,目前已經在 github 上收獲了 17k 的 star。
- 論文標題:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
- 論文地址:https://arxiv.org/abs/2505.23885
- 項目代碼:https://github.com/camel-ai/owl
背景與挑戰:多智能體系統的「領域壁壘」
隨著 LLM 的飛速發展,單一智能體在處理復雜現實任務時逐漸暴露出局限性。為此,多智能體系統(MAS)應運而生,通過讓多個專門化的智能體協作完成復雜任務,顯著提升了系統的整體性能。然而,當前的多智能體系統普遍面臨一個核心問題:跨領域遷移能力嚴重不足。現有系統往往針對特定領域深度定制,這種設計模式帶來了兩大弊端:
- 推理層面的限制:部署到新領域往往需要重新設計整個系統架構。例如,專為軟件工程設計的MetaGPT框架依賴于特定的標準操作程序,難以直接應用到其他領域。
- 訓練層面的挑戰:現有方法通常需要對所有智能體進行全量訓練。以 MALT 為例,其固定的生成器 - 驗證器 - 改進器流水線要求對每個組件分別進行訓練,遷移成本極高。
這些局限性制約了多智能體系統的靈活性和可擴展性,迫切需要一種更加通用、模塊化的解決方案。
創新突破:Workforce 架構的「解耦設計」
研究團隊提出的 Workforce 框架通過創新的「解耦設計」理念,解決了跨領域遷移難題。該框架將系統分解為三個核心組件:
- 領域無關的規劃器(Planner Agent),其負責分析輸入任務并將其分解為若干子任務,基于高層目標生成抽象的任務分解策略。這個組件是整個系統的「大腦」,其設計完全獨立于具體應用領域。
- 智能協調器(Coordinator Agent),作為中央協調機制,負責將子任務分配給最適合的工作節點,同時管理任務依賴關系并整合中間結果。協調器通過共享的「任務通道」實現高效的通信管理。
- 專業工作節點(Worker Nodes),由一個或多個專門化智能體組成,配備特定的能力和工具包來執行分配的子任務。工作節點可以根據應用需求靈活替換或添加,無需修改核心規劃機制。
這種模塊化架構的最大優勢在于實現了「穩定核心,可變外圍」的設計哲學。當需要適應新領域時,只需更換或添加相應的工作節點,而規劃器和協調器可以保持不變,大大降低了系統遷移的復雜度和成本。
技術創新:OWL 訓練方法的「精準優化」
在 Workforce 架構基礎上,研究團隊進一步提出了 OWL(Optimized Workforce Learning)訓練方法,專注于優化核心規劃器的能力,而非對整個系統進行全量訓練。整體采用兩階段訓練策略:
- 第一階段:監督微調(SFT),使用專家演示數據對規劃器進行初始化訓練,讓其掌握基礎的任務分解技能。研究團隊精心構建了包含 1599 個高質量軌跡的訓練數據集,涵蓋在線信息搜索、推理、多模態處理等多個能力維度。
- 第二階段:強化學習優化,采用直接偏好優化(DPO)算法進一步提升規劃器的決策質量,使其能夠發展出超越簡單模仿的復雜決策能力。
這種精心設計的課程確保了規劃器能夠處理現實世界中的各種復雜任務類型。
實驗驗證:全面超越現有基準
研究團隊在 GAIA 基準測試上進行了全面的實驗驗證。GAIA 是評估通用 AI 助手的權威基準,要求系統具備多模態理解、網絡搜索、代碼執行和復雜推理等綜合能力。
在多智能體推理方面,Workforce 展現出了顯著優勢,在 GAIA 的 validation 集上 pass@1 達到了 69.70% 的準確率,大幅超越此前最好的開源系統,并超越了 OpenAI Deep Research(67.36%)等強大的商業系統。
在 OWL 訓練方法效果驗證方面,OWL 的訓練設計使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能從 36.36% 提升到了 52.73%,超越了未訓練的 72B 模型(49.09%),并在 Level 3 任務上達到了與 GPT-4o 相當的性能(26.92%)。
深入的分析實驗揭示了 Workforce 框架的多項優勢:
- 跨能力維度維持穩定:Workforce 框架在各個能力維度都展現出優勢,無論任務需要 1 種、2 種還是 3 種以上的能力,Workforce 都能保持穩定的性能表現,而單智能體方法在多能力任務上出現顯著性能下降。
- 測試時自我糾錯:通過 Workforce 設計的任務失敗時觸發的自我反思與重新規劃機制,系統能夠在測試時動態調整策略,隨著重新規劃次數增加,性能持續提升,展現出強大的自我糾錯和進化能力。
- 模塊化訓練優勢:對比實驗顯示,僅訓練規劃器就能達到與訓練全部組件相近的性能,同時大幅降低計算成本,驗證了「規劃器優先」設計理念的正確性。
實際應用:真實環境下的諸多挑戰
由于真實世界任務的復雜性和不穩定性,在真實環境中解決問題會面臨諸多挑戰。對此,研究團隊進行了深入分析,將挑戰主要分為以下幾類:
- 信息源差異:同一查詢在不同信息源可能得到不同答案。
- 信息時效性:網絡信息的動態變化可能導致預期答案失效。
- 語言歧義性:用戶查詢中的模糊表達需要系統進行智能推理和消歧。
- 網絡環境限制:網絡不穩定、訪問權限限制等現實問題都需要系統妥善處理。
結論:通向通用人工智能的新路徑
OWL 的成功為構建真正通用的人工智能系統開辟了一種新的路徑。其中,Workforce 的模塊化設計和跨領域遷移能力,帶來了以下優勢:
- 架構層面:通過解耦設計實現系統的高度模塊化,既保證了核心能力的穩定性,又提供了外圍功能的靈活性。
- 訓練層面:專注于核心組件的優化而非全系統訓練,顯著提高了訓練效率和遷移能力。
- 應用層面:為各種實際應用場景提供了即插即用的解決方案,大大降低了部署門檻。
通過將即插即用的工作節點與可泛化的規劃核心相結合,該方法能夠為通用 AI 助手提供可擴展的基礎,加速通用 AI 助手的研究進程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.