規劃(Planning)是大模型智能體的核心能力,廣泛應用于大模型的多工具調用、具身智能場景中的復雜任務拆解和多機器人協同、復雜問題的求解、醫學場景中的疑難雜癥診斷分析,AI for Science中的實驗方案設計等。相較于普通的推理能力,規劃更加依賴于結構化思維建模(Structure Thinking),而非單一的線性思維過程。研究表明,目前的大模型在規劃能力上仍有顯著不足,尤其在處理圖結構類型的工作流任務時表現薄弱。未來,提升大模型在復雜規劃任務中的表現,特別是增強其對圖結構任務的理解與規劃能力,將是推動智能體廣泛應用的關鍵之一。
論文題目: Benchmarking Agentic Workflow Generation 論文鏈接: https://arxiv.org/abs/2410.07869 代碼鏈接: https://github.com/zjunlp/WorfBench
大模型智能體正在迅速發展,能力已不再局限于 API 調用。
諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執行復雜操作。
在處理這類復雜任務的過程中,大模型智能體將問題分解為可執行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。
現有的數據集和評估框架存在明顯局限性:要么僅關注規劃任務的端到端性能,要么在場景覆蓋范圍、工作流結構的復雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對于推動大模型智能體在真實場景中的應用和性能提升至關重要。
為解決上述問題,浙大通義聯合發布WorfBench——一個涵蓋多場景和復雜圖結構工作流的統一基準,以及WorfEval——一套系統性評估協議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現有評估體系的空白,還為未來大模型智能體在復雜任務中的應用提供了重要的參考。
一、WorfBench構建與評估
WorfBench利用GPT自動化構建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數據集。作者將工作流建模為有向無環圖(DAG),以更精確地表示現實世界中的復雜串行或并行智能體工作流。為了確保數據質量,作者引入了節點鏈作為中間結構,并采用拓撲排序(Topological Sorting)算法對圖結構進行質量過濾,并在測試集上進行人工驗證。
WorfEval則通過子序列和子圖匹配算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規劃和圖規劃能力。
二、基準評測結果
作者在WorfBench上對18種不同規模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結果顯示,與線性結構相比,模型在圖結構工作流預測上的能力遠未達到現實需求,即使是性能卓越的GPT-4,其圖結構工作流的平均性能也僅為52.47%。
此外,作者還對兩個開源模型進行了訓練,并在OOD任務上評估其泛化能力。結果表明,盡管在訓練集上表現出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅通過數據擬合目前仍難以實現結構化工作流規劃能力的有效學習。
三、工作流生成分析
通過對實驗結果的深入分析,作者發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距,且圖規劃能力與模型規模并非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練數據的規模和質量有關。
此外,作者還發現,即使提供標簽節點鏈以簡化圖結構預測任務,模型的圖規劃性能仍不理想,這表明圖規劃的復雜性在于對任務依賴關系的理解。
進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規范性四個方面。這些錯誤大多源于模型對環境知識的缺乏。
因此,未來的研究方向可能包括優化提示策略、采用多智能體架構,以及將世界知識或世界模型更深入地融入大模型中,以提升其對現實世界的理解能力。
四、工作流知識增強智能體
作者探討了工作流在智能體規劃中的重要作用。研究發現,工作流不僅可以作為一種流程先驗知識直接指導智能體的規劃過程,幫助其在復雜任務中更高效地執行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,通過為智能體提供更相關的API選擇,減輕其在多步任務中的負擔。
此外,工作流的圖結構特性能夠實現并行任務執行,顯著減少推理時間,同時減少智能體在規劃過程中的步驟數,提升任務完成效率。這些結果表明,工作流不僅是連接任務與具體執行動作的橋梁,還能顯著提升智能體在復雜任務中的表現和效率。
作者:喬碩斐 來源:公眾號【ZJUKG】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.