99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ICLR 2025 | 評估大模型智能體的復雜任務規劃能力

0
分享至

規劃(Planning)是大模型智能體的核心能力,廣泛應用于大模型的多工具調用、具身智能場景中的復雜任務拆解和多機器人協同、復雜問題的求解、醫學場景中的疑難雜癥診斷分析,AI for Science中的實驗方案設計等。相較于普通的推理能力,規劃更加依賴于結構化思維建模(Structure Thinking),而非單一的線性思維過程。研究表明,目前的大模型在規劃能力上仍有顯著不足,尤其在處理圖結構類型的工作流任務時表現薄弱。未來,提升大模型在復雜規劃任務中的表現,特別是增強其對圖結構任務的理解與規劃能力,將是推動智能體廣泛應用的關鍵之一。


論文題目: Benchmarking Agentic Workflow Generation 論文鏈接: https://arxiv.org/abs/2410.07869 代碼鏈接: https://github.com/zjunlp/WorfBench

大模型智能體正在迅速發展,能力已不再局限于 API 調用。

諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執行復雜操作。

在處理這類復雜任務的過程中,大模型智能體將問題分解為可執行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。

現有的數據集和評估框架存在明顯局限性:要么僅關注規劃任務的端到端性能,要么在場景覆蓋范圍、工作流結構的復雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對于推動大模型智能體在真實場景中的應用和性能提升至關重要。

為解決上述問題,浙大通義聯合發布WorfBench——一個涵蓋多場景和復雜圖結構工作流的統一基準,以及WorfEval——一套系統性評估協議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現有評估體系的空白,還為未來大模型智能體在復雜任務中的應用提供了重要的參考。


一、WorfBench構建與評估

WorfBench利用GPT自動化構建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數據集。作者將工作流建模為有向無環圖(DAG),以更精確地表示現實世界中的復雜串行或并行智能體工作流。為了確保數據質量,作者引入了節點鏈作為中間結構,并采用拓撲排序(Topological Sorting)算法對圖結構進行質量過濾,并在測試集上進行人工驗證。


WorfEval則通過子序列和子圖匹配算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規劃和圖規劃能力。

二、基準評測結果

作者在WorfBench上對18種不同規模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結果顯示,與線性結構相比,模型在圖結構工作流預測上的能力遠未達到現實需求,即使是性能卓越的GPT-4,其圖結構工作流的平均性能也僅為52.47%。

此外,作者還對兩個開源模型進行了訓練,并在OOD任務上評估其泛化能力。結果表明,盡管在訓練集上表現出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅通過數據擬合目前仍難以實現結構化工作流規劃能力的有效學習。


三、工作流生成分析

通過對實驗結果的深入分析,作者發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距,且圖規劃能力與模型規模并非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練數據的規模和質量有關。

此外,作者還發現,即使提供標簽節點鏈以簡化圖結構預測任務,模型的圖規劃性能仍不理想,這表明圖規劃的復雜性在于對任務依賴關系的理解。


進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規范性四個方面。這些錯誤大多源于模型對環境知識的缺乏。

因此,未來的研究方向可能包括優化提示策略、采用多智能體架構,以及將世界知識或世界模型更深入地融入大模型中,以提升其對現實世界的理解能力。

四、工作流知識增強智能體

作者探討了工作流在智能體規劃中的重要作用。研究發現,工作流不僅可以作為一種流程先驗知識直接指導智能體的規劃過程,幫助其在復雜任務中更高效地執行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,通過為智能體提供更相關的API選擇,減輕其在多步任務中的負擔。



此外,工作流的圖結構特性能夠實現并行任務執行,顯著減少推理時間,同時減少智能體在規劃過程中的步驟數,提升任務完成效率。這些結果表明,工作流不僅是連接任務與具體執行動作的橋梁,還能顯著提升智能體在復雜任務中的表現和效率。


作者:喬碩斐 來源:公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(

www.techbeat.net
) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

八斗小先生
2025-06-25 18:18:21
莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

娜烏和西卡
2025-06-25 12:51:52
9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

DS北風
2025-06-25 18:04:26
iPhone 17 Pro新機首次亮相,這設計變順眼了!

iPhone 17 Pro新機首次亮相,這設計變順眼了!

科技堡壘
2025-06-25 16:21:24
592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

深析古今
2025-06-25 14:38:26
河南人注意!多地強降水集中在今夜

河南人注意!多地強降水集中在今夜

極目新聞
2025-06-25 19:13:07
無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

火山詩話
2025-06-25 13:41:36
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

極目新聞
2025-06-25 11:56:48
42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

五元講堂
2025-06-24 10:14:04
人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

宏哥談商道
2025-06-24 19:00:02
顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

4A廣告網
2025-06-24 09:59:01
從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

互聯網大觀
2025-06-25 11:09:02
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

史書無明
2025-06-25 08:26:46
伊朗稱該國核設施在美國空襲中“嚴重受損”

伊朗稱該國核設施在美國空襲中“嚴重受損”

環球網資訊
2025-06-25 20:15:26
打虎!海南省委常委、秘書長倪強任上落馬!

打虎!海南省委常委、秘書長倪強任上落馬!

上觀新聞
2025-06-25 16:18:25
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

晉哥說電影
2025-06-25 13:49:11
2025-06-25 21:15:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

家居
藝術
旅游
游戲
公開課

家居要聞

木質簡約 空間極致利用

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金门县| 新建县| 克拉玛依市| 沁阳市| 呼图壁县| 张家口市| 溆浦县| 会泽县| 德令哈市| 井陉县| 鄂托克前旗| 田林县| 宁强县| 阿克陶县| 修武县| 徐汇区| 视频| 抚松县| 抚顺市| 石阡县| 安化县| 榕江县| 天门市| 上杭县| 如皋市| 秦皇岛市| 罗江县| 夏津县| 绥棱县| 赞皇县| 吉首市| 凌海市| 红原县| 招远市| 左权县| 赫章县| 读书| 祁阳县| 曲沃县| 平舆县| 沽源县|