99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

^{<sub id="fbwr3"></sub>}

<em id="fbwr3"></em>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

ICLR 2025 | 評估大模型智能體的復雜任務規劃能力

2025-03-12 08:26:10　來源: 將門創投

北京舉報

0

分享至

規劃（Planning）是大模型智能體的核心能力，廣泛應用于大模型的多工具調用、具身智能場景中的復雜任務拆解和多機器人協同、復雜問題的求解、醫學場景中的疑難雜癥診斷分析，AI for Science中的實驗方案設計等。相較于普通的推理能力，規劃更加依賴于結構化思維建模（Structure Thinking），而非單一的線性思維過程。研究表明，目前的大模型在規劃能力上仍有顯著不足，尤其在處理圖結構類型的工作流任務時表現薄弱。未來，提升大模型在復雜規劃任務中的表現，特別是增強其對圖結構任務的理解與規劃能力，將是推動智能體廣泛應用的關鍵之一。

論文題目： Benchmarking Agentic Workflow Generation 論文鏈接： https://arxiv.org/abs/2410.07869 代碼鏈接： https://github.com/zjunlp/WorfBench

大模型智能體正在迅速發展，能力已不再局限于 API 調用。

諸如OpenAI的Operator和Anthropic的Computer Use等，能夠像人類一樣直接與界面交互，執行復雜操作。

在處理這類復雜任務的過程中，大模型智能體將問題分解為可執行的工作流（Workflow）是關鍵的一步。然而，這一核心能力目前缺乏完善的評測基準。

現有的數據集和評估框架存在明顯局限性：要么僅關注規劃任務的端到端性能，要么在場景覆蓋范圍、工作流結構的復雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對于推動大模型智能體在真實場景中的應用和性能提升至關重要。

為解決上述問題，浙大通義聯合發布WorfBench——一個涵蓋多場景和復雜圖結構工作流的統一基準，以及WorfEval——一套系統性評估協議，通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現有評估體系的空白，還為未來大模型智能體在復雜任務中的應用提供了重要的參考。

一、WorfBench構建與評估

WorfBench利用GPT自動化構建多場景任務，包括problem solving、function calling、embodied planning和open-ended planning等，生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數據集。作者將工作流建模為有向無環圖（DAG），以更精確地表示現實世界中的復雜串行或并行智能體工作流。為了確保數據質量，作者引入了節點鏈作為中間結構，并采用拓撲排序（Topological Sorting）算法對圖結構進行質量過濾，并在測試集上進行人工驗證。

WorfEval則通過子序列和子圖匹配算法，分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估，從而精準衡量模型的線性規劃和圖規劃能力。

二、基準評測結果

作者在WorfBench上對18種不同規模的主流大模型進行了全面評估，包括閉源模型（如O1、GPT-4、Claude-3.5）和開源模型（如Llama系列、Qwen系列等）。實驗結果顯示，與線性結構相比，模型在圖結構工作流預測上的能力遠未達到現實需求，即使是性能卓越的GPT-4，其圖結構工作流的平均性能也僅為52.47%。

此外，作者還對兩個開源模型進行了訓練，并在OOD任務上評估其泛化能力。結果表明，盡管在訓練集上表現出色，但在未見過的任務上，模型的泛化能力仍有待提高。這表明，僅通過數據擬合目前仍難以實現結構化工作流規劃能力的有效學習。

三、工作流生成分析

通過對實驗結果的深入分析，作者發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距，且圖規劃能力與模型規模并非完全正相關。例如，部分7B模型在某些任務上超越了13B模型，這可能與模型訓練數據的規模和質量有關。

此外，作者還發現，即使提供標簽節點鏈以簡化圖結構預測任務，模型的圖規劃性能仍不理想，這表明圖規劃的復雜性在于對任務依賴關系的理解。

進一步的錯誤分析顯示，大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規范性四個方面。這些錯誤大多源于模型對環境知識的缺乏。

因此，未來的研究方向可能包括優化提示策略、采用多智能體架構，以及將世界知識或世界模型更深入地融入大模型中，以提升其對現實世界的理解能力。

四、工作流知識增強智能體

作者探討了工作流在智能體規劃中的重要作用。研究發現，工作流不僅可以作為一種流程先驗知識直接指導智能體的規劃過程，幫助其在復雜任務中更高效地執行，還可以作為鏈式思考（Chain-of-Thought, CoT）的增強手段，通過為智能體提供更相關的API選擇，減輕其在多步任務中的負擔。

此外，工作流的圖結構特性能夠實現并行任務執行，顯著減少推理時間，同時減少智能體在規劃過程中的步驟數，提升任務完成效率。這些結果表明，工作流不僅是連接任務與具體執行動作的橋梁，還能顯著提升智能體在復雜任務中的表現和效率。

作者：喬碩斐來源：公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（

www.techbeat.net

）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2025，Agent生死競速

鈦媒體APP 2025-01-08 19:18:23
35 跟貼 35
AI替代程序員？一項最新測試的結果恰恰相反 | 企服國際觀察

鈦媒體APP 2025-06-25 13:43:12
0 跟貼 0

淘天聯合愛橙開源強化學習訓練框架,支持十億到千億參數大模型

機器之心Pro 2025-06-25 14:12:44
0 跟貼 0

上海AI獨角獸，連放大招

財天COVER 2025-06-25 16:31:20
0 跟貼 0
為什么說AI“有用”才最重要？

新周刊 2025-03-25 22:43:55
4 跟貼 4

每經專訪360集團創始人、董事長兼CEO周鴻祎：智能體賦予大模型“手和腳”，依靠“類人”數字員工，個人創業者能成超級個體

每日經濟新聞 2025-06-25 19:54:22
0 跟貼 0

機器人頂會RSS 2025獎項！大牛Pieter Abbeel領銜研究杰出Demo獎

機器之心Pro 2025-06-25 16:09:29
0 跟貼 0
CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0

機器人首次打通視覺感知與運動斷層，華人博士讓宇樹G1現場演示

量子位 2025-06-25 14:44:08
3 跟貼 3
成本降95%性能超ES9.0，OceanBase推GPU加速的向量數據庫

智東西 2025-06-24 22:48:07
0 跟貼 0
AI作圖，拯救“職場牛馬”

鈦媒體APP 2025-01-17 13:25:28
1 跟貼 1
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
提示詞工程、RAG之后，LangChain：上下文工程開始火了！

機器之心Pro 2025-06-25 14:18:39
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
細節厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
對話簡道云：在SaaS行業虧損時盈利，在大模型熱潮中謹慎

鈦媒體APP 2025-06-25 16:53:24
0 跟貼 0
你給豆包打的這通視頻背后，藏著AI實時交互的體驗密碼

智東西 2025-06-25 20:04:47
0 跟貼 0
北大施柏鑫團隊、貝式計算CVPR研究：視頻里輕松換衣服、加柯基

機器之心Pro 2025-06-24 18:13:39
0 跟貼 0
任務太難，連ChatGPT都棄了！最強AI神器一鍵拆解，首測來襲

新智元 2025-06-24 12:40:47
9 跟貼 9
多模態AI黑馬刷榜后再造神器：一個產品搞定圖片視頻播客生成

量子位 2025-06-24 21:48:33
0 跟貼 0
巧用DeepSeek構建多元資產配置框架！“最會用AI做研究的策略首席”王開教你”新套路”

華爾街見聞官方 2025-06-25 20:28:08
0 跟貼 0
3mm超薄「隨身AI大腦」來了！全球首個Agentic神器讓打工人瘋狂種草

新智元 2025-06-25 20:11:19
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
對話智識神工楚慶：AI必須創造新生產力，否則就是一場昂貴的幻覺

通信世界 2025-06-25 20:14:37
0 跟貼 0
牛彈琴：以伊激戰12天打成喜劇當事三國都認為贏麻了

大象新聞 2025-06-25 08:02:49
18968 跟貼 18968
特朗普宣布停戰，美以雙方緊急停戰，背后是什么，是和平還是策略

江山此夜季 2025-06-24 22:46:19
0 跟貼 0
笑麻了！《異種危機》巨型BOSS杵著不動，純純大冤種建模！

大狼Game 2025-06-23 19:57:53
17 跟貼 17
搭建框架并安裝模板，用鋼筋和混凝土澆筑堅固的新房地基

機械女孩 2025-06-24 09:46:58
1 跟貼 1
伊朗總統：伊方已準備在談判桌上進行對話

央視新聞客戶端 2025-06-24 21:16:38
13946 跟貼 13946
「淺對齊」到「深思熟慮」，清華牽頭搭起大模型安全的下一級階梯

機器之心Pro 2025-06-25 17:14:12
0 跟貼 0
國際關系的利益博弈：中國與中東國家的多元合作策略

一窺究竟 2025-06-24 05:10:26
0 跟貼 0
夢幻西游：武神壇驚現超級武僧，群秒暴擊1萬4，算不算法系一哥？

浩仔說夢 2025-06-22 08:00:00
0 跟貼 0
人工智能專業勸退？大廠算法工程師的肺腑之言，985計算機本碩

馬佳柔懷n 2025-06-25 01:14:58
4 跟貼 4
2.8萬轉運費事件大逆轉！錦旗從各地發來，讓涉事醫院拿到手軟

火山詩話 2025-06-25 06:02:26
1983 跟貼 1983
武契奇宣布獲得"絕密"武器裝備目前只有5人知曉

參考消息 2025-06-25 09:26:57
4429 跟貼 4429
中國穩健策略應對中東變局：外交促和談與軍事硬實力并進

春曉暖語聲 2025-06-24 01:42:09
0 跟貼 0
一個模型搞懂黑洞形成原理

小糖發財 2025-06-22 05:34:00
0 跟貼 0
中央督察組點名淄博后，省長赴現場督導整改，市委書記開會表態

新京報政事兒 2025-06-25 12:44:39
83 跟貼 83
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
0 跟貼 0

扁擔女孩高考成績出來了，不是網上那些分數，還是讓她自己公布吧

扁擔女孩高考成績出來了，不是網上那些分數，還是讓她自己公布吧

八斗小先生

2025-06-25 18:18:21

莆田男子花90萬娶妻后續：女主澄清，指控男方房事，逃婚緣由公布

莆田男子花90萬娶妻后續：女主澄清，指控男方房事，逃婚緣由公布

娜烏和西卡

2025-06-25 12:51:52

9.3閱兵，大陸邀請國民黨抗戰老兵觀禮，臺軍頭子顧立雄坐不住了

9.3閱兵，大陸邀請國民黨抗戰老兵觀禮，臺軍頭子顧立雄坐不住了

DS北風

2025-06-25 18:04:26

iPhone 17 Pro新機首次亮相，這設計變順眼了！

iPhone 17 Pro新機首次亮相，這設計變順眼了！

科技堡壘

2025-06-25 16:21:24

592分"扁擔女孩"分數公布？二流高中飛不出金鳳凰？起跑線就輸了

592分"扁擔女孩"分數公布？二流高中飛不出金鳳凰？起跑線就輸了

深析古今

2025-06-25 14:38:26

河南人注意！多地強降水集中在今夜

河南人注意！多地強降水集中在今夜

極目新聞

2025-06-25 19:13:07

無錫太強了！網傳江蘇高考理科狀元又在無錫，數據遙遙領先全省…

無錫太強了！網傳江蘇高考理科狀元又在無錫，數據遙遙領先全省…

火山詩話

2025-06-25 13:41:36

又一個經濟奇跡——孟加拉國

古老板的老巢

2025-06-24 23:41:45

曝小米前總監馮德兵出軌！200份“包養合同”，親密照曝光太炸裂

曝小米前總監馮德兵出軌！200份“包養合同”，親密照曝光太炸裂

180視角

2025-06-25 08:59:42

高考611分女生體檢不合格恐無法入學，守護她的求學夢也是守護教育初心

高考611分女生體檢不合格恐無法入學，守護她的求學夢也是守護教育初心

極目新聞

2025-06-25 11:56:48

42歲快遞員陪女兒高考，順手考了680分，北大：24年前就聯系過他

42歲快遞員陪女兒高考，順手考了680分，北大：24年前就聯系過他

五元講堂

2025-06-24 10:14:04

人民日報痛批懶政！嚴查違規吃喝，不該連“下班約飯”都成罪？

人民日報痛批懶政！嚴查違規吃喝，不該連“下班約飯”都成罪？

宏哥談商道

2025-06-24 19:00:02

顧客自取吸管，茶顏悅色店員直接扔掉整桶吸管。。

顧客自取吸管，茶顏悅色店員直接扔掉整桶吸管。。

4A廣告網

2025-06-24 09:59:01

從南京到烏魯木齊：日本留學生30天搭車游中國，遇17位司機僅1人拒絕

從南京到烏魯木齊：日本留學生30天搭車游中國，遇17位司機僅1人拒絕

互聯網大觀

2025-06-25 11:09:02

如何操縱價值21億美元的B-2轟炸機？美退役中將揭秘：吃飯無鹽無味，憑記憶加油

如何操縱價值21億美元的B-2轟炸機？美退役中將揭秘：吃飯無鹽無味，憑記憶加油

紅星新聞

2025-06-25 13:06:12

霍啟仁曼谷大婚，郭晶晶攜20萬愛馬仕出席，并直言終于有妯娌了

霍啟仁曼谷大婚，郭晶晶攜20萬愛馬仕出席，并直言終于有妯娌了

史書無明

2025-06-25 08:26:46

伊朗稱該國核設施在美國空襲中“嚴重受損”

伊朗稱該國核設施在美國空襲中“嚴重受損”

環球網資訊

2025-06-25 20:15:26

打虎！海南省委常委、秘書長倪強任上落馬！

打虎！海南省委常委、秘書長倪強任上落馬！

上觀新聞

2025-06-25 16:18:25

小米前總監被曝200份包養協議，舔、口、喝都有，陪72小時給100萬

小米前總監被曝200份包養協議，舔、口、喝都有，陪72小時給100萬

社會醬

2025-06-25 17:13:35

突傳噩耗！香港知名導演墜樓身亡，身首異處，和妻子恩愛半世紀

突傳噩耗！香港知名導演墜樓身亡，身首異處，和妻子恩愛半世紀

晉哥說電影

2025-06-25 13:49:11

加速及投資技術驅動型初創企業

2156文章數 591關注度

往期回顧全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

頭條要聞

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

體育要聞

山西太原大媽，在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷，全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰？

汽車要聞

售14.99萬/限量200臺別克昂科威S新增丹霞紅內飾

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

藝術

旅游

游戲

公開課

家居要聞

木質簡約空間極致利用

清新生活感受家的味道
高級質感冰冷體現品味
簡約大氣多櫥高效收納

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

《死亡擱淺2》引擎封神？玩家盛贊開放世界表現！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：金门县| 新建县| 克拉玛依市| 沁阳市| 呼图壁县| 张家口市| 溆浦县| 会泽县| 德令哈市| 井陉县| 鄂托克前旗| 田林县| 宁强县| 阿克陶县| 修武县| 徐汇区| 视频| 抚松县| 抚顺市| 石阡县| 安化县| 榕江县| 天门市| 上杭县| 如皋市| 秦皇岛市| 罗江县| 夏津县| 绥棱县| 赞皇县| 吉首市| 凌海市| 红原县| 招远市| 左权县| 赫章县| 读书| 祁阳县| 曲沃县| 平舆县| 沽源县|

<s id="pysla"></s>

<legend id="pysla"><track id="pysla"></track></legend><cite id="pysla"></cite>

<style id="pysla"><rp id="pysla"></rp></style>