99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agent RL與智能體進(jìn)化關(guān)鍵一步:TaskCraft實(shí)現(xiàn)復(fù)雜任務(wù)自動生成

0
分享至



近年來,基于智能體的強(qiáng)化學(xué)習(xí)(Agent + RL)與智能體優(yōu)化(Agent Optimization)在學(xué)術(shù)界引發(fā)了廣泛關(guān)注。然而,實(shí)現(xiàn)具備工具調(diào)用能力的端到端智能體訓(xùn)練,首要瓶頸在于高質(zhì)量任務(wù)數(shù)據(jù)的極度稀缺。當(dāng)前如GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構(gòu)建過程中高度依賴人工標(biāo)注,因而在規(guī)模與任務(wù)復(fù)雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務(wù),GAIA 則僅提供約 500 條多工具協(xié)同任務(wù)樣本。與基礎(chǔ)大模型訓(xùn)練中動輒萬級以上的指令數(shù)據(jù)相比,差距十分顯著。

盡管在基礎(chǔ)模型階段,像self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語言模型(LLM)成功構(gòu)建了大規(guī)模的指令型數(shù)據(jù),有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態(tài)指令數(shù)據(jù)卻難以滿足實(shí)際需求。原因在于,復(fù)雜的智能體任務(wù)通常需要模型與環(huán)境進(jìn)行持續(xù)的動態(tài)交互,同時涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性,導(dǎo)致其在智能體訓(xùn)練中遷移性差、適用性有限。

為應(yīng)對上述挑戰(zhàn),OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務(wù)的自動化生成框架,旨在高效構(gòu)建具備可擴(kuò)展難度、多工具協(xié)同與可驗證執(zhí)行路徑的智能體任務(wù)實(shí)例。TaskCraft 通過統(tǒng)一的流程化建構(gòu)機(jī)制,擺脫了對人工標(biāo)注的依賴,能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復(fù)雜任務(wù)場景,并支持任務(wù)目標(biāo)的自動驗證,確保數(shù)據(jù)質(zhì)量與執(zhí)行閉環(huán)。 基于該框架,研究團(tuán)隊構(gòu)建并開源了一個包含約 41,000 條智能體任務(wù)的合成數(shù)據(jù)集,顯著擴(kuò)展了現(xiàn)有Agent 數(shù)據(jù)資源的規(guī)模與多樣性,為后續(xù)通用智能體的訓(xùn)練與評估提供了有力支撐。



  • 論文標(biāo)題:
  • TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:
  • https://arxiv.org/abs/2506.10055
  • Github:
  • https://github.com/OPPO-PersonalAI/TaskCraft
  • 數(shù)據(jù)集:
  • https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分:第一部分生成簡單且可驗證的原子任務(wù);第二部分通過深度拓展和寬度拓展,不斷構(gòu)建新的原子任務(wù),使復(fù)雜性逐步提升。

原子任務(wù)的生成



原子結(jié)構(gòu)生成示意圖

可以簡單理解為,從原始數(shù)據(jù)中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關(guān)鍵步驟:

1.收集信息:系統(tǒng)從多種來源(網(wǎng)頁、PDF、圖片等)提取信息。例如,企業(yè)財報、一張統(tǒng)計圖或一篇新聞文章。

2.識別關(guān)鍵內(nèi)容:利用LLM從這些文檔中提取候選結(jié)論,比如:2025 年蘋果公司總收入為383.3 億美元

3.生成問題:LLM需要將這些候選結(jié)論轉(zhuǎn)換為工具回答的問題。例如:“在財務(wù)報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗證任務(wù):每個原子任務(wù)被保留必須滿足以下兩個條件:

  • 必須依賴工具才能解答(LLM無法直接推導(dǎo)答案)。
  • 必須經(jīng)過Agent驗證,確保能夠順利執(zhí)行任務(wù)。

任務(wù)拓展

任務(wù)拓展旨在將一個簡單任務(wù)逐步演化為更具層次和挑戰(zhàn)性的復(fù)雜任務(wù),使Agent 必須通過多個步驟才能完成任務(wù)。拓展方式主要包括深度拓展寬度拓展。



深度拓展示意圖

其中,深度拓展的目標(biāo)是為了構(gòu)建可被拆解為一系列相互依賴的任務(wù)。每一步都依賴前一步的結(jié)果,從而構(gòu)建出一條多步推理鏈。其主要包括以下四步:

1.確認(rèn)主任務(wù)與拓展標(biāo)識符:拓展標(biāo)識符一般是具有強(qiáng)特殊性的文本,往往作為獲取工具上下文的輸入關(guān)鍵字。例如對于任務(wù):“電影《星際穿越》的導(dǎo)演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標(biāo)識符是:《星際穿越》。

2.執(zhí)行Agent搜索,構(gòu)造新的輔助原子任務(wù):SearchAgent以拓展標(biāo)識符為線索執(zhí)行搜索,并從搜索結(jié)果中構(gòu)造一個新的原子任務(wù),其答案即為該拓展標(biāo)識符。例如:“哪部美國著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務(wù),更新主任務(wù):將輔助原子任務(wù)與原主任務(wù)進(jìn)行融合,構(gòu)建一個邏輯連貫的復(fù)合任務(wù)。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導(dǎo)演是誰?“(答案:克里斯托弗·諾蘭)

4.驗證任務(wù)合理性:為了規(guī)避對合并問題的整體驗證,研究者采用了多種規(guī)則對合并后的主任務(wù)進(jìn)行語義驗證,包括:超集驗證、關(guān)系驗證、信息泄露驗證、替換合理性驗證等。

這些任務(wù)應(yīng)來自同一信息源(如同一篇網(wǎng)頁或PDF),且答案之間不存在因果依賴。使用LLM 將多個任務(wù)的語義合并成一個自然、流暢且具備完整性的新任務(wù)。

而寬度拓展則是通過選擇兩個(或多個)結(jié)構(gòu)兼容的原子任務(wù),



寬度拓展示意圖

通過PromptLearning 提升任務(wù)生成效率

在TaskCraft 的任務(wù)構(gòu)建流程中,Prompt 的設(shè)計起到了至關(guān)重要的作用。研究團(tuán)隊采用了自舉式 few-shot 提示優(yōu)化機(jī)制,基于生成的任務(wù)數(shù)據(jù)對提示進(jìn)行了迭代優(yōu)化,從而實(shí)現(xiàn)了提示模板的自我進(jìn)化。如表1,實(shí)驗結(jié)果顯示,原子任務(wù)的生成通過率從初始的54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務(wù)中,6 輪任務(wù)擴(kuò)展的成功率由 41% 提升至 51.2%,進(jìn)一步驗證了生成數(shù)據(jù)在提升任務(wù)構(gòu)建質(zhì)量與效率方面的顯著效果。



表1PromptLearning實(shí)驗結(jié)果

對智能體基礎(chǔ)模型進(jìn)行SFT訓(xùn)練

其次,研究團(tuán)隊進(jìn)一步評估了TaskCraft 所生成任務(wù)數(shù)據(jù)在提升大模型能力方面的實(shí)際效果。以 Qwen2.5-3B 系列為基礎(chǔ),研究者基于三個典型的多跳問答數(shù)據(jù)集(HotpotQA、Musique 和 Bamboogle)的訓(xùn)練集,生成了約32k條多跳任務(wù)以及軌跡,并利用這些生成數(shù)據(jù)對模型進(jìn)行監(jiān)督微調(diào)(SFT)。如表2,實(shí)驗結(jié)果表明,經(jīng)過微調(diào)后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數(shù)據(jù)在增強(qiáng)大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外,當(dāng)這些微調(diào)模型與強(qiáng)化學(xué)習(xí)方法 Search-R1 相結(jié)合時,模型性能進(jìn)一步提升,進(jìn)一步證明 TaskCraft 所生成的任務(wù)數(shù)據(jù)不僅能用于監(jiān)督學(xué)習(xí),也可作為強(qiáng)化學(xué)習(xí)的優(yōu)質(zhì)訓(xùn)練起點(diǎn)。



表2監(jiān)督微調(diào)效果

此外,你可能會好奇:引入搜索Agent 是否真的有必要?為此,研究團(tuán)隊設(shè)計了一項對比實(shí)驗,比較了兩種任務(wù)構(gòu)建方式的效果:一是直接使用 GPT-4.1 基于某個結(jié)論生成任務(wù),另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務(wù)。結(jié)果如表 3 所示,TaskCraft 構(gòu)建范式在多項指標(biāo)上表現(xiàn)更優(yōu)。



表3任務(wù)構(gòu)建范式的有效性分析

相比之下,TaskCraft 生成的任務(wù)具有顯著更高的通過率,驗證時間更短,且工具使用次數(shù)更符合“原子任務(wù)”的定義(理論最優(yōu)為:一次輸入索引 + 一次目標(biāo)工具調(diào)用)。此外,任務(wù)的工具調(diào)用次數(shù)也更穩(wěn)定,方差更小,反映出 TaskCraft 在保持原子任務(wù)難度的一致性方面具備更強(qiáng)的優(yōu)勢。



原子數(shù)據(jù)域分布

基于TaskCraft,研究者構(gòu)建了一個包含約41,000 個 agentic 任務(wù)的大規(guī)模數(shù)據(jù)集,為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評估提供了堅實(shí)的基礎(chǔ)。該數(shù)據(jù)集覆蓋多個工具使用場景,包括網(wǎng)頁搜索、PDF 閱讀、圖像理解等,任務(wù)結(jié)構(gòu)層次豐富,難度可控,支持原子級任務(wù)和多跳復(fù)雜任務(wù)。由于所有任務(wù)都附帶了真實(shí)的執(zhí)行軌跡,不僅可以進(jìn)行監(jiān)督式微調(diào)(SFT),還能為強(qiáng)化學(xué)習(xí)(RL)提供高質(zhì)量的訓(xùn)練數(shù)據(jù)起點(diǎn)。這使得該數(shù)據(jù)集可廣泛應(yīng)用于智能體基礎(chǔ)模型的能力增強(qiáng)、Agent 推理策略的評估,以及多工具調(diào)用環(huán)境下的泛化能力測試。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為啥有些國家喜歡閱兵,有些國家卻不太喜歡閱兵呢?

為啥有些國家喜歡閱兵,有些國家卻不太喜歡閱兵呢?

翻開歷史和現(xiàn)實(shí)
2025-07-04 14:01:40
西媒:拉波爾塔最后一刻還蒙在鼓里,尼科經(jīng)紀(jì)人成功利用了巴薩

西媒:拉波爾塔最后一刻還蒙在鼓里,尼科經(jīng)紀(jì)人成功利用了巴薩

雷速體育
2025-07-04 19:02:34
2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

南生今世說
2025-07-04 03:14:33
女籃12人大名單!宮魯鳴壓哨清人,卻留下了不該留的內(nèi)線巨人

女籃12人大名單!宮魯鳴壓哨清人,卻留下了不該留的內(nèi)線巨人

十點(diǎn)體壇
2025-07-04 22:12:59
蔡瀾去世才7天,惡心一幕出現(xiàn)!舒淇費(fèi)力“穿上的衣服”又被扒下

蔡瀾去世才7天,惡心一幕出現(xiàn)!舒淇費(fèi)力“穿上的衣服”又被扒下

葡萄說娛
2025-07-04 10:31:15
巴基斯坦空軍前參謀長:我們飛行員抱怨 平時訓(xùn)練比和印軍實(shí)戰(zhàn)難得多

巴基斯坦空軍前參謀長:我們飛行員抱怨 平時訓(xùn)練比和印軍實(shí)戰(zhàn)難得多

財聯(lián)社
2025-07-04 22:42:20
溫網(wǎng)感人一幕!葡萄牙球員戴黑紗悼念去世若塔 官方破例解除規(guī)定

溫網(wǎng)感人一幕!葡萄牙球員戴黑紗悼念去世若塔 官方破例解除規(guī)定

醉臥浮生
2025-07-04 21:21:12
1222萬畢業(yè)生,國家真的急了

1222萬畢業(yè)生,國家真的急了

覺叔說
2025-07-04 13:15:17
海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

霹靂炮
2025-07-02 21:36:59
蘇超最讓人擔(dān)心的一幕還是發(fā)生了……

蘇超最讓人擔(dān)心的一幕還是發(fā)生了……

功夫財經(jīng)
2025-07-04 08:22:56
6月份抖音直播帶貨排行榜出來了,董宇輝銷量超10億竟排第五

6月份抖音直播帶貨排行榜出來了,董宇輝銷量超10億竟排第五

小人物看盡人間百態(tài)
2025-07-04 16:44:58
10年感情破裂!水果姐奧蘭多官宣分手共同撫養(yǎng)女兒,知情人:女方很難過,但也慶幸不必經(jīng)歷另一場離婚

10年感情破裂!水果姐奧蘭多官宣分手共同撫養(yǎng)女兒,知情人:女方很難過,但也慶幸不必經(jīng)歷另一場離婚

魯中晨報
2025-07-04 13:23:28
列車停運(yùn)小伙破窗救了全車人后被帶走!律師:小伙無責(zé),符合緊急避險

列車停運(yùn)小伙破窗救了全車人后被帶走!律師:小伙無責(zé),符合緊急避險

三言四拍
2025-07-04 09:59:26
1年500萬!大瓦格納續(xù)約魔術(shù)繼續(xù)輔佐弟弟 上季報銷致減薪600萬

1年500萬!大瓦格納續(xù)約魔術(shù)繼續(xù)輔佐弟弟 上季報銷致減薪600萬

醉臥浮生
2025-07-04 21:52:19
3:2!中國隊三連勝,日本攔網(wǎng)被虐20分,施佳儀差距大,主攻低效

3:2!中國隊三連勝,日本攔網(wǎng)被虐20分,施佳儀差距大,主攻低效

跑者排球視角
2025-07-05 00:43:09
相識13天閃婚4個月后妻子車禍去世,丈夫:沒有騙保,知道她患癌仍決定結(jié)婚

相識13天閃婚4個月后妻子車禍去世,丈夫:沒有騙保,知道她患癌仍決定結(jié)婚

極目新聞
2025-07-04 21:15:44
網(wǎng)友們曝出了目前國內(nèi)民航業(yè)中的飛二代們,并點(diǎn)了兩個人的名

網(wǎng)友們曝出了目前國內(nèi)民航業(yè)中的飛二代們,并點(diǎn)了兩個人的名

清暉有墨
2025-07-03 18:17:04
許家印被關(guān)這么長,依然不肯交代,說白了,他是學(xué)夏海鈞那一套…

許家印被關(guān)這么長,依然不肯交代,說白了,他是學(xué)夏海鈞那一套…

偵姐有料
2025-06-09 07:37:08
溫網(wǎng)又造大冷門!澳網(wǎng)冠軍被37歲老將淘汰 前6號種子已有5人出局

溫網(wǎng)又造大冷門!澳網(wǎng)冠軍被37歲老將淘汰 前6號種子已有5人出局

我愛英超
2025-07-04 22:47:25
關(guān)于假金條案,網(wǎng)友們正在見證一出前恭后倨的好戲

關(guān)于假金條案,網(wǎng)友們正在見證一出前恭后倨的好戲

清暉有墨
2025-07-04 13:56:03
2025-07-05 02:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10788文章數(shù) 142353關(guān)注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領(lǐng)到72歲

娛樂要聞

李宇春身上的標(biāo)簽?zāi)膫€才是真的?

財經(jīng)要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領(lǐng)克10 EM-P搶鮮實(shí)拍

態(tài)度原創(chuàng)

游戲
時尚
手機(jī)
教育
軍事航空

外媒盛贊《影之刃零》:史上最佳BOSS設(shè)計 爽飛了

再見多巴胺,今年流行的“淡彩色”穿搭太美了!

手機(jī)要聞

realme 真我 15 系列手機(jī)入網(wǎng)

教育要聞

留學(xué)與國內(nèi)升學(xué):魚和熊掌真的不可兼得嗎?

軍事要聞

哈馬斯處決12人 罪名包括與以軍方合作

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 巴马| 垫江县| 邵武市| 柞水县| 赤城县| 炎陵县| 凌海市| 岳普湖县| 临武县| 长垣县| 峨山| 绥芬河市| 铁岭市| 中方县| 乌恰县| 铅山县| 宁阳县| 如东县| 梁山县| 杂多县| 麟游县| 潜江市| 周宁县| 十堰市| 孟州市| 民勤县| 泗洪县| 阿瓦提县| 德庆县| 秦皇岛市| 巢湖市| 泾源县| 兰溪市| 澄城县| 正定县| 滨海县| 沁水县| 华容县| 屏东县| 营山县| 平湖市|