99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

任務級獎勵提升AppAgent思考力,淘天提出Mobile-R1,3B模型超32B

0
分享至

Mobile-R1團隊 投稿
量子位 | 公眾號 QbitAI

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。



淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。



為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。



軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。



△軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。
  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。
  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。
訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。



Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。
  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。
  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

△整體實驗結果,粗體表示最佳結果,下劃線表示次優結果



結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

△Stage 3訓練的獎勵曲線



此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

△魯棒性分析結果,粗體表示最佳結果



最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

論文鏈接:https://arxiv.org/abs/2506.20332
項目主頁:https://mobile-r1.github.io/Mobile-R1/
訓練框架參考:https://github.com/alibaba/ROLL/
開源數據: https://huggingface.co/datasets/PG23/Mobile-R1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
自作孽不可活!昔日的頭號主播小楊哥,如今落魄不已,卻無人心疼

自作孽不可活!昔日的頭號主播小楊哥,如今落魄不已,卻無人心疼

山河月明史
2025-06-23 21:44:20
貨車涉嫌超載被交警追緝10公里發生車禍,交警行為是否合規需要調查

貨車涉嫌超載被交警追緝10公里發生車禍,交警行為是否合規需要調查

極目新聞
2025-07-20 17:32:17
官方:申花與必勝客達成合作,將推出申花必勝套餐及相關周邊

官方:申花與必勝客達成合作,將推出申花必勝套餐及相關周邊

懂球帝
2025-07-20 15:59:15
50歲男人染指69名女性,從20歲到63歲不等,只因他太了解女性需求

50歲男人染指69名女性,從20歲到63歲不等,只因他太了解女性需求

易玄
2025-07-12 03:29:57
球報:曼聯想要截胡哲凱賴什,提交了一份略高于阿森納的報價

球報:曼聯想要截胡哲凱賴什,提交了一份略高于阿森納的報價

懂球帝
2025-07-20 20:11:11
認慫了!史曉燕為杜建英發聲被罵上熱搜!本人發聲:大家誤會了

認慫了!史曉燕為杜建英發聲被罵上熱搜!本人發聲:大家誤會了

奇思妙想草葉君
2025-07-19 22:47:12
反轉!官方介入,宗慶后沒給3孩設信托,宗馥莉340億家產有望保住

反轉!官方介入,宗慶后沒給3孩設信托,宗馥莉340億家產有望保住

奇思妙想草葉君
2025-07-18 00:55:01
你見過最有遠見的人是什么樣的?網?友:從二三十年后穿越來的?

你見過最有遠見的人是什么樣的?網?友:從二三十年后穿越來的?

墻頭草
2025-07-20 08:50:28
石破茂決心已下,臺海一旦開戰,在臺日企員工別指望日本出手相救

石破茂決心已下,臺海一旦開戰,在臺日企員工別指望日本出手相救

健身狂人
2025-07-20 18:14:21
逃離俄占區!僅剩345人學俄語,烏克蘭人知道俄羅斯人支持戰爭

逃離俄占區!僅剩345人學俄語,烏克蘭人知道俄羅斯人支持戰爭

鷹眼Defence
2025-07-20 17:17:32
全網群嘲的“老母親給兒子32萬買車”事件, 他貪婪的模樣真丑啊

全網群嘲的“老母親給兒子32萬買車”事件, 他貪婪的模樣真丑啊

悠閑歷史
2025-07-06 09:41:03
加征160%關稅!美對華再出關稅重拳,特朗普也沒想到,大麻煩來了

加征160%關稅!美對華再出關稅重拳,特朗普也沒想到,大麻煩來了

云上烏托邦
2025-07-20 11:19:26
進了小區業主群,天性都被解放了

進了小區業主群,天性都被解放了

不相及研究所
2025-07-19 22:04:31
交警駕車追緝違章貨車10公里,貨車司機慌亂之下撞殘路人被判全責!被撞人家屬稱交警也應負責,律師解讀

交警駕車追緝違章貨車10公里,貨車司機慌亂之下撞殘路人被判全責!被撞人家屬稱交警也應負責,律師解讀

大象新聞
2025-07-19 13:44:14
援藏干部董旭斌已任浙江省林業局黨組書記、局長(正廳長級)

援藏干部董旭斌已任浙江省林業局黨組書記、局長(正廳長級)

澎湃新聞
2025-07-20 16:14:27
土耳其一點不含糊,直接下場參戰了!

土耳其一點不含糊,直接下場參戰了!

科技有趣事
2025-07-20 11:44:36
72歲老中醫給女孩把脈留下指印被訛8萬,給完錢說了5個字,女孩懵了

72歲老中醫給女孩把脈留下指印被訛8萬,給完錢說了5個字,女孩懵了

風聲起伏
2025-07-17 17:34:35
今起,取消道路(輔路)停車位收費!陜西一市公告

今起,取消道路(輔路)停車位收費!陜西一市公告

91.6陜西交通廣播
2025-07-20 12:49:40
被以色列炸懵的敘利亞:菜鳥總統的錯覺與代價

被以色列炸懵的敘利亞:菜鳥總統的錯覺與代價

Wilsonhe8
2025-07-19 21:50:46
逼走陳忠和,打壓劉國梁,排擠郎平,89歲“體壇惡人”如今怎樣

逼走陳忠和,打壓劉國梁,排擠郎平,89歲“體壇惡人”如今怎樣

八斗小先生
2025-06-24 16:27:02
2025-07-20 20:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅通報:天水第二人民醫院檢驗科違規修改血鉛數據

頭條要聞

甘肅通報:天水第二人民醫院檢驗科違規修改血鉛數據

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

時尚
旅游
手機
家居
軍事航空

被金靖種草了這條裙子

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

realme 副總裁王偉:GT 系列設計會做很大的調整

家居要聞

簡構智居 現代功能美學

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黑龙江省| 井研县| 嘉兴市| 如皋市| 珠海市| 江西省| 汤阴县| 自贡市| 泊头市| 乐陵市| 绥德县| 博白县| 犍为县| 兰考县| 南丰县| 民丰县| 平泉县| 宁陕县| 巧家县| 镇坪县| 三门峡市| 鄂州市| 修水县| 杭州市| 梅河口市| 乌鲁木齐市| 启东市| 哈巴河县| 买车| 禄丰县| 汶川县| 浦北县| 偃师市| 读书| 府谷县| 来凤县| 顺平县| 昌宁县| 蒙阴县| 嘉黎县| 武平县|