網易首頁 > 網易號 > 正文申請入駐

任務級獎勵提升AppAgent思考力，淘天提出Mobile-R1，3B模型超32B

2025-07-20 14:45:31　來源: 量子位

海南舉報

分享至

Mobile-R1團隊投稿
量子位 | 公眾號 QbitAI

現有Mobile/APP Agent的工作可以適應實時環境，并執行動作，但由于它們大部分都僅依賴于動作級獎勵（SFT或RL）。

而這些獎勵只能引導代理預測每一步中最佳的單一動作，因此難以應對不斷變化的移動環境。

比如一句指令：“打開飛豬，進入酒店套餐，進入熱門直播，找到飛豬超級VIP，并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出，采用多回合、任務導向的學習方式，結合在線學習和軌跡糾錯，也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵（Task-level Reward）的交互式強化學習框架，即Mobile-R1。

為了確保訓練的穩定性，團隊提出了一個三階段訓練過程：格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集，證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡，并人工標注這些初始軌跡，得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分，最終得到了4,635條高質量的人工標注軌跡，包含24,521個單步數據。

△軌跡數據集構造流程

首先，選擇了28個中國移動應用程序，通過人工設計和自動生成相結合的方法創建了多樣化的任務指令，隨后統一經過人工審核，去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后，成功收集了大量動作執行軌跡，軌跡中的每一步都包含模型輸出的思考，需要執行的動作以及對應的工具調用。

得到軌跡后，針對模型的輸出做了以下三個維度的標注：

邏輯思考：將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式，比如“當前在手機主屏（當前狀態），下一步是點擊淘寶圖標（下一步動作）來進入淘寶（動作目的）”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。
清晰動作：清晰動作是單步可執行操作的一句話描述，動作應符合思考的內容并且可推動任務的完成。
準確調用：人工標注者會修正錯誤的操作調用，包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成，基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1：初始格式微調

在第一階段，對模型進行初始格式微調。這一步是通過監督微調（SFT）的方式進行的，使用的是之前人工標注的高質量軌跡數據集。在微調過程中，模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來，還會調整輸出格式以符合預期的結構，包括邏輯思考、清晰動作和準確調用。

Stage2：動作級在線訓練

在第二階段，模型通過群體相對策略優化（GRPO）進行動作級在線訓練。此階段使用動作級獎勵（Action-level Reward）來評估每個動作的正確性，同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成，其中可驗證動作獎勵能夠量化動作的正確性，而格式獎勵則確保模型輸出是結構化、可解釋的。

動作級獎勵。1）對于基于坐標的動作（如點擊、滑動），如果預測的坐標落在目標GUI元素的真實邊界框內，則獎勵為1，否則為0。2）對于非坐標的動作（如輸入文本），如果預測的動作或參數與真實值完全匹配，則獎勵為1，否則為0。
格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出，確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3：任務級在線訓練

在第三階段，通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中，模型需要進行自由探索和錯誤糾正，因此我們將問題定義為馬爾可夫決策過程，以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成，旨在鼓勵模型在整個軌跡中保持對響應格式的遵循，同時評估任務的完成情況。

軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM，GPT-4o來評估整個歷史互動軌跡，確保步驟和動作的一致性以及任務的完成情況。
格式獎勵。格式獎勵在此階段仍然起著重要作用，為整個軌跡計算平均格式獎勵，并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰，以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中，主要評估了模型在自定義benchmark上的性能，并進行了針對模型泛化能力的魯棒性分析，以驗證Mobile-R1的表現。

△整體實驗結果，粗體表示最佳結果，下劃線表示次優結果

結果顯示，Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中，AgentCPM-8B 由于專為中國移動生態系統優化，因此在中文場景中表現優異。更為顯著的是，Mobile-R1在所有基準中表現最佳，任務成功率達到49.40，比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現，其成功率比只有階段1和階段2訓練的模型高出1.4點，這得益于任務級GRPO的有效應用。

特別值得注意的是，通過階段1和階段2的訓練，Qwen2.5-VL-3B模型的表現超越了其標準版本，并在多項指標上領先于其他基準模型，突顯了動作級和任務級獎勵機制的重要性。

△Stage 3訓練的獎勵曲線

此過程中，Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長，表明學習過程是有效的。然而，在步驟5到10之間，獎勵有所下降，這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始，獎勵再次上升，這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性，而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練，這一階段有效增強了模型的魯棒性和適應性。

△魯棒性分析結果，粗體表示最佳結果

最后總結，在本文中，Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵，顯著提升了基于視覺語言模型（VLM）的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程，克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明，Mobile-R1在所有指標上都超越了所有基準。此外，團隊計劃全面開源相關資源以促進進一步的研究。

論文鏈接：https://arxiv.org/abs/2506.20332
項目主頁：https://mobile-r1.github.io/Mobile-R1/
訓練框架參考：https://github.com/alibaba/ROLL/
開源數據： https://huggingface.co/datasets/PG23/Mobile-R1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.