99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

0
分享至




基于規則的強化學習(RL/RFT)已成為替代 SFT 的高效方案,僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本,如 DeepSeek-R1 在數學求解中的成功應用,以及多模態領域在圖像定位等任務上的性能突破(通常使用 IOU 作為規則 reward)。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發,首次將基于規則的強化學習(RL)應用到了 GUI 智能體領域。



  • 論文標題:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.21620
  • 項目主頁:https://yxchai.com/UI-R1/
  • 項目代碼:https://github.com/lll6gg/UI-R1

簡介

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中,多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡,在訓練和測試時的 prompt 設計如下:



隨后通過我們設計的獎勵函數評估每條響應,并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度:

  • 動作類型獎勵:根據預測動作與真實動作的匹配度計算;
  • 動作參數獎勵(聚焦點擊操作):通過預測坐標是否落入真實邊界框評估;
  • 格式規范獎勵:評估模型是否同時提供推理過程和最終答案。

數據制備方面,僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本,展現出卓越的數據效率。實驗表明,UI-R1 在桌面端和網頁平臺等跨領域(OOD)數據上均取得顯著性能提升,印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

方法:強化學習驅動的 GUI 智能體



我們提出的 UI-R1 模型采用了三個關鍵創新:

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數:R = R_T + R_C + R_F

R_T:行為類型獎勵(點擊、滑動、返回等)

R_C:坐標準確度獎勵(點擊位置是否準確)

R_F:格式獎勵(輸出的格式是否正確)

2. 精心篩選的高質量數據

與其使用大量普通數據,我們提出采用了「質量優先」的策略,從三個維度精選訓練數據:

質量:選擇標注準確、對齊良好的樣本

難度:專注于基礎模型難以解決的「困難」樣本

多樣性:確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質量樣本,比傳統方法少了幾百甚至上千倍,就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO(Group Relative Policy Optimization)的算法。這種算法不需要額外的評論家模型,而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

實驗結果

1. 域內效果提升明顯



在 AndroidControl 基準測試上,UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比:

  • 行為類型準確率提高了 15%
  • 定位準確率提高了 10.3%

2. 域外泛化能力驚人





UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色:

  • 在 ScreenSpot 測試中,UI-R1-3B 的平均準確率達到78.6%,超越 CogAgent-18B 等大模型。
  • 在專業高分辨率環境 ScreenSpot-Pro 測試中,UI-R1-3B 達到17.8%的平均準確率,提升了與使用 76K 數據訓練的 OS-Atlas-7B(18.9%)性能相當。

分析

我們關于 UI-R1 做了一系列分析,研究發現:在 GRPO 的強化學習微調的方式下,數據質量比數據數量重要



  • 困難樣本更有價值:按難度選擇的方法比隨機選擇的性能顯著更好。
  • 數據增長收益遞減:隨著訓練數據量增加,性能提升趨于平緩。
  • 精選小數據集比大數據集更有效:三階段數據選擇方法優于使用整個數據集或者隨機篩選相同數量的子集。

此外,我們還發現動作預測的難度與思考的長度之間存在關聯:思考長度越長,準確率越低(說明問題越難),但通過 UI-R1 形式的強化學習微調之后,對于難樣本的成功率提升也更加明顯。



這一現象證明了強化微調的價值,通過讓模型自主思考來提升難樣本的準確率,這個特性是之前的監督微調所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步,我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合,實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:知道哈梅內伊藏身之所,“目前”不會把他干掉

特朗普:知道哈梅內伊藏身之所,“目前”不會把他干掉

參考消息
2025-06-18 11:30:08
網傳那爾那茜哥哥數學10分,考入985大學

網傳那爾那茜哥哥數學10分,考入985大學

韓娛明星趣聞
2025-06-17 15:04:58
敢打就滅了以色列?中東一夜變天:伊朗終于醒悟,再不動手就晚了

敢打就滅了以色列?中東一夜變天:伊朗終于醒悟,再不動手就晚了

帥先工場
2025-06-15 16:01:47
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
武圣:所有奧本山事件參與者都很后悔 我因此錯失了多次全明星

武圣:所有奧本山事件參與者都很后悔 我因此錯失了多次全明星

直播吧
2025-06-18 11:51:13
深藏深山腹地超百米地下,接近核彈級水平!揭秘以色列啃不下來的這座伊朗核設施

深藏深山腹地超百米地下,接近核彈級水平!揭秘以色列啃不下來的這座伊朗核設施

紅星新聞
2025-06-17 20:56:37
媒體人:任何教練都不會在總決賽天王山末節放棄自己的后場頭牌

媒體人:任何教練都不會在總決賽天王山末節放棄自己的后場頭牌

雷速體育
2025-06-17 13:16:38
多地出現“你作弊了”短信詐騙 警方提醒考生警惕五大詐騙套路

多地出現“你作弊了”短信詐騙 警方提醒考生警惕五大詐騙套路

北青網-北京青年報
2025-06-18 07:55:01
陳新文,已履新職

陳新文,已履新職

政知新媒體
2025-06-18 10:25:09
蘇媒:黃紫昌出現在常州隊陣容中,若出場有望為球隊帶來首勝

蘇媒:黃紫昌出現在常州隊陣容中,若出場有望為球隊帶來首勝

懂球帝
2025-06-17 19:29:19
雙標!同樣是輸球,哈登搶七大戰7分13助攻叫拉胯

雙標!同樣是輸球,哈登搶七大戰7分13助攻叫拉胯

大眼瞄世界
2025-06-17 23:14:08
WTA官宣!鄭欽文突然退賽,原因曝光,中國金花只剩下王欣瑜

WTA官宣!鄭欽文突然退賽,原因曝光,中國金花只剩下王欣瑜

侃球熊弟
2025-06-17 20:56:02
代謝慢是中年人瘦不下去的主要原因,4個方法調整代謝,幫助變瘦

代謝慢是中年人瘦不下去的主要原因,4個方法調整代謝,幫助變瘦

老張話健康
2025-06-16 21:03:23
郭亞雄:生姜加一物,結節全消散!打通全身的淤堵,把結節掃光

郭亞雄:生姜加一物,結節全消散!打通全身的淤堵,把結節掃光

蠟筆小小子
2025-06-02 11:39:25
廣州一男子小區內被毒蛇咬傷,全身多處發麻!最新公布:全市11區這些醫院可打血清

廣州一男子小區內被毒蛇咬傷,全身多處發麻!最新公布:全市11區這些醫院可打血清

環球網資訊
2025-06-18 09:16:13
結案了,曾毅的手表不過是幌子,真正要達到的目的卻是其它吧

結案了,曾毅的手表不過是幌子,真正要達到的目的卻是其它吧

春序娛樂
2025-06-17 18:34:04
8歲男孩報復家長:花1萬買26箱荔枝,商家不退,到貨:家長氣笑了

8歲男孩報復家長:花1萬買26箱荔枝,商家不退,到貨:家長氣笑了

春序娛樂
2025-06-18 08:28:11
43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

娛圈小愚
2025-06-18 08:53:07
拿到稀土的特朗普,對華關稅不降了,中方對美國,只提了一個要求

拿到稀土的特朗普,對華關稅不降了,中方對美國,只提了一個要求

混沌錄
2025-06-17 19:51:18
2025-06-18 12:08:50
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10664文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

牛彈琴:美國若真下場 很可能徹底顛覆當前的伊朗政權

頭條要聞

牛彈琴:美國若真下場 很可能徹底顛覆當前的伊朗政權

體育要聞

從春晚秧歌到拳擊擂臺,中國機器人打服老外

娛樂要聞

S媽曬慈善照 疑似躲避大S遺產風波

財經要聞

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

汽車要聞

六色可選!秦L EV發布限定改色車膜 1999元包安裝

態度原創

本地
藝術
房產
游戲
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

硬核補貨!海口主城買入低密洋房的機會,終于等到了!

《MH荒野》成績爆表的背后:是玩家滔天的怒火差評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高雄县| 固原市| 响水县| 兴仁县| 泌阳县| 延津县| 温州市| 乐昌市| 武邑县| 福安市| 磐石市| 赤壁市| 板桥市| 齐河县| 衡阳县| 贵港市| 浦江县| 饶阳县| 霸州市| 永川市| 景洪市| 天津市| 喀喇沁旗| 东乡县| 达州市| 望江县| 黎川县| 上栗县| 吴川市| 康乐县| 丹东市| 本溪市| 正蓝旗| 香河县| 宿松县| 诸暨市| 利津县| 新乡县| 贡山| 墨竹工卡县| 淄博市|