99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<dfn id="6my9t"></dfn>

<nav id="6my9t"></nav>

<ruby id="6my9t"></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

2025-04-08 18:40:57　來源: 機器之心Pro

北京舉報

0

分享至

基于規則的強化學習（RL/RFT）已成為替代 SFT 的高效方案，僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本，如 DeepSeek-R1 在數學求解中的成功應用，以及多模態領域在圖像定位等任務上的性能突破（通常使用 IOU 作為規則 reward）。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發，首次將基于規則的強化學習（RL）應用到了 GUI 智能體領域。

論文標題：UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
論文地址：https://arxiv.org/abs/2503.21620
項目主頁：https://yxchai.com/UI-R1/
項目代碼：https://github.com/lll6gg/UI-R1

簡介

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中，多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡，在訓練和測試時的 prompt 設計如下：

隨后通過我們設計的獎勵函數評估每條響應，并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度：

動作類型獎勵：根據預測動作與真實動作的匹配度計算；
動作參數獎勵（聚焦點擊操作）：通過預測坐標是否落入真實邊界框評估；
格式規范獎勵：評估模型是否同時提供推理過程和最終答案。

數據制備方面，僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本，展現出卓越的數據效率。實驗表明，UI-R1 在桌面端和網頁平臺等跨領域（OOD）數據上均取得顯著性能提升，印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

方法：強化學習驅動的 GUI 智能體

我們提出的 UI-R1 模型采用了三個關鍵創新：

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數：R = R_T + R_C + R_F

R_T：行為類型獎勵（點擊、滑動、返回等）

R_C：坐標準確度獎勵（點擊位置是否準確）

R_F：格式獎勵（輸出的格式是否正確）

2. 精心篩選的高質量數據

與其使用大量普通數據，我們提出采用了「質量優先」的策略，從三個維度精選訓練數據：

質量：選擇標注準確、對齊良好的樣本

難度：專注于基礎模型難以解決的「困難」樣本

多樣性：確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質量樣本，比傳統方法少了幾百甚至上千倍，就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO（Group Relative Policy Optimization）的算法。這種算法不需要額外的評論家模型，而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

實驗結果

1. 域內效果提升明顯

在 AndroidControl 基準測試上，UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比：

行為類型準確率提高了 15%
定位準確率提高了 10.3%

2. 域外泛化能力驚人

UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色：

在 ScreenSpot 測試中，UI-R1-3B 的平均準確率達到78.6%，超越 CogAgent-18B 等大模型。
在專業高分辨率環境 ScreenSpot-Pro 測試中，UI-R1-3B 達到17.8%的平均準確率，提升了與使用 76K 數據訓練的 OS-Atlas-7B（18.9%）性能相當。

分析

我們關于 UI-R1 做了一系列分析，研究發現：在 GRPO 的強化學習微調的方式下，數據質量比數據數量重要

困難樣本更有價值：按難度選擇的方法比隨機選擇的性能顯著更好。
數據增長收益遞減：隨著訓練數據量增加，性能提升趨于平緩。
精選小數據集比大數據集更有效：三階段數據選擇方法優于使用整個數據集或者隨機篩選相同數量的子集。

此外，我們還發現動作預測的難度與思考的長度之間存在關聯：思考長度越長，準確率越低（說明問題越難），但通過 UI-R1 形式的強化學習微調之后，對于難樣本的成功率提升也更加明顯。

這一現象證明了強化微調的價值，通過讓模型自主思考來提升難樣本的準確率，這個特性是之前的監督微調所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步，我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合，實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
端到端GUI智能體首次實現“犯錯-反思-修正”閉環，模擬人類認知

量子位 2025-06-16 13:11:03
1 跟貼 1

想知道你的LLM API被過度收費了嗎？隱藏Tokens終于可以被審計了

機器之心Pro 2025-06-17 17:03:06
1 跟貼 1

網頁編程眾測排名：DeepSeek-R1超越Claude 4加冕全球第一

量子位 2025-06-17 16:05:25
40 跟貼 40
Gemini 2.5系列模型更新，最新輕量版Flash-Lite實時編寫操作系統

機器之心Pro 2025-06-18 10:20:43
0 跟貼 0

GraphPad Prism 五大分析模型操作指南：從入門到精通

生物學霸 2025-04-01 17:53:47
0 跟貼 0

谷歌搜索集成音頻概覽，40秒生成播客總結內容

智東西 2025-06-17 20:56:17
0 跟貼 0
萌到犯規！vivo S30 Pro mini 三麗鷗聯名禮盒開箱，直面可愛暴擊

雷科技 2025-06-06 20:01:26
0 跟貼 0

200億AI獨角獸反擊，MiniMax首款推理模型對標DeepSeeK，算力成本僅53萬美元

華爾街見聞官方 2025-06-17 19:57:10
1 跟貼 1
突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
1 跟貼 1
LLM已能自我更新權重，自適應、知識整合能力大幅提升，AI醒了？

機器之心Pro 2025-06-16 14:44:01
1 跟貼 1
東南亞倆“友華”國家，為何醞釀邊境戰爭？中國建立新規則很重要

閆樹軍論評 2025-06-17 09:56:35
0 跟貼 0
國家安全與反間諜策略：伊朗與中國處理方式的對比與啟示

時光會帶走回憶 2025-06-17 05:48:41
30 跟貼 30
中國制造業的“零和競爭”可以休矣

虎嗅APP 2025-01-03 18:08:11
20 跟貼 20
輕薄新紀錄？vivo X Fold5 開箱上手

IT168 2025-06-16 16:03:46
0 跟貼 0
敘利亞大馬士革，一切恢復原樣，沒有太大的變化

小奶羊 2025-06-17 12:47:00
7201 跟貼 7201
vivo X Fold5開箱：真的很輕！

泡泡網 2025-06-16 18:32:18
0 跟貼 0
vivo X Fold5沉浸式開箱：一眼輕薄，只此「青」薄！

PConline太平洋科技 2025-06-16 19:35:03
0 跟貼 0
Web3出圈的“穩定幣”和AI有啥關系？

虎嗅APP 2025-06-18 05:01:08
1 跟貼 1
AGI理論比較：主動推理、強化學習、控制論、貝葉斯大腦、效用決策、有限理性、情感動機、動態體內平衡

白駒談人機 2025-06-18 00:09:07
0 跟貼 0
突破多智能體系統邊界，開源方案OWL超越OpenAI Deep Research

機器之心Pro 2025-06-17 16:50:31
0 跟貼 0
最強風光手機？我們用 vivo X200 Ultra 直錄銀

愛范兒 2025-05-03 20:57:26
0 跟貼 0
vivo X200 Ultra 直拍銀河，運動相機、Pocket 3 與 iPhone 對比

愛范兒 2025-04-28 18:42:23
0 跟貼 0
中東火藥桶再燃：以色列精準打擊撕裂伊朗防空神話，現代戰爭規則

走過海棠 2025-06-17 04:39:07
0 跟貼 0
從 0 到 1 打造 Labubu ，MiniMax Agent 讓我看到了智能體未來的樣子

愛范兒 2025-06-17 22:30:35
0 跟貼 0
DeepSeek又沖上第一！

智東西 2025-06-17 17:04:51
39 跟貼 39
家境好的孩子從小都會，而普通家庭孩子需要長大才明白的兩套規則

心開動漫鑫鑫 2025-06-16 11:33:49
0 跟貼 0
逐個token太慢！大模型原生并行出token，CMU、英偉達Multiverse

機器之心Pro 2025-06-17 17:22:06
0 跟貼 0
美軍疑準備介入以伊沖突航母突然帶5000美軍駛向中東

紅星新聞 2025-06-17 18:17:19
4618 跟貼 4618
矛盾加劇，印軍增派兵力藏南，中方突然改變策略，莫迪后悔已晚

軍武時間線 2025-06-17 11:19:13
0 跟貼 0
證監會主席吳清：全球科技創新進入密集活躍期諸多領域都迎來了Deepseek

財聯社 2025-06-18 10:55:07
0 跟貼 0
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
圓桌討論：AI應用趨勢的破界對話丨WAVES新浪潮2025

36氪 2025-06-18 10:58:12
0 跟貼 0
外網熱議：中國裸辭大哥太猛！親手打造航母模型

神秘莫測的世界 2025-06-17 05:42:14
1 跟貼 1
王曼昱和孫穎莎分開參賽：鍛煉年輕選手與檢驗外戰實力的新策略

子水體娛 2025-06-16 17:35:51
1 跟貼 1
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
這幾句翻譯可以找DeepSeek來幫忙，王毅回應中美關系用中國古話

大師觀歷史 2025-06-16 16:43:00
0 跟貼 0
一句話說清算法本質

鶴老師說經濟 2025-06-14 18:06:21
0 跟貼 0
【DeepSeek談藝】張成畢·水彩畫 | 畫中無聲卻可達意

文化視界網 2025-06-17 17:19:15
0 跟貼 0
警惕“傻子共振” 別讓算法操控你的思想與未來

南山資本論 2025-06-17 23:19:15
0 跟貼 0

特朗普：知道哈梅內伊藏身之所，“目前”不會把他干掉

特朗普：知道哈梅內伊藏身之所，“目前”不會把他干掉

參考消息

2025-06-18 11:30:08

網傳那爾那茜哥哥數學10分，考入985大學

網傳那爾那茜哥哥數學10分，考入985大學

韓娛明星趣聞

2025-06-17 15:04:58

敢打就滅了以色列？中東一夜變天：伊朗終于醒悟，再不動手就晚了

敢打就滅了以色列？中東一夜變天：伊朗終于醒悟，再不動手就晚了

帥先工場

2025-06-15 16:01:47

一家三口先后離世！提醒：冰箱久放7種食物，是癌癥“幫兇”

一家三口先后離世！提醒：冰箱久放7種食物，是癌癥“幫兇”

小蜜情感說

2025-06-14 11:00:34

武圣：所有奧本山事件參與者都很后悔我因此錯失了多次全明星

武圣：所有奧本山事件參與者都很后悔我因此錯失了多次全明星

直播吧

2025-06-18 11:51:13

深藏深山腹地超百米地下，接近核彈級水平！揭秘以色列啃不下來的這座伊朗核設施

深藏深山腹地超百米地下，接近核彈級水平！揭秘以色列啃不下來的這座伊朗核設施

紅星新聞

2025-06-17 20:56:37

媒體人：任何教練都不會在總決賽天王山末節放棄自己的后場頭牌

媒體人：任何教練都不會在總決賽天王山末節放棄自己的后場頭牌

雷速體育

2025-06-17 13:16:38

多地出現“你作弊了”短信詐騙警方提醒考生警惕五大詐騙套路

多地出現“你作弊了”短信詐騙警方提醒考生警惕五大詐騙套路

北青網-北京青年報

2025-06-18 07:55:01

陳新文，已履新職

政知新媒體

2025-06-18 10:25:09

蘇媒：黃紫昌出現在常州隊陣容中，若出場有望為球隊帶來首勝

蘇媒：黃紫昌出現在常州隊陣容中，若出場有望為球隊帶來首勝

懂球帝

2025-06-17 19:29:19

雙標！同樣是輸球，哈登搶七大戰7分13助攻叫拉胯

雙標！同樣是輸球，哈登搶七大戰7分13助攻叫拉胯

大眼瞄世界

2025-06-17 23:14:08

WTA官宣！鄭欽文突然退賽，原因曝光，中國金花只剩下王欣瑜

WTA官宣！鄭欽文突然退賽，原因曝光，中國金花只剩下王欣瑜

侃球熊弟

2025-06-17 20:56:02

代謝慢是中年人瘦不下去的主要原因，4個方法調整代謝，幫助變瘦

代謝慢是中年人瘦不下去的主要原因，4個方法調整代謝，幫助變瘦

老張話健康

2025-06-16 21:03:23

郭亞雄：生姜加一物，結節全消散！打通全身的淤堵，把結節掃光

郭亞雄：生姜加一物，結節全消散！打通全身的淤堵，把結節掃光

蠟筆小小子

2025-06-02 11:39:25

廣州一男子小區內被毒蛇咬傷，全身多處發麻！最新公布：全市11區這些醫院可打血清

廣州一男子小區內被毒蛇咬傷，全身多處發麻！最新公布：全市11區這些醫院可打血清

環球網資訊

2025-06-18 09:16:13

結案了，曾毅的手表不過是幌子，真正要達到的目的卻是其它吧

結案了，曾毅的手表不過是幌子，真正要達到的目的卻是其它吧

春序娛樂

2025-06-17 18:34:04

8歲男孩報復家長：花1萬買26箱荔枝，商家不退，到貨：家長氣笑了

8歲男孩報復家長：花1萬買26箱荔枝，商家不退，到貨：家長氣笑了

春序娛樂

2025-06-18 08:28:11

43歲的蔣欣醫美了？和以前相比判若兩人，一臉苦相

43歲的蔣欣醫美了？和以前相比判若兩人，一臉苦相

楊哥歷史

2025-06-09 09:23:18

56歲高曉松與高中女友相約聚會，曬二人戀愛時合影，被嘲像兩代人

56歲高曉松與高中女友相約聚會，曬二人戀愛時合影，被嘲像兩代人

娛圈小愚

2025-06-18 08:53:07

拿到稀土的特朗普，對華關稅不降了，中方對美國，只提了一個要求

拿到稀土的特朗普，對華關稅不降了，中方對美國，只提了一個要求

混沌錄

2025-06-17 19:51:18

機器之心Pro

專業的人工智能媒體

10664文章數 142339關注度

往期回顧全部

科技要聞

別叫我互聯網公司，京東的野心藏不住了

頭條要聞

牛彈琴：美國若真下場很可能徹底顛覆當前的伊朗政權

頭條要聞

牛彈琴：美國若真下場很可能徹底顛覆當前的伊朗政權

體育要聞

從春晚秧歌到拳擊擂臺，中國機器人打服老外

娛樂要聞

S媽曬慈善照疑似躲避大S遺產風波

財經要聞

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

汽車要聞

六色可選!秦L EV發布限定改色車膜 1999元包安裝

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

藝術

房產

游戲

公開課

本地新聞

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

房產要聞

硬核補貨！海口主城買入低密洋房的機會，終于等到了！

《MH荒野》成績爆表的背后：是玩家滔天的怒火差評

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：高雄县| 固原市| 响水县| 兴仁县| 泌阳县| 延津县| 温州市| 乐昌市| 武邑县| 福安市| 磐石市| 赤壁市| 板桥市| 齐河县| 衡阳县| 贵港市| 浦江县| 饶阳县| 霸州市| 永川市| 景洪市| 天津市| 喀喇沁旗| 东乡县| 达州市| 望江县| 黎川县| 上栗县| 吴川市| 康乐县| 丹东市| 本溪市| 正蓝旗| 香河县| 宿松县| 诸暨市| 利津县| 新乡县| 贡山| 墨竹工卡县| 淄博市|

<ul id="celnv"><center id="celnv"><samp id="celnv"></samp></center></ul>