99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

端到端GUI智能體首次實現(xiàn)“犯錯-反思-修正”閉環(huán),模擬人類認(rèn)知

0
分享至

GUI-Reflection 團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

端到端多模態(tài)GUI智能體有了“自我反思”能力!南洋理工大學(xué)MMLab團(tuán)隊提出框架GUI-Reflection。



隨著多模態(tài)大模型的發(fā)展,端到端GUI智能體在手機(jī)、電腦等設(shè)備上的自動化任務(wù)中展示出巨大潛力。它們能夠看懂設(shè)備屏幕,模擬人類去點(diǎn)擊按鈕、輸入文本,從而完成復(fù)雜的任務(wù)。

然而,當(dāng)前端到端GUI多智能體的訓(xùn)練范式仍存在明顯的瓶頸:當(dāng)前模型往往使用幾乎完美的離線演示軌跡進(jìn)行訓(xùn)練,使得模型缺乏反思和改正自身錯誤的能力,并進(jìn)一步限制了通過在線強(qiáng)化學(xué)習(xí)激發(fā)和提升能力的可能。

GUI-Reflection的核心思想是在智能體的各個訓(xùn)練階段引入“反思與糾錯”機(jī)制,這一機(jī)制貫穿預(yù)訓(xùn)練、監(jiān)督微調(diào)和在線訓(xùn)練全過程,模擬了人類“犯錯→反思→重試”的認(rèn)知過程。

  1. GUI預(yù)訓(xùn)練階段:
  2. 提出GUI-Reflection Task Suite任務(wù)套件, 將反思糾錯能力進(jìn)一步分解,讓模型在預(yù)訓(xùn)練階段框架讓模型初步接觸反思類任務(wù),為后續(xù)打下基礎(chǔ)。
  3. 離線監(jiān)督微調(diào)階段:
  4. 構(gòu)建自動化數(shù)據(jù)管道,從已有離線無錯軌跡中構(gòu)建帶有反思和糾錯的行為數(shù)據(jù),讓模型成功習(xí)得反思糾錯行為。
  5. 在線訓(xùn)練階段:
  6. 搭建分布式移動端GUI學(xué)習(xí)環(huán)境,并設(shè)計迭代式反思反饋調(diào)優(yōu)算法,讓模型在與真實環(huán)境交互中進(jìn)一步提升相關(guān)能力。



GUI-Reflection框架簡介

GUI-Reflection 是一個貫穿訓(xùn)練全過程的框架,旨在系統(tǒng)性地賦予多模態(tài)GUI智能體以“自我反思與糾錯”的能力。該框架由三大關(guān)鍵階段組成,分別對應(yīng)模型能力的認(rèn)知啟發(fā)、行為習(xí)得與交互強(qiáng)化:



1 GUI預(yù)訓(xùn)練階段:啟發(fā)反思相關(guān)能力



現(xiàn)有GUI預(yù)訓(xùn)練多聚焦于界面理解和操作感知,而忽視了反思相關(guān)的原生能力構(gòu)建。GUI-Reflection 首次提出專為反思設(shè)計的GUI-Reflection Task Suite,包含三類關(guān)鍵任務(wù):

  • Action Verification(動作驗證)
  • :判斷某一步操作是否達(dá)成了預(yù)期目標(biāo),訓(xùn)練模型識別執(zhí)行偏差。
  • Action Reversal(動作回滾)
  • :學(xué)習(xí)如何撤銷錯誤操作,回退到正確的任務(wù)路徑。
  • Mistake-Informed Reattempt(基于錯誤的再嘗試)
  • :在明確過去錯誤的前提下,生成新的、改進(jìn)的操作策略。

這些任務(wù)將復(fù)雜的反思行為分解為更細(xì)粒度的認(rèn)知能力,使模型在預(yù)訓(xùn)練階段即具備初步的“反思意識”。

2 離線監(jiān)督微調(diào)階段:自動化構(gòu)建糾錯軌跡

針對當(dāng)前GUI數(shù)據(jù)集缺少犯錯和糾錯數(shù)據(jù)的問題,GUI-Reflection設(shè)計了一個自動化反思糾錯數(shù)據(jù)生成管道。該方法從已有成功軌跡中自動構(gòu)造出“帶錯軌跡”與“糾錯行為”,實現(xiàn)數(shù)據(jù)維度上的“反思注入”。具體包括:

  • 目標(biāo)擾動生成錯誤行為:
  • 通過修改原始任務(wù)目標(biāo),使模型原本的動作在新目標(biāo)下變成“錯誤”動作,并構(gòu)建對應(yīng)的反思錯誤行為數(shù)據(jù)。
  • 行為插入模擬失誤:
  • 向成功軌跡中插入無效操作,讓模型對無效錯誤操作做出反思并嘗試新的正確操作。

整個數(shù)據(jù)增強(qiáng)過程無需人工標(biāo)注,使得GUI模型在離線微調(diào)階段習(xí)得了有效的反思行為。

3. 在線訓(xùn)練階段:搭建反饋式反思回路



為了進(jìn)一步提升模型在真實環(huán)境中的適應(yīng)能力,GUI-Reflection構(gòu)建了一個分布式安卓模擬環(huán)境,涵蓋11個app和 215 個任務(wù)模板,支持高并發(fā)交互。基于此環(huán)境,GUI-Reflection設(shè)計了一種自動化迭代式在線反思調(diào)優(yōu)算法:

  • 成功軌跡將被細(xì)粒度驗證,僅保留每一步的有效執(zhí)行;
  • 失敗軌跡則被自動定位錯誤步驟,并為該步驟自動生成前向修正(Pre-Error Correction)與后向反思(Post-Error Reflection)操作。

通過多輪訓(xùn)練迭代與動態(tài)采樣策略,模型逐步優(yōu)化其容錯率、恢復(fù)能力與復(fù)雜規(guī)劃水平。

實驗結(jié)果

GUI-Reflection Task Suite測評結(jié)果

通過在構(gòu)建的GUI-Reflection Task Suite上進(jìn)行評測發(fā)現(xiàn):

  • 通用大模型(如 GPT-4o、Gemini)在GUI任務(wù)中具備不錯的原生反思能力
  • ,能夠初步識別錯誤并進(jìn)行合理推理;
  • 小規(guī)模開源模型在這方面能力明顯不足,尤其在面對失敗操作時難以自我修復(fù);
  • 更關(guān)鍵的是,現(xiàn)有的標(biāo)準(zhǔn)GUI預(yù)訓(xùn)練流程,反而會削弱模型原本具備的反思能力

當(dāng)在預(yù)訓(xùn)練階段引入反思導(dǎo)向任務(wù)數(shù)據(jù),即使是較小規(guī)模的模型,也能顯著提升其在反思相關(guān)任務(wù)中的表現(xiàn),甚至達(dá)到接近閉源大模型的水平。



反思行為的有效性

在評測環(huán)境中進(jìn)行實驗后觀察到:

  • 在離線監(jiān)督微調(diào)階段引入反思類數(shù)據(jù),
  • 可以顯著提升模型的任務(wù)完成表現(xiàn);
  • 進(jìn)一步結(jié)合在線反思調(diào)優(yōu)算法進(jìn)行訓(xùn)練,
  • 模型的成功率持續(xù)提升,表現(xiàn)出更強(qiáng)的泛化能力與穩(wěn)定性。



GUI-Relection-8B模型在AndroidWorld基準(zhǔn)中也實現(xiàn)了 34.5% 的成功率,證明了GUI-Reflection框架的有效性。
這一系列結(jié)果充分表明:在多個訓(xùn)練階段顯式引入反思機(jī)制,是提升GUI智能體能力的關(guān)鍵路徑,而不僅僅依賴大規(guī)模演示數(shù)據(jù)或強(qiáng)模型本身。



反思行為樣例

模型能夠成功認(rèn)識到之前操作的錯誤并采取對應(yīng)操作進(jìn)行回退。



對于不熟悉或不確定的操作,模型可以根據(jù)之前的錯誤做出新的嘗試。



結(jié)語

GUI-Reflection為端到端多模態(tài) GUI 智能體注入了全新的“自我反思”能力。從預(yù)訓(xùn)練、離線微調(diào)到在線交互,它系統(tǒng)性地打通了“犯錯—反思—修正”的認(rèn)知閉環(huán),使模型在面對真實環(huán)境中的不確定性時,能夠更加魯棒、靈活地應(yīng)對各種突發(fā)狀況。

論文鏈接:https://arxiv.org/abs/2506.08012
項目主頁:https://penghao-wu.github.io/GUI_Reflection
數(shù)據(jù)和模型HF鏈接:https://huggingface.co/collections/craigwu/gui-reflection-683c7fb964b44c0cca842290

代碼倉庫鏈接:https://github.com/penghao-wu/GUI_Reflection

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
7月財運(yùn)開掛!這 3 大生肖即將賺得盆滿缽滿

7月財運(yùn)開掛!這 3 大生肖即將賺得盆滿缽滿

人閒情事
2025-06-16 17:46:42
鄭嘉穎父親節(jié)曬全家福,老婆年輕漂亮,三個兒子好帥氣,幸福滿溢

鄭嘉穎父親節(jié)曬全家福,老婆年輕漂亮,三個兒子好帥氣,幸福滿溢

動物奇奇怪怪
2025-06-16 11:49:50
林依晨二胎產(chǎn)后首發(fā)聲!曬母子牽手照長文喜迎新生命

林依晨二胎產(chǎn)后首發(fā)聲!曬母子牽手照長文喜迎新生命

葫蘆哥愛吐槽
2025-06-16 16:47:12
被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現(xiàn)被炒到大幾萬

被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現(xiàn)被炒到大幾萬

小娛樂悠悠
2025-06-15 22:13:54
“養(yǎng)不起別養(yǎng)”,父女因5000塊高考旅游費(fèi)吵架,網(wǎng)友:讓她自己賺

“養(yǎng)不起別養(yǎng)”,父女因5000塊高考旅游費(fèi)吵架,網(wǎng)友:讓她自己賺

熙熙說教
2025-06-16 19:38:23
又一巨頭,爆發(fā)裁員4萬人!

又一巨頭,爆發(fā)裁員4萬人!

感知芯視界
2025-06-16 18:38:36
無名指長于食指者,為何被稱奇相之人?仙翁一言道破玄機(jī)

無名指長于食指者,為何被稱奇相之人?仙翁一言道破玄機(jī)

一根香煙的少婦
2025-06-15 19:51:51
CCTV5直播!中國男籃亞洲杯,五天四場比賽,郭士強(qiáng)力爭小組第一

CCTV5直播!中國男籃亞洲杯,五天四場比賽,郭士強(qiáng)力爭小組第一

籃球大陸
2025-06-16 10:09:35
武商集團(tuán)回應(yīng)“員工購物卡套現(xiàn)詐騙11億”:已內(nèi)部處理相關(guān)人員,未發(fā)現(xiàn)高管參與

武商集團(tuán)回應(yīng)“員工購物卡套現(xiàn)詐騙11億”:已內(nèi)部處理相關(guān)人員,未發(fā)現(xiàn)高管參與

封面新聞
2025-06-16 21:19:05
“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

蓮子說情感
2025-05-04 10:06:26
湖南常德一煙花廠發(fā)生爆炸事故,官方通報:已開展救援處置,人員傷亡情況正在核實

湖南常德一煙花廠發(fā)生爆炸事故,官方通報:已開展救援處置,人員傷亡情況正在核實

揚(yáng)子晚報
2025-06-16 10:37:46
知名美媒預(yù)測杜蘭特下家概率:快船5%,火箭20%第三,第一高達(dá)30%

知名美媒預(yù)測杜蘭特下家概率:快船5%,火箭20%第三,第一高達(dá)30%

你的籃球頻道
2025-06-16 13:08:52
周恩來生前3條遺囑,毛主席只接受一條,華國鋒:當(dāng)時沒人敢做主

周恩來生前3條遺囑,毛主席只接受一條,華國鋒:當(dāng)時沒人敢做主

紅色鑒史官
2025-06-15 20:15:03
劉德華變臉認(rèn)不出!《長安的荔枝》靠什么讓觀眾集體真香?

劉德華變臉認(rèn)不出!《長安的荔枝》靠什么讓觀眾集體真香?

娛樂領(lǐng)航家
2025-06-15 11:25:03
“最美趙敏”離世,被父傷害多次自殺,死后3日才被發(fā)現(xiàn)

“最美趙敏”離世,被父傷害多次自殺,死后3日才被發(fā)現(xiàn)

鄉(xiāng)野小珥
2025-06-16 07:48:53
達(dá)旺舉旗、藏文回響!我國8年靜悄悄的勝仗,印度再無還手之力

達(dá)旺舉旗、藏文回響!我國8年靜悄悄的勝仗,印度再無還手之力

科技處長
2025-06-15 22:58:28
國內(nèi)斷網(wǎng)!伊朗怕什么呢?馬斯克向人民開放星鏈,敲響一記喪鐘

國內(nèi)斷網(wǎng)!伊朗怕什么呢?馬斯克向人民開放星鏈,敲響一記喪鐘

昨夜軍帖
2025-06-15 17:54:45
范冰冰父親節(jié)「甜依偎爸爸」曬全家福! 70歲爸媽逆齡顏質(zhì)網(wǎng)全看傻

范冰冰父親節(jié)「甜依偎爸爸」曬全家福! 70歲爸媽逆齡顏質(zhì)網(wǎng)全看傻

ETtoday星光云
2025-06-16 18:21:13
中鐵某局被曝,要求員工付費(fèi)上班......

中鐵某局被曝,要求員工付費(fèi)上班......

小人物看盡人間百態(tài)
2025-06-16 19:02:23
中美還是沒談攏,中國沒放行軍用稀土,美對華關(guān)稅或延長90天

中美還是沒談攏,中國沒放行軍用稀土,美對華關(guān)稅或延長90天

曉鰀愛八卦
2025-06-16 17:14:45
2025-06-16 22:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10676文章數(shù) 176167關(guān)注度
往期回顧 全部

科技要聞

雷軍:?戒O1芯片還要再做5年、10年

頭條要聞

美突然大規(guī)模向中東調(diào)兵 媒體:美國實際上已部分參戰(zhàn)

頭條要聞

美突然大規(guī)模向中東調(diào)兵 媒體:美國實際上已部分參戰(zhàn)

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經(jīng)要聞

618國補(bǔ)貼錢反漲價 美的深陷價格魔術(shù)漩渦

汽車要聞

榮威M7 DMH外觀官圖發(fā)布 預(yù)計將于下半年正式上市

態(tài)度原創(chuàng)

本地
游戲
數(shù)碼
公開課
軍事航空

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

《死亡擱淺2》“聲”臨其境!小島電臺今晚大動作

數(shù)碼要聞

小米開始發(fā)力:小折疊屏、紅米K80至尊版、玄戒平板,均月底見

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄羅斯暫停駐伊朗領(lǐng)事工作 宣布從伊朗撤僑

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永丰县| 威宁| 柘荣县| 阳江市| 郎溪县| 常熟市| 祥云县| 行唐县| 泽普县| 岳阳市| 沧州市| 马山县| 陇西县| 长沙县| 井研县| 泾川县| 绵竹市| 长寿区| 双鸭山市| 当雄县| 汉寿县| 平定县| 新干县| 监利县| 水城县| 西盟| 杨浦区| 监利县| 阿荣旗| 鄂托克旗| 泰安市| 蚌埠市| 肃北| 中宁县| 庄河市| 灵石县| 察隅县| 拜城县| 恭城| 峡江县| 淄博市|