99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI 開始「自由玩電腦」了!吉大提出「屏幕探索者」智能體

0
分享至



作者簡介:本文第一作者牛潤良是吉林大學人工智能學院博士研究生,研究方向包括大模型智能體、強化學習,專注于 GUI Agent。通訊作者王琪為吉林大學人工智能學院研究員,研究方向包括數據挖掘、大模型、強化學習。

邁向通用人工智能(AGI)的核心目標之一就是打造能在開放世界中自主探索并持續交互的智能體。隨著大語言模型(LLMs)和視覺語言模型(VLMs)的飛速發展,智能體已展現出令人矚目的跨領域任務泛化能力。

而在我們觸手可及的開放世界環境中,圖形用戶界面(GUI)無疑是人機交互最普遍的舞臺。想象一下 --- 你的 AI 不僅能看懂屏幕,還能像人一樣主動探索界面、學習操作,并在新應用里靈活應對,這不再是幻想!

近期,吉林大學人工智能學院發布了一項基于強化學習訓練的 VLM 智能體最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它讓視覺語言模型(VLM)真正學會了「自我探索 GUI 環境」。



  • 論文地址:https://arxiv.org/abs/2505.19095
  • 項目地址:https://github.com/niuzaisheng/ScreenExplorer

該工作帶來三大核心突破:

  • 在真實的 Desktop GUI 環境中進行 VLM 模型的在線訓練;
  • 針對開放 GUI 環境反饋稀疏問題,創新性地引入「好奇心機制」,利用世界模型預測環境狀態轉移,估算環境狀態的新穎度,從而有效激勵智能體主動探索多樣化的界面狀態,告別「原地打轉」;
  • 此外,受 DeepSeek-R1 啟發,構建了「經驗流蒸餾」訓練范式,每一代智能體的探索經驗都會被自動提煉,用于微調下一代智能體。這不僅大幅提升探索效率、減少對人工標注數據的依賴,更讓 ScreenExplorer 的能力實現了持續自主進化,打造真正「學無止境」的智能體!論文同時開源了訓練代碼等。

廢話少說,先看視頻:

方法

實時交互的在線強化學習框架



文章首先構建了一個能夠與 GUI 虛擬機實時交互的在線強化學習環境,VLM 智能體可以通過輸出鼠標和鍵盤動作函數調用與真實運行的 GUI 進行交互。強化學習環境通過提示詞要求 VLM 智能體以 CoT 形式輸出,包含「意圖」與「動作」兩部分。最后,強化學習環境解析函數調用形式的動作并在真實的操作系統中執行動作。在采樣過程中,可以并行多個虛擬機環境進行采樣,每個環境采樣多步,所有操作步都存儲在 Rollout Buffer 中。

啟發式 + 世界模型驅動的獎勵體系

文中構建了啟發式 + 世界模型驅動的探索獎勵,啟發式探索獎勵鼓勵軌跡內畫面之間差異度增大。世界模型可以導出每一個動作的好奇心獎勵,鼓勵模型探索到越來越多的未見場景,此外還有格式獎勵和意圖對齊獎勵。綜合以上獎勵,為每一步動作賦予即時獎勵,進而鼓勵模型與環境開展有效交互的同時不斷探索新環境狀態。



計算 GRPO 的組優勢函數計算

在獲得每一步輸出的獎勵后,文中采用與 Deepseek-R1 相同的 GRPO 算法對 VLM 進行強化學習訓練。作者將同一個 Rollout Buffer 中所有動作視為一個組,首先根據 GRPO 的優勢函數計算每一步動作的優勢值:



再使用 GRPO損失函數更新 VLM 參數:



由此可實現每個回合多個并行環境同步推理、執行、記錄,再用當批數據實時更新策略,實現「邊操作邊學」的在線強化學習。

實驗結果

模型探索能力表現

文中的實驗使用了 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 作為基礎模型,如果不經訓練,直接讓 3B 的小模型與環境進行交互,模型只會在屏幕上「亂按一通」,未能成功打開任何一個軟件:



但是稍加訓練,模型就能成功打開一些桌面上的軟件:



再進行一段時間的探索,模型學會探索到更深的頁面:



Qwen2.5-VL-7B 的模型表現更好,在一段時間的訓練后甚至能夠完成一次完整的「加購物車」過程:



基于啟發式和從世界模型導出的獎勵都非常易得,因此無需構建具體的任務獎勵函數,就能讓模型在環境中自己探索起來。動態訓練的 ScreenExplorer 能夠更加適應當前的環境,與調用靜態的 VLM 甚至專門為 GUI 場景訓練的模型相比,能夠獲得更高的探索多樣性:



經強化學習訓練,原本探索能力最弱的基礎模型 Qwen 2.5-VL-3B 成功躍升為探索表現最佳的 ScreenExplorer-3B-E1。更高的探索多樣性意味著智能體能夠與環境開展更有效的交互,自驅地打開更多軟件或探索更多頁面,這為接下來訓練完成具體任務,或是從屏幕內容中學習新知識,提供了最基礎的交互和探索能力。

在訓練過程中,各分項的獎勵值不斷升高。此外,World Model的重建損失一直保持在較高的水平,這也反應了模型一直在探索新的狀態。



為什么需要世界模型?

文中通過消融實驗對比了各類獎勵的必要性,尤其關注來自世界模型的好奇心獎勵對探索訓練的影響。實驗發現,一旦去掉來自世界模型的好奇心獎勵,模型就很難學習如何與環境進行有效交互,各項獎勵都未顯現提升的趨勢。



為了進一步了解來自世界模型好奇心獎勵給訓練帶來的影響,文中展示了各種消融設定下 GRPO Advantage 的變化趨勢。



可以發現,來自世界模型的好奇心獎勵加大了 Advantage 的方差,這一點變化使得探索過程渡過了冷啟動階段。而沒有世界模型獎勵的消融組卻一直困于冷啟動階段,很難開展有效的探索。

新技能涌現

此外,文中還展示了模型在經過強化學習訓練后涌現出的技能,例如:

跨模態翻譯能力:



根據現狀制定計劃能力:



復雜推理能力:



探索產生的樣本中,「意圖」字段可以視為免費的標簽,為之后構造完成具體任務提供數據標注的基礎。

結論

本研究在開放世界 GUI 環境中成功訓練了探索智能體 ScreenExplorer。通過結合探索獎勵、世界模型和 GRPO 強化學習,有效提升了智能體的 GUI 交互能力,經驗流蒸餾技術則進一步增強了其探索效率。該智能體通過穩健的探索直接從環境中獲取經驗流,降低了對人類遙控操作數據的依賴,為實現更自主的智能體、邁向通用人工智能(AGI)提供了一條可行的技術路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外媒:新月為梅西報價年薪2.15億美元且完全免稅

外媒:新月為梅西報價年薪2.15億美元且完全免稅

雷速體育
2025-06-27 07:41:13
暴雷40億!康養巨頭跌落神壇,4萬老人血本無歸!

暴雷40億!康養巨頭跌落神壇,4萬老人血本無歸!

藍色海邊
2025-06-19 05:37:18
中升集團1500輛奔馳“吃灰”背后

中升集團1500輛奔馳“吃灰”背后

汽車工程師
2025-06-26 09:59:10
總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
突然,出手!貨幣戰爭,爆發!

突然,出手!貨幣戰爭,爆發!

證券時報
2025-06-26 20:49:07
白玉蘭視后投票排名:馬伊琍倒數,劉亦菲僅第2,第1名斷層式領先

白玉蘭視后投票排名:馬伊琍倒數,劉亦菲僅第2,第1名斷層式領先

聯友說娛
2025-06-27 14:03:09
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
吃飯七分飽錯了?醫生提醒:一旦過了50歲,吃飯要盡量做到這4點

吃飯七分飽錯了?醫生提醒:一旦過了50歲,吃飯要盡量做到這4點

健身狂人
2025-06-27 13:26:19
恭喜,伊萬重返亞洲勁旅,帶隊征戰世界杯附加賽,或反戈國足

恭喜,伊萬重返亞洲勁旅,帶隊征戰世界杯附加賽,或反戈國足

去山野間追風
2025-06-27 12:20:26
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
工人徒手掰斷鋼筋?河北霸州:情況不屬實

工人徒手掰斷鋼筋?河北霸州:情況不屬實

界面新聞
2025-06-26 21:02:47
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
大S豪宅面臨法拍!葛斯齊曝S媽想賣房害怕賠錢,具俊曄不想趟渾水

大S豪宅面臨法拍!葛斯齊曝S媽想賣房害怕賠錢,具俊曄不想趟渾水

萌神木木
2025-06-27 12:10:16
伊朗防長登上052D,伊網民看到后炸鍋:先去買下殲-10生產線!

伊朗防長登上052D,伊網民看到后炸鍋:先去買下殲-10生產線!

大道無形我有型
2025-06-26 15:17:01
女子380萬買領導二手房,入住后墻壁發現2瓶漢帝茅臺,鑒定后懵了

女子380萬買領導二手房,入住后墻壁發現2瓶漢帝茅臺,鑒定后懵了

嘉琪Feel
2025-06-24 23:07:01
大瓜!成都女網紅長期以“精英律師”活躍社交平臺,結果是假律師

大瓜!成都女網紅長期以“精英律師”活躍社交平臺,結果是假律師

火山詩話
2025-06-26 14:34:01
廣東財經大學請全體畢業生免費吃魚,愿前程似錦、如魚得水

廣東財經大學請全體畢業生免費吃魚,愿前程似錦、如魚得水

妮子說美食
2025-06-27 13:44:18
小米YU7一個小時賣出去了28.9萬輛!其中12.2萬輛定金不可退!

小米YU7一個小時賣出去了28.9萬輛!其中12.2萬輛定金不可退!

大笑江湖史
2025-06-27 11:18:55
國家金融監督管理總局機構恢復與處置司原一級巡視員劉煒接受審查調查

國家金融監督管理總局機構恢復與處置司原一級巡視員劉煒接受審查調查

界面新聞
2025-06-27 17:03:52
外媒:謀殺并肢解9人,被稱為“推特殺手”的日本男子被執行死刑

外媒:謀殺并肢解9人,被稱為“推特殺手”的日本男子被執行死刑

環球網資訊
2025-06-27 16:39:11
2025-06-27 19:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10735文章數 142349關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

上合成員國防長會議未就聯合聲明達成一致 外交部回應

頭條要聞

上合成員國防長會議未就聯合聲明達成一致 外交部回應

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

時尚
房產
本地
數碼
健康

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

數碼要聞

榮耀MagicBook Art 14 2025智控突破:YOYO助理開啟PC“自動駕駛”時代

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 法库县| 丹巴县| 宜州市| 霍邱县| 绩溪县| 华宁县| 博客| 竹山县| 开化县| 肃北| 会理县| 睢宁县| 沁阳市| 盈江县| 探索| 芷江| 南安市| 德惠市| 永修县| 建昌县| 固镇县| 金川县| 海丰县| 施甸县| 台中市| 康保县| 左云县| 翁牛特旗| 铅山县| 普洱| 蒲城县| 江津市| 古田县| 陵水| 宣威市| 稻城县| 灵山县| 政和县| 贡觉县| 东丰县| 大兴区|