99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華AgentCPM-GUI讀懂中文屏幕并執行操作,溝通高效不拖沓

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。


想象一下,你的手機里住著一個私人助理:你輸入“幫我定個霸王茶姬”,它自動點單;你輸入“觀看 B站某位博主的視頻”,它一鍵打開。這就是GUI Agent——一種能“看懂”屏幕并執行操作的智能體。

與傳統 Agent相比,GUI Agent 更強調通過圖形界面的窗口、按鈕而非文本去執行用戶指令進行交互,從而跳出單一的、固定的工作流,讓非技術用戶也能輕松地與復雜系統進行交互。在 Agent 發展的多樣化方向中,GUI Agent 作為一條重要分支,拓展了 Agent 應用的場景和形式。

目前學界已有一批面向英文 APP 操作的開源 GUI Agent 模型,如 DigiRL、OdysseyAgent、UI-TARS 等。然而,整個開源生態仍缺乏專門針對中文 APP 精細優化的高質量 GUI Agent。同時,現有模型在復雜決策推理、長鏈任務執行能力上仍有待加強,大模型端側部署的困難也帶來了隱私保護與應用落地的雙重挑戰。

近日,清華大學、中國人民大學、面壁智能團隊聯合發布了 AgentCPM-GUI ——一個面向中文 APP 的端側 GUI Agent,已在中文 Android 場景和開源 Benchmark 取得 SOTA 性能。現已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/models/zhongzhang/AgentCPM-GUI/intro

首先,通過一個 demo 感受一下AgentCPM的性能,給出的指令是:去嗶哩嗶哩看李子柒的最新視頻,并且點贊。

從視頻中可以看出,AgentCPM-GUI 能夠根據用戶指令,進一步拆分執行步驟,并在對應APP中準確執行指令。

01.

針對中文語境的端側GUI Agent

專門面向中文場景的預訓練

現有的中文 GUI Agent 在定位 GUI 元素時能力較弱,尤其是在面對未見過的場景時,泛化能力明顯不足。一個基于視覺語言模型(VLM)的 GUI Agent 在處理動態高分辨率視覺輸入時,可能會因定位歧義問題而無法準確識別目標元素。這種情況下,即使模型能夠識別界面元素,也可能因定位不準確而導致操作失敗。

AgentCPM-GUI 通過高質量的 GUI Grounding 預訓練,顯著提升了模型對視覺界面元素的理解和定位能力。該模型在大規模中文安卓應用界面數據上進行預訓練,覆蓋了常見的按鈕、輸入框、標簽、圖標等通用 GUI 控件,具備較強的跨任務、跨應用泛化能力。


如上圖所示,AgentCPM-GUI 同時具備 GUI Grounding 和 OCR Grounding 能力。給定 GUI 元素的功能描述,模型可以準確定位該控件所在的坐標位置。同樣地,給定屏幕中的文本或文本坐標,模型可以做到準確的 OCR 定位和識別。

基于強化微調的復雜決策能力

除了傳統的有監督微調 SFT,AgentCPM-GUI 引入了強化微調 RFT 來增強模型的推理決策能力。AgentCPM-GUI 設計了動作格式獎勵、動作類型獎勵、動作參數獎勵三個維度的獎勵函數來指導模型進行學習,引導模型自主地生成高質量的思維鏈過程,從而更好地理解用戶意圖和規劃任務,提升任務的執行成功率。

下圖展示了模型的 RFT 訓練進程,可以看到在獎勵函數的引導下,模型不斷優化自身策略,以獲取更高的獎勵。


從表中可看出,經過 RFT 的模型有效地提高了動作執行的準確率,在開源評測榜單中相比于 SFT 模型取得了7%~15%的 Exact Match 提升。


減少50%動作輸出長度,端側推理速度加快

通過對動作空間的精細設計并采用緊湊的 JSON 格式,AgentCPM-GUI 將動作平均長度壓縮至僅 9.7 個 token,相比之下 Qwen2.5-VL 則為 19.2 個 token,減少了約 50%,從而加快端側推理速度。

這意味著,AgentCPM-GUI 緊湊的動作空間設計讓 Agent 少了很多廢話,也更容易部署在端側。在實際應用場景中,可移動的端側設備搭載 AgentCPM-GUI 在具備更強靈活性的同時,也能緩解使用者對隱私安全問題的擔憂。

02.

同一測評標準后的真較量

GUI Grounding 能力是評估 GUI Agent 的基本面,是一種評估模型在理解和定位中文圖形用戶界面(GUI)元素能力的標準測試,AgentCPM-GUI 團隊測評了目前市面上多模態能力突出的 Qwen2.5-VL、Intern2.5-VL、OS-Genesis、UI-TARS、OS-Altas、Aguvis 和 GPT-4o 模型,將這幾個模型放到中文 Grounding Benchmark 上,圖表中列出了幾種模型在三個不同任務上的性能指標,其性能表現得到了如下結果:


從圖表中可以看出,AgentCPM-GUI 模型在這三個任務上的平均性能最好,這表明它在理解和操作中文 GUI 方面具有優勢。Qwen2.5-VL 和 Intern2.5-VL 緊隨其后,在中文 APP 場景中顯示出一定的通用 GUI grounding 能力。GPT-4o 則意外地缺失 GUI grounding 能力,需要使用外掛的 grounding 模型對輸入進行額外增強。

值得注意的是,包括 UI-TARS、OS-Altas 和 Aguvis 在內的 GUI Agent 模型雖然在 fun2point 和 text2point 子任務上有不錯效果,但在 bbox2text 子任務上表現不佳存在性能短板。

過去,市面上的 Agent 測評大多是“自說自話”,不同模型在不同數據集上的評測代碼開源做得并不完善,瘋狂“跑分”的結果是各家模型都是“第一”,可復現性較低。AgentCPM-GUI 團隊首次對 Agent 的測評標準進行統一化,系統性用同一套標準,評測不同家的模型,得出的結論如下


*不同的訓練/測試集劃分

讓所有的模型答同一套題目,AgentCPM-GUI 確實是排在多個排行榜第一名的那個。AgentCPM-GUI 不僅具備強大的中文APP理解操作能力,在開源 Benchmark 上表現也毫不遜色。

以上的評測代碼均已開源,歡迎 GUI 方向的開發者,接入使用 AgentCPM-GUI,高分答案直接用!

編輯:成蘊年

----- END -----


wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!無錫一醫院兩名50歲科室主任因27歲女護士打架,一人進lCU

突發!無錫一醫院兩名50歲科室主任因27歲女護士打架,一人進lCU

白馬驚天劍
2025-07-17 11:13:13
“沸騰”!剛剛,漲停潮來了!

“沸騰”!剛剛,漲停潮來了!

中國基金報
2025-07-17 11:14:55
爭冠最強對手退賽!恭喜鄭欽文,奪2025年首冠有戲,參賽計劃確定

爭冠最強對手退賽!恭喜鄭欽文,奪2025年首冠有戲,參賽計劃確定

侃球熊弟
2025-07-16 23:40:45
拔出蘿卜帶出泥!被央視點名的雷佳音遭全網抵制,連張譯也被拖下水

拔出蘿卜帶出泥!被央視點名的雷佳音遭全網抵制,連張譯也被拖下水

史書無明
2025-07-16 15:31:29
已確認!是知名演員韓雪

已確認!是知名演員韓雪

wuhu派
2025-07-15 09:21:42
美商務部長:我們賣H20芯片,換取了稀土,中國從此一蹶不振上癮

美商務部長:我們賣H20芯片,換取了稀土,中國從此一蹶不振上癮

大道無形我有型
2025-07-16 13:05:22
再見湖人!再見東契奇!詹姆斯下家曝光,網友:第五冠穩了

再見湖人!再見東契奇!詹姆斯下家曝光,網友:第五冠穩了

行舟問茶
2025-07-16 15:23:33
費內巴切新聞官辟謠:穆里尼奧從未發表過任何有關杜蘭的聲明

費內巴切新聞官辟謠:穆里尼奧從未發表過任何有關杜蘭的聲明

懂球帝
2025-07-17 11:36:35
張倫碩不離婚的真相:不是不想離,而是離不起!

張倫碩不離婚的真相:不是不想離,而是離不起!

草莓解說體育
2025-07-16 06:15:13
中國憋屈了這么多年終于爆發,正式宣布可以開火,看誰還敢來撒野

中國憋屈了這么多年終于爆發,正式宣布可以開火,看誰還敢來撒野

小濤叨叨
2025-07-11 15:29:44
宗馥莉擊穿了家族信托,也打破了豪門潛規則

宗馥莉擊穿了家族信托,也打破了豪門潛規則

合贊歷史
2025-07-16 12:15:36
今晚19:30!CCTV5直播亞洲杯重要賽事:中國女籃沖擊4強

今晚19:30!CCTV5直播亞洲杯重要賽事:中國女籃沖擊4強

煙潯渺渺
2025-07-17 03:09:20
娃哈哈事件都火到國外了!外媒稱宗馥莉很有手段

娃哈哈事件都火到國外了!外媒稱宗馥莉很有手段

明月聊史
2025-07-16 15:26:00
接近下樹!阿森納做出讓步,簽葡超前鋒接近完成,球迷:換教練吧

接近下樹!阿森納做出讓步,簽葡超前鋒接近完成,球迷:換教練吧

凌空倒鉤
2025-07-16 10:23:33
今明兩天天氣晴朗 氣溫回升 今天最高氣溫35℃

今明兩天天氣晴朗 氣溫回升 今天最高氣溫35℃

北青網-北京青年報
2025-07-17 11:12:24
美學暴擊!強迫癥狂喜的年度神作來了!

美學暴擊!強迫癥狂喜的年度神作來了!

仙味少女心
2025-07-16 10:21:24
汪小菲無視S媽囑托,曝光倆孩子正面照,玥兒太像大S、霖兒很清秀

汪小菲無視S媽囑托,曝光倆孩子正面照,玥兒太像大S、霖兒很清秀

探源歷史
2025-07-15 11:25:38
林毅夫教授:主張消費拉動經濟,就是故意誤導!

林毅夫教授:主張消費拉動經濟,就是故意誤導!

老蔣談策劃
2025-06-21 08:27:57
日賺150?已有人被刑拘!最近不少中小學生在做這種“兼職”,家長趕緊自查!

日賺150?已有人被刑拘!最近不少中小學生在做這種“兼職”,家長趕緊自查!

FM93浙江交通之聲
2025-07-17 06:40:32
發現一個扎心的現象:一個家庭里,如果媽媽自己賺錢,自己做飯,什么事情都自己處理,這個家離散就不遠了

發現一個扎心的現象:一個家庭里,如果媽媽自己賺錢,自己做飯,什么事情都自己處理,這個家離散就不遠了

窈窕媽媽
2025-07-02 20:32:31
2025-07-17 13:43:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
308文章數 12關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

時尚
健康
游戲
手機
軍事航空

“渣女上衣”火了?巨洋氣巨顯瘦!誰穿誰好看!

呼吸科專家破解呼吸道九大謠言!

直面會終于來了!寶可夢直面會下周二開啟、皮爺準備要搞事?

手機要聞

S26 Ultra轉投索尼傳感器!三星手機影像終于有救了?

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安福县| 博乐市| 满洲里市| 惠东县| 青州市| 长葛市| 兴业县| 文水县| 墨江| 东乡| 汉中市| 龙山县| 象山县| 西安市| 德兴市| 板桥市| 阿城市| 青岛市| 玛沁县| 乡宁县| 静海县| 宕昌县| 大足县| 将乐县| 中西区| 北辰区| 来宾市| 永吉县| 宿松县| 和静县| 行唐县| 阿城市| 东乌珠穆沁旗| 福清市| 翁牛特旗| 白水县| 老河口市| 朝阳区| 新干县| 景泰县| 东乡县|