99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

研究人員設計多模態通用智能體,性能超過Claude計算機代理等系統

0
分享至

近期,美國明尼蘇達大學與伊利諾伊大學芝加哥分校等聯合團隊提出并實現了一個名為 InfantAgent-Next 的通用型多模態智能體系統,其能夠通過文字、圖像、音頻等方式與計算機進行自動化交互。

它的核心創新在于,打破了現有系統普遍采用的“單一依賴”模式(或依賴工具,或依賴視覺模型),轉而采用高度模塊化的混合式架構。

目前,研究團隊已在多個真實交互任務中驗證了 InfantAgent-Next 的有效性,包括辦公軟件操作、網頁編輯、音頻理解等任務場景,性能超過了多個現有基線。例如,在 OSWorld 任務中準確率達到 35.3%,超過了 Claude 計算機代理等系統。

此外,他們還開源了完整代碼與評估腳本,希望推動社區進一步研究真正可落地的多模態通用智能體。

近日,相關論文以《InfantAgent-Next:多模態通用代理的計算機自動交互技術》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)為題發表在預印本網站arXiv上 [1]。明尼蘇達大學博士生雷斌和伊利諾伊大學芝加哥分校博士生康偉泰是共同第一作者,明尼蘇達大學丁才文教授擔任通訊作者。


圖丨相關論文(來源:arXiv)

可用于數字辦公助手等場景

該團隊持續關注通用 AI 代理(AI Agent)技術未來潛力。在他們看來,一個真正高效的智能代理,應該能夠自主理解用戶的意圖,并像“數字助手”一樣,在不依賴人類干預的情況下完成各類跨模態任務,從而真正解放人類的操作時間和注意力。

康偉泰對 DeepTech 表示,這項技術一旦成熟,有望在辦公自動化、內容編輯、復雜信息檢索與決策支持等領域帶來革命性變革,使人類能夠將精力集中于更具創造性和戰略性的工作。


圖丨康偉泰(來源:康偉泰)

研究團隊發現,現有方法主要面臨兩類主要問題:

一類是工具驅動型的系統,通常由大模型負責整個流程的決策,并調用預設工具。這類方法往往需要人類提前為每個任務場景精心設計工具調用邏輯,其存在泛化性差和維護成本高的局限性。

另一類則是純視覺驅動的系統,盡管其具有一定通用性,但由于推理和執行全靠單一模型完成,受制于電腦屏幕的高分辨率視覺理解的挑戰。因此,它常常在界面點擊、文本定位、文件編輯等細節操作上出錯,缺乏執行層面的魯棒性。

研究團隊的突破性地引入了一種模塊分工協作機制——不再依賴單個模型解決所有問題,而是根據任務需求將不同子任務路由給專長不同的“專家模型”。

舉例來說,語言模型用于任務規劃、視覺模型用于定位界面元素、音頻模型用于解析語音提示等。所有模塊共享統一的上下文,子模塊的輸出也會被回寫進系統歷史中,進而實現端到端的多模態協作。

這種架構帶來的新知識包括:充分利用了工具模型與視覺模型在不同任務類型中的互補性;實現了“任務分解-專家路由-上下文融合”的設計范式;證明了高度模塊化智能體架構在多個基準任務中,具備更強的泛化能力和執行準確性。


(來源:arXiv)

研究團隊認為,InfantAgent-Next 的應用前景廣闊。它的核心能力是讓智能體能夠像“虛擬人類用戶”一樣理解多模態輸入(如文字、圖片、聲音等),并以高度準確、可控和自動化的方式操作計算機界面。

這種能力在未來有望嵌入到多種實際應用場景中:

數字辦公助手:InfantAgent-Next 可用于自動完成文檔撰寫、表格處理、幻燈片制作、郵件收發等任務,尤其適合需要圖文混合操作,幫助用戶節省大量重復勞動時間。

無障礙輔助系統:對于視力障礙或行動不便人群,InfantAgent-Next 能通過語音和圖像理解,幫助他們自動化地與電腦或網頁界面交互,從而提升數字可及性。

跨模態客服與運維機器人:InfantAgent-Next 在電商、政務、金融等行業可用于后臺自動填寫系統表單、抓取頁面數據、處理用戶請求等,以智能化方式完成原本需要人工介入的操作流程。

教育與訓練平臺中的模擬用戶:它可以被用作“虛擬學生”或“虛擬操作員”,在軟件培訓、系統測試等領域幫助構建仿真環境。

軟件自動化測試與交互驗證:與傳統的 UI 自動化腳本相比,InfantAgent-Next 更具通用性和彈性,適用于快速生成測試流程、發現交互邏輯錯誤。



“長遠來看,我們相信這類通用型 AI Agent 將逐漸成為每個人計算設備中的常駐助手,像系統級能力一樣無處不在,并不斷進化。”康偉泰說。



希望推動通用多模態 AI Agent 實際落地

回憶這次研究經歷,最讓康偉泰和雷斌難忘的是研究團隊從最初的滿腔熱情,到逐步意識到實現這樣一個多模態通用 AI Agent,實際上比研究團隊預想中要困難得多。

起初,他們制定了清晰的分工合作流程:代碼實現、benchmark 測試和論文構思、撰寫,并按時間節點推進。但現實遠比計劃復雜——研究團隊需要兼容多個 benchmark,開發支持它們的測試代碼本身就極為繁瑣。

而且,由于他們所設計的是一個“通用型”智能體,涉及的子領域非常多。為了把各項功能落地,研究團隊花了大量時間去調研 GUI-VG(GUI Visual Grounding)相關工作,分析不同大語言模型的能力差異、API 調用成本等。然而,這些工作均無法直接復用現有方案,必須從頭構建。

研究過程中,團隊還遭遇了諸多突發問題,包括 API 成本超預算、GUI-VG 模塊的迭代優化、論文寫作方向的調整等,導致原計劃一再被打亂。面對這些挑戰,團隊成員始終保持緊密協作,尤其在論文成型前的最后階段,他們每天通過 Zoom 召開遠程“戰斗會議”,甚至通宵修改論文。

這段經歷不僅產出了一項重要科研成果,更成為一場關于團隊協作、韌性堅持和動態調整的寶貴實踐。最終,團隊成功按預期完稿,這一成果讓所有成員倍感自豪,同時也讓他們深刻認識到,高質量的科研工作并非線性推進,而是一場充滿不確定性的博弈,需要靈活應對和緊密協作。

圖丨INFANTAGENT-NEXT 在 OSWorld 上的性能(來源:arXiv)



目前,研究團隊已經在規劃后續的研究方向,并希望不斷打磨和提升 InfantAgent-Next 的實際可用性與研究價值。

他們計劃從以下幾個方面持續推進:

提升整體 pipeline 的效率:當前系統中仍存在部分調用流程復雜、響應速度較慢的問題,研究團隊計劃對 Agent 的任務調度、模塊協作和執行機制進行優化,使其更加高效流暢。

降低對外部 API 的依賴與成本:目前系統在多模態理解和推理方面仍需依賴一些高質量的商用 API,這在成本和穩定性上都帶來挑戰。他們正在探索更多開源、可自部署的替代方案,以增強系統的可控性和可持續性。

增強各子模塊的模型能力:無論是視覺理解、語音分析還是多輪推理,相關模型的精度和魯棒性都直接影響 Agent 的表現。研究團隊將持續跟進最新研究成果并訓練子模塊模型,不斷迭代子模塊的選擇與性能。

持續開源,服務社區:研究團隊將保持 InfantAgent-Next 的開源更新,包括代碼、評測腳本和工具鏈,也歡迎社區開發者、研究者或對 AI Agent 感興趣的同學基于研究團隊的工作進行改進或擴展,以推動整個領域的發展。

康偉泰表示:“我們希望這個項目不僅是一個‘能跑起來的系統’,而且是能成為社區中的基石去推動通用多模態 AI Agent 科研探索和實際落地。”

目前,InfantAgent-Next 的代碼和評測腳本已經開放在 GitHub 上,研究團隊也在持續高頻率地更新。據團隊預計,開源版本中的 Agent 很可能在未來幾輪迭代中,能力有望遠超當前論文所展示的水平。

參考資料:

1.https://arxiv.org/pdf/2505.10887

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗反對派準備造反,神棍政權滅亡倒計時開始了

伊朗反對派準備造反,神棍政權滅亡倒計時開始了

金召點評
2025-06-14 21:55:43
杭州警方通報女子遭劫持被捅數刀:將處罰履責不力的相關單位

杭州警方通報女子遭劫持被捅數刀:將處罰履責不力的相關單位

南方都市報
2025-06-14 19:46:13
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
正式貫通!3小時內直達武漢

正式貫通!3小時內直達武漢

極目新聞
2025-06-15 17:30:05
8萬人見證!世俱杯奪冠熱門殺瘋了:4-0碾壓局,年度105球

8萬人見證!世俱杯奪冠熱門殺瘋了:4-0碾壓局,年度105球

葉青足球世界
2025-06-16 04:50:09
克瓦拉茨赫利亞助攻雙響,大巴黎4-0復仇馬競,超越巴薩獨享第一

克瓦拉茨赫利亞助攻雙響,大巴黎4-0復仇馬競,超越巴薩獨享第一

釘釘陌上花開
2025-06-16 05:04:43
達旺舉旗、藏文回響!我國8年靜悄悄的勝仗,印度再無還手之力

達旺舉旗、藏文回響!我國8年靜悄悄的勝仗,印度再無還手之力

科技處長
2025-06-15 22:58:28
知名大學校內大樹倒塌,一碩士研究生傷重身亡

知名大學校內大樹倒塌,一碩士研究生傷重身亡

雙一流高校
2025-06-16 00:05:49
奔馳車集體“擺爛”,車主崩潰!

奔馳車集體“擺爛”,車主崩潰!

車轱轆話V
2025-06-13 19:15:48
實錘!那爾那茜曾任上戲15級表演課專業老師,還拿過一等獎學金!

實錘!那爾那茜曾任上戲15級表演課專業老師,還拿過一等獎學金!

閑侃閑侃
2025-06-16 00:03:32
湖人、勇士、籃網三隊重磅交易,涉及6名球員和兩個選秀權

湖人、勇士、籃網三隊重磅交易,涉及6名球員和兩個選秀權

阿雄侃籃球
2025-06-16 00:46:47
印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

Ck的蜜糖
2025-06-15 01:51:14
朝鮮“左右逢源”討美俄歡心,唯獨冷落中國?李在明一語道破局勢

朝鮮“左右逢源”討美俄歡心,唯獨冷落中國?李在明一語道破局勢

近史閣
2025-06-16 02:10:24
面相變了!趙麗穎參加活動被吐槽“掛臉”,原來4年前何炅沒說錯

面相變了!趙麗穎參加活動被吐槽“掛臉”,原來4年前何炅沒說錯

洲洲影視娛評
2025-06-14 02:25:02
鬧大了!重慶小轎車撞人后續爆料:司機被圍堵,家人疑似被打

鬧大了!重慶小轎車撞人后續爆料:司機被圍堵,家人疑似被打

說點真嘞叭
2025-06-16 03:13:54
韓鵬:隊員出現很多低級失誤,作為教練選擇他們上場也有責任

韓鵬:隊員出現很多低級失誤,作為教練選擇他們上場也有責任

懂球帝
2025-06-16 00:12:18
“館長”此行提前結束原因曝光,綠營氣急敗壞,黃智賢尷尬了!

“館長”此行提前結束原因曝光,綠營氣急敗壞,黃智賢尷尬了!

野山歷史
2025-06-15 16:03:39
為什么在中國耍賴的老人,到了加拿大都變乖了?

為什么在中國耍賴的老人,到了加拿大都變乖了?

霹靂炮
2025-06-14 22:56:06
塞浦路斯總統稱伊朗請求塞方向以色列傳遞信息

塞浦路斯總統稱伊朗請求塞方向以色列傳遞信息

界面新聞
2025-06-15 22:55:40
以色列讓伊朗一大批領導先走了

以色列讓伊朗一大批領導先走了

歷史總在押韻
2025-06-15 12:30:50
2025-06-16 05:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

藝術
旅游
本地
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

林徽因嫁給梁思成,一半原因在他?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新乡市| 虞城县| 高密市| 韶山市| 汪清县| 旬阳县| 广东省| 无锡市| 峨眉山市| 基隆市| 长子县| 哈尔滨市| 修水县| 焦作市| 延津县| 依兰县| 乌兰浩特市| 聊城市| 汉川市| 东源县| 双牌县| 安远县| 北票市| 雅安市| 南充市| 平湖市| 石棉县| 荔波县| 黑龙江省| 晋州市| 进贤县| 秭归县| 黑龙江省| 离岛区| 阿瓦提县| 丰镇市| 班玛县| 合山市| 新巴尔虎右旗| 兴仁县| 仙游县|