本論文第一作者為微軟 DKI 團隊的 Chaoyun Zhang,其為 Windows 平臺首個智能體系統 ——UFO 的核心開發者,該項目已在 GitHub 上開源并獲得約 7,000 Stars,在社區中引發廣泛關注。同時,他也是一篇超過 90 頁的 GUI Agent 綜述文章的主要撰寫者,系統梳理了該領域的關鍵進展與技術框架。其余項目的主要貢獻者亦均來自微軟 DKI 團隊,具備深厚的研究與工程背景。
- 論文標題:UFO2: The Desktop AgentOS
- 論文地址:https://arxiv.org/abs/2504.14603
- 開源代碼:https://github.com/microsoft/UFO/
- 項目文檔:https://microsoft.github.io/UFO/
近年來,圖形用戶界面(GUI)自動化技術正在逐步改變人機交互和辦公自動化的生態。然而,以 Robotic Process Automation(RPA)為代表的傳統自動化工具通常依賴固定腳本進行操作,存在界面變化敏感、維護成本高昂、用戶體驗欠佳等明顯問題。
同時,近年來興起的基于大型語言模型(LLM)的計算機智能體(Computer-Using Agents,CUA)雖然展現出靈活的自動化潛力,但多數方案仍停留在概念驗證或原型階段,缺乏與操作系統深度集成的能力,制約了其在實際工作環境中的規模化應用。
針對這些行業痛點,作為前代純 GUI 桌面智能體 UFO 的全面升級版,微軟研究團隊近日正式開源了業內首個深度集成 Windows 操作系統的桌面智能體平臺 ——UFO2 AgentOS。該平臺不僅繼承了 UFO 的強大 GUI 操作能力,還在系統層面進行了深度優化,顯著提升了智能體在 Windows 環境下的操作效率與穩定性。
圖 - 1:傳統 CUAs 和 AgentOS UFO2 對比
UFO2:深度 OS 集成的桌面智能體
UFO2 不是傳統意義上的桌面自動化工具,而是一種深度融入操作系統的智能體框架,首次以「AgentOS」理念設計,徹底解決了傳統智能體界面交互脆弱、執行中斷用戶體驗等核心問題。
UFO2 引入了多智能體架構:中央的 HostAgent 負責自然語言任務解析與子任務分解,而專屬的 AppAgent 則為每個應用程序提供定制化的 API 接入、界面感知與交互能力。兩者協同工作,實現了任務的精準分解與靈活執行,并支持跨應用任務,顯著提升了系統的可擴展性與執行效率。
具體來說,UFO2 在以下幾個核心維度實現了突破,這些維度都充分利用了與 Windows 系統的深度集成:
統一 GUI–API 混合執行
傳統 API 執行方式精準高效,但需要針對特定應用實現對應接口,覆蓋范圍有限;而 GUI 執行方式更加通用靈活,但步驟更長,容易受到界面變動的影響。UFO2 創新地將 API 與 GUI 兩種執行范式合二為一,通過統一的 Puppeteer 接口,實現兩種執行模式的動態選擇。
在實際任務執行中,UFO2 可以智能地根據操作環境與任務特性,自動判斷是否優先使用 API 執行來提高速度與精準度,或者在 API 不足以完成任務時,靈活轉向 GUI 操作,從而實現效率與通用性的最佳平衡,顯著提升任務穩定性和魯棒性。
圖 - 2:GUI-API 操作的混合統一接口
混合控件感知
UFO2 實現了與 Windows 系統的深度融合,通過結合 Windows 原生 UI Automation(UIA)接口與先進視覺識別模型 OmniParser-v2,實現了對界面元素的混合檢測與精準感知。這種方式不僅克服了傳統視覺識別準確性不足的問題,同時也解決了純粹依賴系統 API 檢測范圍有限的瓶頸。
實際應用場景中,尤其是在界面復雜、控件自定義或標準化程度低的場景下,UFO2 的混合感知能力有效提高了控件識別的準確性與覆蓋率,從而保障了任務執行的穩定性與魯棒性。
圖 - 3:基于 UIA API 和 OmniParser-v2 的融合控件檢測
持續增強的動態知識集成
UFO2 采用檢索增強生成(RAG)技術,構建了持續的知識庫,動態整合外部應用文檔和歷史執行日志,使智能體實時獲得最新的應用使用方法和最佳實踐。這一技術保障了智能體在新功能上線或應用版本升級后能迅速適應變化,維持高效執行。
通過這種方式,UFO2 可實現對復雜任務的精準理解與執行,減少因知識更新不及時導致的操作失敗。此外,智能體還能利用歷史成功執行的經驗,提高任務完成的準確性與效率,真正實現「越用越強」。
圖 - 4:動態檢索外部應用文檔和歷史執行日志
高效的推測式多步執行
為有效降低大語言模型(LLM)調用次數,UFO2 創新性地采用了推測式多步預測機制。智能體一次 LLM 調用即可預測多個后續步驟,并通過實時的界面狀態校驗來逐步執行。這種機制大幅度降低了智能體執行任務時的延遲和計算成本。
實驗結果顯示,推測式多步執行技術可減少高達 51.5% 的 LLM 調用次數,大幅提升任務執行速度與系統響應能力,使智能體能夠更順暢地完成復雜的任務序列,提升整體效率。
圖 - 5:推測式多步執行和驗證
無干擾的 PiP 虛擬桌面執行環境
UFO2 引入了創新的畫中畫(PiP)虛擬桌面技術,通過深度利用 Windows 原生的遠程桌面服務,創建了一個輕量級、獨立且安全的虛擬桌面環境。所有智能體執行的任務均在此環境中進行,避免了與用戶主桌面的任何交互干擾。
用戶可以在智能體執行復雜任務的同時,繼續進行其他重要的工作,而無需擔心智能體任務影響自己的桌面操作。這一設計極大提高了智能自動化的用戶接受度與實際使用體驗。
圖 - 6:UFO2 畫中畫(PiP)的虛擬執行環境
實踐檢驗:20 + 主流應用測試全方位領先
在嚴格的基準測試中,UFO2 在超過 20 款主流 Windows 應用(如 Excel、Outlook、Edge 等)中進行了充分驗證:
- 僅采用 GPT-4o, 任務成功率相比業內領先的 OpenAI Operator 提升超過 10%。
- 特別值得強調的是,UFO2 的推測式多步執行技術將大模型調用(LLM call)的頻率降低最多達 51.5%,極大提升了任務響應速度和系統效率。
圖 - 7:實驗結果對比
全面開源,共同推動桌面智能新時代
微軟團隊已經將 UFO2 的全部代碼和詳細文檔向社區開源,歡迎開發者們加入共建與創新。
- 開源項目地址:https://github.com/microsoft/UFO (GitHub UFO2 項目)
- 官方文檔:https://microsoft.github.io/UFO/(微軟 UFO2 官方文檔)
UFO2 的發布不僅標志著桌面智能體真正邁入了系統級的「AgentOS 時代」,也為未來智能辦公、智能人機交互的發展樹立了重要里程碑。通過 UFO2,微軟期待與全球開發者共同打造更加智能、穩定、高效的桌面智能生態。
歡迎各界人士關注、使用并反饋,共同推動桌面自動化和智能交互的下一次技術革命。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.