本文來自PRO會員通訊內容,文末關注「機器之心PRO會員」,查看更多專題解讀。
推進自主 AI Agent 的發展是今年人工智能領域公司最重要的技術趨勢之一。Gartner 預測,到 2028 年,至少 15% 的日常工作決策將通過 AI Agent 完成。
微軟、谷歌、Anthropic 等公司近期陸續推出 AI Agent 及相關功能,使用 AI Agent 幫助用戶自主操控計算機、手機等智能設備。
這些 AI 頭部公司在 AI Agent 方面的動作有何異同?使用AI Agent 操控計算機、手機等智能設備這事可行嗎?
目錄
01.AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
頭部 AI 公司為何都在做 AI 自主計算機操控?這事可行嗎?和 RPA 的區別是什么?
02.微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
微軟、谷歌、Anthropic 在 AI Agent 方面的動作有何異同?
03.AI Agent 能力突破有限:近期研究主要集中在屏幕解析方面
AI Agent自主操控計算機需要具備哪些能力?
04.讓 AI Agent 使用人類所有工具來完成任務仍是暢想
為什么說 AI Agent 離 實際能用還有一段距離
01AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
1、推進自主 AI Agent 的發展是今年人工智能領域公司最重要的技術趨勢之一。Gartner 預測,到 2028 年,至少 15% 的日常工作決策將通過 AI Agent 完成。
2、微軟、谷歌、Anthropic 等公司近期陸續推出 AI Agent 及相關功能,使用 AI Agent 幫助用戶自主操控計算機、手機等智能設備。[1]
① 微軟近期在 Dynamics 365 業務線應用程序中推出了 10 款用于銷售、運營和服務的 AI Agent,可以自動執行任務,如篩選潛在客戶、監控供應商表現、管理客戶意圖和知識庫等;同時,11 月還將在 Copilot Studio 中開啟自主創建 Agent 的功能,客戶可以根據自己的需求自主構建 Agent,用于處理客戶查詢、識別銷售線索和管理庫存等。[2]
② Anthropic 近期推出了升級版的 Claude 3.5 Sonnet,該模型支持計算機使用功能,能夠根據用戶指令移動光標、點擊相應位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。[3]
③ 據 The Information 報道,谷歌也將開發可控制計算機的 AI 系統「Project Jarvis」,通過截取和解釋屏幕截圖,然后點擊按鈕或輸入文本,幫助人們「自動執行日常的基于網絡的任務」。[4]
④ 此外,智譜發布了應用 AutoGLM,能讓 AI 像人類一樣操作電腦和手機的成果。用戶可以通過簡單的指令讓 AutoGLM 自動完成多種任務,如閱讀網頁信息、電商購物、點外賣、訂酒店、社交媒體互動。[5]
3、使用 AI Agent 來自主操控計算機等智能設備正在成為近期科技巨頭、頭部創企們發力的重點方向。
① 除了上述提到的進展,微軟也推出了 Copilot Vision,可讓用戶與 Agent 討論正在瀏覽的網頁;蘋果推出的 Apple Intelligence 系統將在明年實現用 Agent 了解屏幕內容并為用戶跨應用程序執行操作;OpenAI 被曝正在測試可以使用 Windows 電腦的 Agent。
4、隨著 LLM 等技術的進一步發展,AI Agent 的研究方向逐漸從用于處理耗費人類時間和精力的日常任務,轉向能夠自主監控和管理系統的下一個級別的 AI Agent。
① 微軟研究院負責人、資深計算機科學家 Peter Lee 認為,目前自主 AI Agent 的研究發展方向為能夠規劃和執行復雜任務、與其他 AI Agent 協作并從他們的行為中學習。需要解決的核心問題是實現 AI Agent 的自主性和協作性。[6]
② 根據吳恩達提出的四種 AI Agent 設計模式,現有的大廠、創企推出的 AI Agent 相關落地應用或功能主要集中在工具使用方面,即 Agent 利用外部工具,如網絡搜索、代碼執行等,來幫助收集信息、采取行動或處理數據。[7]
5、但實現 AI Agent 的自主性、通用泛化能力的突破仍有距離。受限于現有 AI Agent 執行能力的局限,以及各家科技巨頭、大廠的業務對于 RPA(機器人流程自動化)的需求,近期微軟、Anthropic 等推出的 AI Agent 更偏向于 RPA Agent。「UI+API 自動化」成為目前階段大幅提升 AI Agent 執行能力的重要落地方向。
6、傳統的 RPA 與 AI Agent 的主要區別:從任務類型角度來看,傳統的 RPA 用于幫助使用者處理如數據輸入、發票處理等自動化重復任務,AI Agent 在此基礎之上,能夠處理更加復雜、不可預測的認知任務;從靈活性和適應性角度來看,RPA 通常涉及預定義的工作流程,明確定義的程序或步驟,AI Agent 則是通用性,能夠學習和適應新的任務或環境。
7、隨著 AI 技術的發展,RPA 與 AI Agent 技術的融合成為 RPA 廠商或巨頭大廠們的趨勢。據 Gartner 發布的《2024 機器人流程自動化(RPA)魔力象限》報告,預計到 2025 年,90%的 RPA 供應商將整合生成式 AI 技術,進一步提升自動化的智能化水平。基于 AI Agent 技術,RPA 不是簡單地遵循預定義的規則和工作流程,而是可以從數據中學習、識別模式并做出決策,能夠自動執行更復雜的認知任務。[8]
02微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
不管是微軟、谷歌等科技巨頭,還是 OpenAI、Anthropic 等 AI 創企,各家公司在 AI Agent 方面的相關研究及布局,均是為其已有或重點業務方向所服務。
表:不完全統計美 AI 頭部公司近期在 AI Agent 方面的相關動作
1、微軟:面向企業客戶,服務于生產力和業務流程業務板塊[2]
1)微軟推出的 AI Agent 應用于其 Dynamics 365 業務線應用程序,用于銷售、運營和服務,主要為企業客戶服務......
關注「機器之心PRO會員」,前往「收件箱」查看完整解讀
01 微調失格?持續反向傳播算法將解鎖新的訓練范式嗎?
當前深度學習有什么根本缺陷?微調將來不存在了?Dynamic DL 是什么?反向傳播算法是什么?持續學習在 LLM中有哪些進展?反向傳播算法會解鎖新的訓練范式嗎?...
02 從卷文本到卷多模態:國內的大模型公司都在忙什么?
MLLM 和 LMM 兩種不同思路,哪種更有可能實現多模態交互?未來的通用智能是否一定是多模態智能?在多模態的競爭中,AI 大模型創企、科技大廠、多模態大模型服務廠商推出的產品表現如何?在布局上,有哪些異同?為什么說雖然產品數據表現亮眼,但距離實現 PMF 還仍有很長的一段路要走?...
03 Scaling 范式變了?Self-Play 還值得 All In 嗎?
OpenAI 的 o1 模型有質的突破嗎?Scaling Law 的范式要變了嗎?Self-Play 在新范式中重要嗎?傳統 Self-Play 技術發展如何?Self-Play+LLM 已經能訓出更強的模型了嗎?...
04 Machine Psychology,解構 LLM 還是心理學更靠譜嗎?
什么是 Machine Psychology?為什么要做 Machine Psychology?做 Machine Psychology 有哪些路線?哪些心理學理論可以用于 LLMs 研究?Machine Psychology 要如何應用?Machine Psychology 下一步要怎么走?...
更多往期專題解讀內容,關注「機器之心PRO會員」服務號,點擊菜單欄「收件箱」查看。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.