網易首頁 > 網易號 > 正文申請入駐

谷歌發76頁智能體白皮書！你的「AI替身」已上線

2025-05-11 12:37:21　來源: 新智元

北京舉報

分享至

新智元報道

編輯：英智

【新智元導讀】谷歌最新發布的76頁AI智能體白皮書，深入剖析了智能體的應用前景。智能體通過感知環境、調用工具和自主規劃，能夠完成復雜任務并做出高級決策。從智能體運維（AgentOps）到多智能體協作，這份白皮書為AI智能體指明了方向。

近日，谷歌發表了76頁的AI智能體白皮書！

智能體通過感知環境，并利用工具策略性地采取行動，實現特定目標。

其核心原理，是將推理能力、邏輯思維以及獲取外部信息的能力融合，完成一些基礎模型難以實現的任務，做出更復雜的決策。

這些智能體具備自主運行的能力，它們可以追尋目標，主動規劃后續行動，無需明確指令就能行動。

參考鏈接：https://www.kaggle.com/whitepaper-agent-companion

白皮書深入探討了智能體的評估方法，介紹了谷歌智能體產品在實際應用中的情況。

參與過生成式AI開發的人都知道，從一個創意發展到概念驗證階段并不難，但想保證最終成果的高質量，并將其投入實際生產，就沒那么簡單了。

在將智能體部署到生產環境時，質量和可靠性是最大的問題，智能體運維（AgentOps）流程是優化智能體構建過程的有效方案。

智能體運維

過去兩年，生成式AI（GenAI）發生了巨大變革，企業客戶越來越關注如何將解決方案真正應用到實際業務中。

智能體與運維（AgentOps）屬于生成式AI運維的一個分支，重點關注如何讓智能體更高效地運行。

AgentOps新增了一些關鍵組件，包括對內部和外部工具的管理、智能體核心提示（像目標、配置文件、操作指令）的設置與編排、記憶功能的實現，任務分解等。

開發運維（DevOps）是整個技術運營體系的基石。

模型應用開發在一定程度上繼承了DevOps的理念和方法，機器學習運維（MLOps）則是在DevOps的基礎上，針對模型的特點發展而來的。

運維離不開版本控制、通過持續集成 / 持續交付（CI/CD）實現的自動化部署、測試、日志記錄、安全保障，以及指標衡量等能力。

每個系統通常會根據指標進行優化，衡量系統的工作情況、評估結果和業務指標，然后通過自動化流程獲取更全面的指標，一步步提升系統性能。

不管叫「A/B測試」「機器學習運維」，還是「指標驅動開發」，本質上都基于相同的理念，AgentOps中也會遵循這些原則。

需要注意的是，新的技術實踐并不會完全取代舊的。

DevOps和MLOps中的優秀實踐經驗，對于AgentOps來說依然不可或缺，它們是AgentOps順利運行的基礎。

比如，智能體調用工具時會涉及API，而這個過程中用到的API，和非智能體軟件使用的API是一樣的。

智能體成功指標

大多數智能體都是圍繞完成特定目標設計的，目標完成率是一個關鍵指標。

一個大目標往往可以細分成幾個關鍵任務，或者涉及一些關鍵的用戶交互環節。這些關鍵任務和交互都應單獨監測和評估。

每個業務指標、目標，或者關鍵交互數據，都會按照常見的方式進行匯總統計，比如計算嘗試次數、成功次數、成功率等。

另外，從應用程序遙測系統獲取的指標，像延遲、錯誤率等，對智能體也非常重要。

監測這些高級指標，是了解智能體運行狀況的重要手段。

用戶反饋也是一個不可忽視的指標。

在智能體或任務執行的過程中，一個簡單的反饋表，就能幫助了解智能體哪些地方表現得好，哪些地方還需要改進。

這些反饋可能來自普通用戶，也可能是企業員工、質量檢測人員，或者是相關領域的專家。

智能體評估

想把概念驗證階段的智能體，變成可以真正投入生產使用的產品，一個強大的自動化評估框架必不可少。

評估智能體能力

在評估特定的智能體應用場景之前，可以先參考一些公開的基準測試和技術報告。

對很多基本能力，像模型性能、是否會產生幻覺、工具調用和規劃能力等，都有公開的基準測試。

例如，伯克利函數調用排行榜（BFCL）和τ-bench等基準測試，就能展示智能體的工具調用能力。

PlanBench基準測試，則專注于評估多個領域的規劃和推理能力。

工具調用和規劃只是智能體能力的一部分。智能體行為，會受到它所使用的LLM和其他組件的影響。

智能體和用戶的交互方式，在傳統的對話設計系統和工作流系統中也有跡可循，可以借鑒這些系統的評估指標和方法，來衡量智能體的表現。

AgentBench這樣的綜合智能體基準測試，會在多種場景下對智能體進行全面評估，測試從輸入到輸出的整體性能。

現在，很多公司和組織針對特定的應用場景，設立了專門的公開基準測試，如Adyen的數據分析排行榜DBAStep。

大多數基準測試報告中，都會討論智能體常見的失敗模式，這能為建立適合應用場景的評估框架提供思路。

除了參考公開評估，還要在各種不同的場景中測試智能體的行為。

可以模擬用戶和智能體的交互過程，觀察它的回應，不僅要評估最終給出的答案，還要關注它得出答案的過程，也就是行動軌跡。

軟件工程師可以把智能體評估和代碼的自動化測試聯系起來。在代碼測試中，自動化測試能節省時間，還能讓開發者對軟件質量更有信心。

對于智能體來說，自動化評估同樣如此。

精心準備評估數據集非常重要，它要能準確反映智能體在實際應用中會遇到的情況，這點甚至比軟件測試中的數據集準備還要關鍵。

評估行動軌跡和工具使用

智能體在回復用戶之前，通常會執行一系列操作。

比如，它可能會對比用戶輸入和會話歷史，消除某個術語的歧義；也可能查找政策文檔、搜索知識庫，或者調用API來保存票據。

這些操作中的每一個，都是其達成目標路徑上的一個步驟，也被稱為行動軌跡。

每次智能體執行任務時，都存在這樣一條行動軌跡。

對開發者來說，對比智能體實際采取的行動軌跡和預期的行動軌跡，非常有助于發現問題。

通過對比，能夠找出錯誤或效率低下的環節，提升智能體的性能。

不過，并非所有指標都適用于每種情況。

有些應用場景要求智能體必須嚴格按理想的行動軌跡執行，而有些場景則允許一定的靈活性和偏差。

這種評估方法也存在明顯的局限性，那就是需要有一個參考行動軌跡作為對比依據。

評估最終響應

最終響應評估，其實核心是：智能體有沒有實現既定目標？

可以根據自身的需求，制定自定義的成功標準來衡量這一點。

比如，評估一個零售聊天機器人能否準確回答產品相關問題；或者判斷一個研究智能體，能不能用恰當的語氣和風格，有效地總結研究成果。

為了實現評估過程的自動化，可以使用自動評分器。自動評分器本質上是一個LLM，它扮演著評判者的角色。

給定輸入提示和智能體生成的響應后，自動評分器會依據用戶預先設定的一組標準，對響應進行評估，以此模擬人類的評估過程。

不過要注意，由于這種評估可能沒有絕對的事實依據作為參照，精確地定義評估標準就顯得尤為關鍵。

人機協同評估

人機協同評估在一些需要主觀判斷、創造性解決問題的任務中，有很大的價值。

同時，它還能用來校準和檢驗自動化評估方法，看其是否真的有效，是否符合預期。

人機協同評估主要有以下優點：

主觀性：人類能夠評估一些難以量化的特質，像創造力、常識以及一些細微的差別，這些是機器較難把握的。
情境理解：人類評估者可以從更廣泛的角度，考慮智能體行動的背景以及產生的影響，做出更全面的判斷。
迭代改進：人類給出的反饋，能為優化智能體的行為和學習過程，提供非常有價值的見解，助力智能體不斷優化。
評估評估者：人類反饋還能為校準和優化自動評分器提供參考，讓自動評分器的評估更加準確。

多模態生成（如圖像、音頻、視頻）的評估，則更為復雜，需要專門的評估方法和指標。

多智能體及其評估

如今，AI系統正朝著多智能體架構方向發生變革。

在這種架構中，多個具有專業能力的智能體相互協作，共同完成復雜的目標。

多智能體系統就好比是一個由專家組成的團隊，各自在擅長的領域發揮專長。

每個智能體都是一個獨立的個體，它們可能使用不同的LLM，承擔獨特的角色，并且有著不同的任務背景。

這些智能體通過相互溝通、協作，來實現共同的目標。

這和傳統的單智能體系統有很大區別，在單智能體系統中，所有任務都由一個LLM來處理。

理解多智能體架構

多智能體架構會把一個復雜問題拆解成不同的任務，交給專門的智能體去處理。

每個智能體都有明確的角色，它們之間動態互動，以此優化決策過程、提升知識檢索效率、確保任務順利執行。

這種架構實現了更有條理的推理方式、去中心化的問題解決模式，以及可擴展的任務自動化處理。

多智能體系統運用了模塊化、協作和分層的設計原則，構建出一個強大的AI生態系統。

智能體可以根據功能分為不同類型，例如：

規劃智能體：負責將高層次的目標拆解成一個個結構化的子任務，為后續工作制定詳細計劃。
檢索智能體：通過動態地從外部獲取相關數據，優化知識獲取過程，為其他智能體提供信息支持。
執行智能體：承擔具體的計算工作，生成響應內容，或者與 API 進行交互，實現各種實際操作。
評估智能體：對其他智能體生成的響應進行監控和驗證，確保符合任務目標，并且邏輯連貫、準確無誤。

通過這些組件的協同工作，多智能體架構不再局限于簡單的基于提示的交互方式，實現了自適應、可解釋且高效的AI驅動工作流程。

多智能體評估

多智能體系統評估是在單智能體系統評估的基礎上發展而來的。

智能體的成功指標在本質上并沒有改變，業務指標依然是核心關注點，其中包括目標和關鍵任務的完成情況，以及應用程序遙測指標，如延遲和錯誤率等。

通過對多智能體系統運行過程的跟蹤記錄，有助于在復雜的交互過程中發現問題、調試系統。

評估行動軌跡和評估最終響應這兩種方法，同樣適用于多智能體系統。

在多智能體系統中，一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。

即便多個智能體共同協作完成一個任務，最終呈現給用戶的是一個單一的答案，這個答案可以單獨進行評估。

由于多智能體系統的任務流程通常更為復雜，步驟更多，所以可以深入到每個步驟進行細致評估。行動軌跡評估是一種可行的、可擴展的評估方法。

智能體增強檢索生成

在智能體增強檢索生成（Agentic RAG）中，智能體會通過多次搜索來獲取所需信息。

在醫療保健領域，智能體增強檢索生成可以幫助醫生瀏覽復雜的醫學數據庫、研究論文和患者記錄，為他們提供全面、準確的信息。

Vertex AI Search是一個完全托管的、具有谷歌品質的搜索與檢索增強生成（RAG）服務提供商。涵蓋數據收集、處理、嵌入、索引 / 排序、生成、驗證和服務等流程。

Vertex AI Search擁有布局解析器、向量排序API等組件，還提供RAG引擎，通過Python SDK進行編排，支持眾多其他組件。

對于希望構建自己搜索引擎的開發者，上述每個組件都作為獨立的API開放，RAG引擎能借助類似LlamaIndex的Python接口輕松編排整個流程。

企業中的智能體

企業開發并使用智能體，協助員工執行特定任務，或在后臺自動化運行。

商業分析師借助AI生成的見解，能輕松挖掘行業趨勢，制作極具說服力的數據驅動型演示文稿；人力資源團隊可利用智能體優化員工入職流程。

軟件工程師依靠智能體，能主動發現并修復漏洞，更高效地進行開發迭代，加快部署進程。

營銷人員利用智能體，能深入分析營銷效果，優化內容推薦，靈活調整營銷活動以提升業績。

目前，有兩類智能體嶄露頭角：

助手型智能體：這類智能體與用戶進行交互，接收任務并執行，然后將結果反饋給用戶。

助手型智能體既可以是通用的，也可以專門針對特定領域或任務。

例如，幫助安排會議、分析數據、編寫代碼、撰寫營銷文稿、協助銷售人員把握銷售機會的智能體，甚至還有根據用戶要求對特定主題進行深入研究的智能體。

它們響應方式不同，有些能快速同步返回信息或完成任務，有些則需要較長時間運行（比如深度研究型智能體）。

自動化智能體：這類智能體在后臺運行，監聽事件，監測系統或數據的變化，然后做出合理決策并采取行動。

這些行動包括操作后端系統、進行測試驗證、解決問題、通知相關員工等。

如今，知識工作者不再只是簡單地調用智能體執行任務并等待結果，他們正逐漸轉型為智能體的管理者。

為了便于管理，未來會出現新型用戶界面，實現對多智能體系統的編排、監控和管理，這些智能體既能執行任務，還能調用甚至創建其他智能體。

NotebookLM企業版

NotebookLM是一款研究和學習工具，旨在簡化復雜信息的理解與整合流程。

用戶可以上傳各種源材料，如文檔、筆記和其他相關文件，NotebookLM借助AI技術，助力用戶更深入地理解這些內容。

想象一下，在研究復雜主題時，NotebookLM能把零散的資料整合到一個有序的工作空間。

本質上，NotebookLM就像一個專屬研究助手，加速研究進程，幫助用戶從單純的信息收集邁向深度理解。

NotebookLM企業版將這些功能引入企業環境，簡化員工的數據交互方式，幫他們從中獲取有價值的見解。

例如，AI生成的音頻摘要功能，用戶可以通過「聽」研究內容來提升理解效率，促進知識吸收。

NotebookLM企業版融入了企業級的安全和隱私功能，嚴格保護敏感的公司數據，符合相關政策要求。

Agentspace空間企業版

Google Agentspace提供了一套由AI驅動的工具，旨在通過方便員工獲取信息，自動化復雜的智能體工作流程，提升企業生產力。

Agentspace有效解決了傳統知識管理系統的固有缺陷，通過整合分散的內容源，生成有依據且個性化的回復、簡化業務流程，幫助員工高效獲取信息。

Agentspace企業版的架構基于多個核心原則構建。

安全性始終是Google Agentspace的首要關注點。

員工可以通過它獲取復雜問題的答案，還能統一訪問各類信息源，無論是文檔、郵件等非結構化數據，還是表格等結構化數據。

企業可根據自身需求配置一系列智能體，用于深度研究、創意生成與優化、數據分析等工作。

智能體空間企業版還支持創建定制化的AI智能體，滿足特定業務需求。

該平臺能夠開發和部署具有上下文感知能力的智能體，幫助營銷、財務、法律、工程等各部門員工高效開展研究、快速生成內容，并實現重復性任務（包括多步驟工作流程）的自動化。

定制智能體可連接內外部系統和數據，貼合公司業務領域和政策要求，甚至能基于專有業務數據訓練模型。

多智能體架構實際應用

為了說明多智能體概念在實際中的應用，來看一個專為汽車設計的綜合多智能體系統。

在這個系統中，多個專用智能體協同工作，為用戶帶來便捷、流暢的車內體驗。

對話式導航智能體：專門用于幫助用戶查找位置、推薦地點，并借助Google Places和Maps等API進行導航。
對話式媒體搜索智能體：專注于幫用戶查找和播放音樂、有聲讀物和播客。
消息撰寫智能體：幫助用戶在駕駛時起草、總結和發送消息或電子郵件。
汽車手冊智能體：借助檢索增強生成（RAG）系統，專門解答與汽車相關的問題。
通用知識智能體：解答關于世界、歷史、科學、文化及其他通用主題的事實性問題。

多智能體系統將復雜任務拆解為多個專業子任務。

在這種架構下，每個智能體專注于特定領域。這種專業化使整個系統更加高效。

導航智能體專注于定位和路線規劃；媒體搜索智能體精通音樂和播客資源查找；汽車手冊智能體擅長解決車輛相關問題。

系統會根據任務難度分配資源，簡單任務用低配置資源，復雜任務再調用高性能資源。

關鍵功能（如調節溫度、開窗等）由設備端智能體快速響應，而像餐廳推薦這類非緊急任務則交給云端智能體。

這種設計還具備天然的容錯能力。網絡連接中斷時，設備端智能體仍能保證基本功能正常運行，比如溫度控制和基本媒體播放不受影響，只是暫時無法獲取餐廳推薦。

參考資料：

https://x.com/aaditsh/status/1919383594533072974

https://www.kaggle.com/whitepaper-agent-companion

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

12682文章數 66033關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

手機

旅游

數碼

手機 / 數碼

房產 / 家居

谷歌發76頁智能體白皮書！你的「AI替身」已上線

首款折疊屏iPhone，有新消息！

何立峰出席新聞發布會表示 中美達成重要共識 會談取得實質性進展

何立峰出席新聞發布會表示 中美達成重要共識 會談取得實質性進展

分手7年之后，漢堡終于原諒了德甲

劉美含翻車背后：不要做“閑魚”人設

重慶一家人把755億巨債留給了股民

態度原創

夢幻西游歐皇斬獲三傷害玉魄，綠色的馴龍鎧甲更有韻味？

劉詩詩和旗袍100%的適配度

榮耀Magic8系列再次被確認：大小直屏設計，且主攝與潛望均升級

熱聞|清明假期將至，熱門目的地有哪些?

業內人士：華為原有電腦用戶完全不受鴻蒙電腦戰略影響

何立峰出席新聞發布會表示中美達成重要共識會談取得實質性進展

何立峰出席新聞發布會表示中美達成重要共識會談取得實質性進展