新智元報道
編輯:英智
【新智元導讀】谷歌最新發布的76頁AI智能體白皮書,深入剖析了智能體的應用前景。智能體通過感知環境、調用工具和自主規劃,能夠完成復雜任務并做出高級決策。從智能體運維(AgentOps)到多智能體協作,這份白皮書為AI智能體指明了方向。
近日,谷歌發表了76頁的AI智能體白皮書!
智能體通過感知環境,并利用工具策略性地采取行動,實現特定目標。
其核心原理,是將推理能力、邏輯思維以及獲取外部信息的能力融合,完成一些基礎模型難以實現的任務,做出更復雜的決策。
這些智能體具備自主運行的能力,它們可以追尋目標,主動規劃后續行動,無需明確指令就能行動。
參考鏈接:https://www.kaggle.com/whitepaper-agent-companion
白皮書深入探討了智能體的評估方法,介紹了谷歌智能體產品在實際應用中的情況。
參與過生成式AI開發的人都知道,從一個創意發展到概念驗證階段并不難,但想保證最終成果的高質量,并將其投入實際生產,就沒那么簡單了。
在將智能體部署到生產環境時,質量和可靠性是最大的問題,智能體運維(AgentOps)流程是優化智能體構建過程的有效方案。
智能體運維
過去兩年,生成式AI(GenAI)發生了巨大變革,企業客戶越來越關注如何將解決方案真正應用到實際業務中。
智能體與運維(AgentOps)屬于生成式AI運維的一個分支,重點關注如何讓智能體更高效地運行。
AgentOps新增了一些關鍵組件,包括對內部和外部工具的管理、智能體核心提示(像目標、配置文件、操作指令)的設置與編排、記憶功能的實現,任務分解等。
開發運維(DevOps)是整個技術運營體系的基石。
模型應用開發在一定程度上繼承了DevOps的理念和方法,機器學習運維(MLOps)則是在DevOps的基礎上,針對模型的特點發展而來的。
運維離不開版本控制、通過持續集成 / 持續交付(CI/CD)實現的自動化部署、測試、日志記錄、安全保障,以及指標衡量等能力。
每個系統通常會根據指標進行優化,衡量系統的工作情況、評估結果和業務指標,然后通過自動化流程獲取更全面的指標,一步步提升系統性能。
不管叫「A/B測試」「機器學習運維」,還是「指標驅動開發」,本質上都基于相同的理念,AgentOps中也會遵循這些原則。
需要注意的是,新的技術實踐并不會完全取代舊的。
DevOps和MLOps中的優秀實踐經驗,對于AgentOps來說依然不可或缺,它們是AgentOps順利運行的基礎。
比如,智能體調用工具時會涉及API,而這個過程中用到的API,和非智能體軟件使用的API是一樣的。
智能體成功指標
大多數智能體都是圍繞完成特定目標設計的,目標完成率是一個關鍵指標。
一個大目標往往可以細分成幾個關鍵任務,或者涉及一些關鍵的用戶交互環節。這些關鍵任務和交互都應單獨監測和評估。
每個業務指標、目標,或者關鍵交互數據,都會按照常見的方式進行匯總統計,比如計算嘗試次數、成功次數、成功率等。
另外,從應用程序遙測系統獲取的指標,像延遲、錯誤率等,對智能體也非常重要。
監測這些高級指標,是了解智能體運行狀況的重要手段。
用戶反饋也是一個不可忽視的指標。
在智能體或任務執行的過程中,一個簡單的反饋表,就能幫助了解智能體哪些地方表現得好,哪些地方還需要改進。
這些反饋可能來自普通用戶,也可能是企業員工、質量檢測人員,或者是相關領域的專家。
智能體評估
想把概念驗證階段的智能體,變成可以真正投入生產使用的產品,一個強大的自動化評估框架必不可少。
評估智能體能力
在評估特定的智能體應用場景之前,可以先參考一些公開的基準測試和技術報告。
對很多基本能力,像模型性能、是否會產生幻覺、工具調用和規劃能力等,都有公開的基準測試。
例如,伯克利函數調用排行榜(BFCL)和τ-bench等基準測試,就能展示智能體的工具調用能力。
PlanBench基準測試,則專注于評估多個領域的規劃和推理能力。
工具調用和規劃只是智能體能力的一部分。智能體行為,會受到它所使用的LLM和其他組件的影響。
智能體和用戶的交互方式,在傳統的對話設計系統和工作流系統中也有跡可循,可以借鑒這些系統的評估指標和方法,來衡量智能體的表現。
AgentBench這樣的綜合智能體基準測試,會在多種場景下對智能體進行全面評估,測試從輸入到輸出的整體性能。
現在,很多公司和組織針對特定的應用場景,設立了專門的公開基準測試,如Adyen的數據分析排行榜DBAStep。
大多數基準測試報告中,都會討論智能體常見的失敗模式,這能為建立適合應用場景的評估框架提供思路。
除了參考公開評估,還要在各種不同的場景中測試智能體的行為。
可以模擬用戶和智能體的交互過程,觀察它的回應,不僅要評估最終給出的答案,還要關注它得出答案的過程,也就是行動軌跡。
軟件工程師可以把智能體評估和代碼的自動化測試聯系起來。在代碼測試中,自動化測試能節省時間,還能讓開發者對軟件質量更有信心。
對于智能體來說,自動化評估同樣如此。
精心準備評估數據集非常重要,它要能準確反映智能體在實際應用中會遇到的情況,這點甚至比軟件測試中的數據集準備還要關鍵。
評估行動軌跡和工具使用
智能體在回復用戶之前,通常會執行一系列操作。
比如,它可能會對比用戶輸入和會話歷史,消除某個術語的歧義;也可能查找政策文檔、搜索知識庫,或者調用API來保存票據。
這些操作中的每一個,都是其達成目標路徑上的一個步驟,也被稱為行動軌跡。
每次智能體執行任務時,都存在這樣一條行動軌跡。
對開發者來說,對比智能體實際采取的行動軌跡和預期的行動軌跡,非常有助于發現問題。
通過對比,能夠找出錯誤或效率低下的環節,提升智能體的性能。
不過,并非所有指標都適用于每種情況。
有些應用場景要求智能體必須嚴格按理想的行動軌跡執行,而有些場景則允許一定的靈活性和偏差。
這種評估方法也存在明顯的局限性,那就是需要有一個參考行動軌跡作為對比依據。
評估最終響應
最終響應評估,其實核心是:智能體有沒有實現既定目標?
可以根據自身的需求,制定自定義的成功標準來衡量這一點。
比如,評估一個零售聊天機器人能否準確回答產品相關問題;或者判斷一個研究智能體,能不能用恰當的語氣和風格,有效地總結研究成果。
為了實現評估過程的自動化,可以使用自動評分器。自動評分器本質上是一個LLM,它扮演著評判者的角色。
給定輸入提示和智能體生成的響應后,自動評分器會依據用戶預先設定的一組標準,對響應進行評估,以此模擬人類的評估過程。
不過要注意,由于這種評估可能沒有絕對的事實依據作為參照,精確地定義評估標準就顯得尤為關鍵。
人機協同評估
人機協同評估在一些需要主觀判斷、創造性解決問題的任務中,有很大的價值。
同時,它還能用來校準和檢驗自動化評估方法,看其是否真的有效,是否符合預期。
人機協同評估主要有以下優點:
主觀性:人類能夠評估一些難以量化的特質,像創造力、常識以及一些細微的差別,這些是機器較難把握的。
情境理解:人類評估者可以從更廣泛的角度,考慮智能體行動的背景以及產生的影響,做出更全面的判斷。
迭代改進:人類給出的反饋,能為優化智能體的行為和學習過程,提供非常有價值的見解,助力智能體不斷優化。
評估評估者:人類反饋還能為校準和優化自動評分器提供參考,讓自動評分器的評估更加準確。
多模態生成(如圖像、音頻、視頻)的評估,則更為復雜,需要專門的評估方法和指標。
多智能體及其評估
如今,AI系統正朝著多智能體架構方向發生變革。
在這種架構中,多個具有專業能力的智能體相互協作,共同完成復雜的目標。
多智能體系統就好比是一個由專家組成的團隊,各自在擅長的領域發揮專長。
每個智能體都是一個獨立的個體,它們可能使用不同的LLM,承擔獨特的角色,并且有著不同的任務背景。
這些智能體通過相互溝通、協作,來實現共同的目標。
這和傳統的單智能體系統有很大區別,在單智能體系統中,所有任務都由一個LLM來處理。
理解多智能體架構
多智能體架構會把一個復雜問題拆解成不同的任務,交給專門的智能體去處理。
每個智能體都有明確的角色,它們之間動態互動,以此優化決策過程、提升知識檢索效率、確保任務順利執行。
這種架構實現了更有條理的推理方式、去中心化的問題解決模式,以及可擴展的任務自動化處理。
多智能體系統運用了模塊化、協作和分層的設計原則,構建出一個強大的AI生態系統。
智能體可以根據功能分為不同類型,例如:
規劃智能體:負責將高層次的目標拆解成一個個結構化的子任務,為后續工作制定詳細計劃。
檢索智能體:通過動態地從外部獲取相關數據,優化知識獲取過程,為其他智能體提供信息支持。
執行智能體:承擔具體的計算工作,生成響應內容,或者與 API 進行交互,實現各種實際操作。
評估智能體:對其他智能體生成的響應進行監控和驗證,確保符合任務目標,并且邏輯連貫、準確無誤。
通過這些組件的協同工作,多智能體架構不再局限于簡單的基于提示的交互方式,實現了自適應、可解釋且高效的AI驅動工作流程。
多智能體評估
多智能體系統評估是在單智能體系統評估的基礎上發展而來的。
智能體的成功指標在本質上并沒有改變,業務指標依然是核心關注點,其中包括目標和關鍵任務的完成情況,以及應用程序遙測指標,如延遲和錯誤率等。
通過對多智能體系統運行過程的跟蹤記錄,有助于在復雜的交互過程中發現問題、調試系統。
評估行動軌跡和評估最終響應這兩種方法,同樣適用于多智能體系統。
在多智能體系統中,一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。
即便多個智能體共同協作完成一個任務,最終呈現給用戶的是一個單一的答案,這個答案可以單獨進行評估。
由于多智能體系統的任務流程通常更為復雜,步驟更多,所以可以深入到每個步驟進行細致評估。行動軌跡評估是一種可行的、可擴展的評估方法。
智能體增強檢索生成
在智能體增強檢索生成(Agentic RAG)中,智能體會通過多次搜索來獲取所需信息。
在醫療保健領域,智能體增強檢索生成可以幫助醫生瀏覽復雜的醫學數據庫、研究論文和患者記錄,為他們提供全面、準確的信息。
Vertex AI Search是一個完全托管的、具有谷歌品質的搜索與檢索增強生成(RAG)服務提供商。涵蓋數據收集、處理、嵌入、索引 / 排序、生成、驗證和服務等流程。
Vertex AI Search擁有布局解析器、向量排序API等組件,還提供RAG引擎,通過Python SDK進行編排,支持眾多其他組件。
對于希望構建自己搜索引擎的開發者,上述每個組件都作為獨立的API開放,RAG引擎能借助類似LlamaIndex的Python接口輕松編排整個流程。
企業中的智能體
企業開發并使用智能體,協助員工執行特定任務,或在后臺自動化運行。
商業分析師借助AI生成的見解,能輕松挖掘行業趨勢,制作極具說服力的數據驅動型演示文稿;人力資源團隊可利用智能體優化員工入職流程。
軟件工程師依靠智能體,能主動發現并修復漏洞,更高效地進行開發迭代,加快部署進程。
營銷人員利用智能體,能深入分析營銷效果,優化內容推薦,靈活調整營銷活動以提升業績。
目前,有兩類智能體嶄露頭角:
助手型智能體:這類智能體與用戶進行交互,接收任務并執行,然后將結果反饋給用戶。
助手型智能體既可以是通用的,也可以專門針對特定領域或任務。
例如,幫助安排會議、分析數據、編寫代碼、撰寫營銷文稿、協助銷售人員把握銷售機會的智能體,甚至還有根據用戶要求對特定主題進行深入研究的智能體。
它們響應方式不同,有些能快速同步返回信息或完成任務,有些則需要較長時間運行(比如深度研究型智能體)。
自動化智能體:這類智能體在后臺運行,監聽事件,監測系統或數據的變化,然后做出合理決策并采取行動。
這些行動包括操作后端系統、進行測試驗證、解決問題、通知相關員工等。
如今,知識工作者不再只是簡單地調用智能體執行任務并等待結果,他們正逐漸轉型為智能體的管理者。
為了便于管理,未來會出現新型用戶界面,實現對多智能體系統的編排、監控和管理,這些智能體既能執行任務,還能調用甚至創建其他智能體。
NotebookLM企業版
NotebookLM是一款研究和學習工具,旨在簡化復雜信息的理解與整合流程。
用戶可以上傳各種源材料,如文檔、筆記和其他相關文件,NotebookLM借助AI技術,助力用戶更深入地理解這些內容。
想象一下,在研究復雜主題時,NotebookLM能把零散的資料整合到一個有序的工作空間。
本質上,NotebookLM就像一個專屬研究助手,加速研究進程,幫助用戶從單純的信息收集邁向深度理解。
NotebookLM企業版將這些功能引入企業環境,簡化員工的數據交互方式,幫他們從中獲取有價值的見解。
例如,AI生成的音頻摘要功能,用戶可以通過「聽」研究內容來提升理解效率,促進知識吸收。
NotebookLM企業版融入了企業級的安全和隱私功能,嚴格保護敏感的公司數據,符合相關政策要求。
Agentspace空間企業版
Google Agentspace提供了一套由AI驅動的工具,旨在通過方便員工獲取信息,自動化復雜的智能體工作流程,提升企業生產力。
Agentspace有效解決了傳統知識管理系統的固有缺陷,通過整合分散的內容源,生成有依據且個性化的回復、簡化業務流程,幫助員工高效獲取信息。
Agentspace企業版的架構基于多個核心原則構建。
安全性始終是Google Agentspace的首要關注點。
員工可以通過它獲取復雜問題的答案,還能統一訪問各類信息源,無論是文檔、郵件等非結構化數據,還是表格等結構化數據。
企業可根據自身需求配置一系列智能體,用于深度研究、創意生成與優化、數據分析等工作。
智能體空間企業版還支持創建定制化的AI智能體,滿足特定業務需求。
該平臺能夠開發和部署具有上下文感知能力的智能體,幫助營銷、財務、法律、工程等各部門員工高效開展研究、快速生成內容,并實現重復性任務(包括多步驟工作流程)的自動化。
定制智能體可連接內外部系統和數據,貼合公司業務領域和政策要求,甚至能基于專有業務數據訓練模型。
多智能體架構實際應用
為了說明多智能體概念在實際中的應用,來看一個專為汽車設計的綜合多智能體系統。
在這個系統中,多個專用智能體協同工作,為用戶帶來便捷、流暢的車內體驗。
對話式導航智能體:專門用于幫助用戶查找位置、推薦地點,并借助Google Places和Maps等API進行導航。
對話式媒體搜索智能體:專注于幫用戶查找和播放音樂、有聲讀物和播客。
消息撰寫智能體:幫助用戶在駕駛時起草、總結和發送消息或電子郵件。
汽車手冊智能體:借助檢索增強生成(RAG)系統,專門解答與汽車相關的問題。
通用知識智能體:解答關于世界、歷史、科學、文化及其他通用主題的事實性問題。
多智能體系統將復雜任務拆解為多個專業子任務。
在這種架構下,每個智能體專注于特定領域。這種專業化使整個系統更加高效。
導航智能體專注于定位和路線規劃;媒體搜索智能體精通音樂和播客資源查找;汽車手冊智能體擅長解決車輛相關問題。
系統會根據任務難度分配資源,簡單任務用低配置資源,復雜任務再調用高性能資源。
關鍵功能(如調節溫度、開窗等)由設備端智能體快速響應,而像餐廳推薦這類非緊急任務則交給云端智能體。
這種設計還具備天然的容錯能力。網絡連接中斷時,設備端智能體仍能保證基本功能正常運行,比如溫度控制和基本媒體播放不受影響,只是暫時無法獲取餐廳推薦。
參考資料:
https://x.com/aaditsh/status/1919383594533072974
https://www.kaggle.com/whitepaper-agent-companion
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.