99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌發76頁智能體白皮書!你的「AI替身」已上線

0
分享至


新智元報道

編輯:英智

【新智元導讀】谷歌最新發布的76頁AI智能體白皮書,深入剖析了智能體的應用前景。智能體通過感知環境、調用工具和自主規劃,能夠完成復雜任務并做出高級決策。從智能體運維(AgentOps)到多智能體協作,這份白皮書為AI智能體指明了方向。

近日,谷歌發表了76頁的AI智能體白皮書!

智能體通過感知環境,并利用工具策略性地采取行動,實現特定目標。

其核心原理,是將推理能力、邏輯思維以及獲取外部信息的能力融合,完成一些基礎模型難以實現的任務,做出更復雜的決策。

這些智能體具備自主運行的能力,它們可以追尋目標,主動規劃后續行動,無需明確指令就能行動。


參考鏈接:https://www.kaggle.com/whitepaper-agent-companion

白皮書深入探討了智能體的評估方法,介紹了谷歌智能體產品在實際應用中的情況。

參與過生成式AI開發的人都知道,從一個創意發展到概念驗證階段并不難,但想保證最終成果的高質量,并將其投入實際生產,就沒那么簡單了。

在將智能體部署到生產環境時,質量和可靠性是最大的問題,智能體運維(AgentOps)流程是優化智能體構建過程的有效方案。

智能體運維

過去兩年,生成式AI(GenAI)發生了巨大變革,企業客戶越來越關注如何將解決方案真正應用到實際業務中。

智能體與運維(AgentOps)屬于生成式AI運維的一個分支,重點關注如何讓智能體更高效地運行。

AgentOps新增了一些關鍵組件,包括對內部和外部工具的管理、智能體核心提示(像目標、配置文件、操作指令)的設置與編排、記憶功能的實現,任務分解等。

開發運維(DevOps)是整個技術運營體系的基石。

模型應用開發在一定程度上繼承了DevOps的理念和方法,機器學習運維(MLOps)則是在DevOps的基礎上,針對模型的特點發展而來的。


運維離不開版本控制、通過持續集成 / 持續交付(CI/CD)實現的自動化部署、測試、日志記錄、安全保障,以及指標衡量等能力。

每個系統通常會根據指標進行優化,衡量系統的工作情況、評估結果和業務指標,然后通過自動化流程獲取更全面的指標,一步步提升系統性能。

不管叫「A/B測試」「機器學習運維」,還是「指標驅動開發」,本質上都基于相同的理念,AgentOps中也會遵循這些原則。


需要注意的是,新的技術實踐并不會完全取代舊的。

DevOps和MLOps中的優秀實踐經驗,對于AgentOps來說依然不可或缺,它們是AgentOps順利運行的基礎。

比如,智能體調用工具時會涉及API,而這個過程中用到的API,和非智能體軟件使用的API是一樣的。

智能體成功指標

大多數智能體都是圍繞完成特定目標設計的,目標完成率是一個關鍵指標。

一個大目標往往可以細分成幾個關鍵任務,或者涉及一些關鍵的用戶交互環節。這些關鍵任務和交互都應單獨監測和評估。

每個業務指標、目標,或者關鍵交互數據,都會按照常見的方式進行匯總統計,比如計算嘗試次數、成功次數、成功率等。

另外,從應用程序遙測系統獲取的指標,像延遲、錯誤率等,對智能體也非常重要。

監測這些高級指標,是了解智能體運行狀況的重要手段。


用戶反饋也是一個不可忽視的指標。

在智能體或任務執行的過程中,一個簡單的反饋表,就能幫助了解智能體哪些地方表現得好,哪些地方還需要改進。

這些反饋可能來自普通用戶,也可能是企業員工、質量檢測人員,或者是相關領域的專家。

智能體評估

想把概念驗證階段的智能體,變成可以真正投入生產使用的產品,一個強大的自動化評估框架必不可少。

評估智能體能力

在評估特定的智能體應用場景之前,可以先參考一些公開的基準測試和技術報告。

對很多基本能力,像模型性能、是否會產生幻覺、工具調用和規劃能力等,都有公開的基準測試。

例如,伯克利函數調用排行榜(BFCL)和τ-bench等基準測試,就能展示智能體的工具調用能力。

PlanBench基準測試,則專注于評估多個領域的規劃和推理能力。

工具調用和規劃只是智能體能力的一部分。智能體行為,會受到它所使用的LLM和其他組件的影響。

智能體和用戶的交互方式,在傳統的對話設計系統和工作流系統中也有跡可循,可以借鑒這些系統的評估指標和方法,來衡量智能體的表現。

AgentBench這樣的綜合智能體基準測試,會在多種場景下對智能體進行全面評估,測試從輸入到輸出的整體性能。


現在,很多公司和組織針對特定的應用場景,設立了專門的公開基準測試,如Adyen的數據分析排行榜DBAStep。

大多數基準測試報告中,都會討論智能體常見的失敗模式,這能為建立適合應用場景的評估框架提供思路。

除了參考公開評估,還要在各種不同的場景中測試智能體的行為。

可以模擬用戶和智能體的交互過程,觀察它的回應,不僅要評估最終給出的答案,還要關注它得出答案的過程,也就是行動軌跡。

軟件工程師可以把智能體評估和代碼的自動化測試聯系起來。在代碼測試中,自動化測試能節省時間,還能讓開發者對軟件質量更有信心。

對于智能體來說,自動化評估同樣如此。

精心準備評估數據集非常重要,它要能準確反映智能體在實際應用中會遇到的情況,這點甚至比軟件測試中的數據集準備還要關鍵。

評估行動軌跡和工具使用

智能體在回復用戶之前,通常會執行一系列操作。

比如,它可能會對比用戶輸入和會話歷史,消除某個術語的歧義;也可能查找政策文檔、搜索知識庫,或者調用API來保存票據。

這些操作中的每一個,都是其達成目標路徑上的一個步驟,也被稱為行動軌跡。

每次智能體執行任務時,都存在這樣一條行動軌跡。


對開發者來說,對比智能體實際采取的行動軌跡和預期的行動軌跡,非常有助于發現問題。

通過對比,能夠找出錯誤或效率低下的環節,提升智能體的性能。

不過,并非所有指標都適用于每種情況。

有些應用場景要求智能體必須嚴格按理想的行動軌跡執行,而有些場景則允許一定的靈活性和偏差。

這種評估方法也存在明顯的局限性,那就是需要有一個參考行動軌跡作為對比依據。

評估最終響應

最終響應評估,其實核心是:智能體有沒有實現既定目標?

可以根據自身的需求,制定自定義的成功標準來衡量這一點。

比如,評估一個零售聊天機器人能否準確回答產品相關問題;或者判斷一個研究智能體,能不能用恰當的語氣和風格,有效地總結研究成果。

為了實現評估過程的自動化,可以使用自動評分器。自動評分器本質上是一個LLM,它扮演著評判者的角色。

給定輸入提示和智能體生成的響應后,自動評分器會依據用戶預先設定的一組標準,對響應進行評估,以此模擬人類的評估過程。

不過要注意,由于這種評估可能沒有絕對的事實依據作為參照,精確地定義評估標準就顯得尤為關鍵。

人機協同評估

人機協同評估在一些需要主觀判斷、創造性解決問題的任務中,有很大的價值。

同時,它還能用來校準和檢驗自動化評估方法,看其是否真的有效,是否符合預期。

人機協同評估主要有以下優點:

  • 主觀性:人類能夠評估一些難以量化的特質,像創造力、常識以及一些細微的差別,這些是機器較難把握的。

  • 情境理解:人類評估者可以從更廣泛的角度,考慮智能體行動的背景以及產生的影響,做出更全面的判斷。

  • 迭代改進:人類給出的反饋,能為優化智能體的行為和學習過程,提供非常有價值的見解,助力智能體不斷優化。

  • 評估評估者:人類反饋還能為校準和優化自動評分器提供參考,讓自動評分器的評估更加準確。

多模態生成(如圖像、音頻、視頻)的評估,則更為復雜,需要專門的評估方法和指標。

多智能體及其評估

如今,AI系統正朝著多智能體架構方向發生變革。

在這種架構中,多個具有專業能力的智能體相互協作,共同完成復雜的目標。

多智能體系統就好比是一個由專家組成的團隊,各自在擅長的領域發揮專長。

每個智能體都是一個獨立的個體,它們可能使用不同的LLM,承擔獨特的角色,并且有著不同的任務背景。

這些智能體通過相互溝通、協作,來實現共同的目標。

這和傳統的單智能體系統有很大區別,在單智能體系統中,所有任務都由一個LLM來處理。

理解多智能體架構

多智能體架構會把一個復雜問題拆解成不同的任務,交給專門的智能體去處理。

每個智能體都有明確的角色,它們之間動態互動,以此優化決策過程、提升知識檢索效率、確保任務順利執行。

這種架構實現了更有條理的推理方式、去中心化的問題解決模式,以及可擴展的任務自動化處理。

多智能體系統運用了模塊化、協作和分層的設計原則,構建出一個強大的AI生態系統。

智能體可以根據功能分為不同類型,例如:

  • 規劃智能體:負責將高層次的目標拆解成一個個結構化的子任務,為后續工作制定詳細計劃。

  • 檢索智能體:通過動態地從外部獲取相關數據,優化知識獲取過程,為其他智能體提供信息支持。

  • 執行智能體:承擔具體的計算工作,生成響應內容,或者與 API 進行交互,實現各種實際操作。

  • 評估智能體:對其他智能體生成的響應進行監控和驗證,確保符合任務目標,并且邏輯連貫、準確無誤。

通過這些組件的協同工作,多智能體架構不再局限于簡單的基于提示的交互方式,實現了自適應、可解釋且高效的AI驅動工作流程。

多智能體評估

多智能體系統評估是在單智能體系統評估的基礎上發展而來的。

智能體的成功指標在本質上并沒有改變,業務指標依然是核心關注點,其中包括目標和關鍵任務的完成情況,以及應用程序遙測指標,如延遲和錯誤率等。

通過對多智能體系統運行過程的跟蹤記錄,有助于在復雜的交互過程中發現問題、調試系統。

評估行動軌跡和評估最終響應這兩種方法,同樣適用于多智能體系統。

在多智能體系統中,一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。


即便多個智能體共同協作完成一個任務,最終呈現給用戶的是一個單一的答案,這個答案可以單獨進行評估。

由于多智能體系統的任務流程通常更為復雜,步驟更多,所以可以深入到每個步驟進行細致評估。行動軌跡評估是一種可行的、可擴展的評估方法。

智能體增強檢索生成

在智能體增強檢索生成(Agentic RAG)中,智能體會通過多次搜索來獲取所需信息。

在醫療保健領域,智能體增強檢索生成可以幫助醫生瀏覽復雜的醫學數據庫、研究論文和患者記錄,為他們提供全面、準確的信息。


Vertex AI Search是一個完全托管的、具有谷歌品質的搜索與檢索增強生成(RAG)服務提供商。涵蓋數據收集、處理、嵌入、索引 / 排序、生成、驗證和服務等流程。


Vertex AI Search擁有布局解析器、向量排序API等組件,還提供RAG引擎,通過Python SDK進行編排,支持眾多其他組件。

對于希望構建自己搜索引擎的開發者,上述每個組件都作為獨立的API開放,RAG引擎能借助類似LlamaIndex的Python接口輕松編排整個流程。

企業中的智能體

企業開發并使用智能體,協助員工執行特定任務,或在后臺自動化運行。

商業分析師借助AI生成的見解,能輕松挖掘行業趨勢,制作極具說服力的數據驅動型演示文稿;人力資源團隊可利用智能體優化員工入職流程。

軟件工程師依靠智能體,能主動發現并修復漏洞,更高效地進行開發迭代,加快部署進程。

營銷人員利用智能體,能深入分析營銷效果,優化內容推薦,靈活調整營銷活動以提升業績。

目前,有兩類智能體嶄露頭角:

助手型智能體:這類智能體與用戶進行交互,接收任務并執行,然后將結果反饋給用戶。

助手型智能體既可以是通用的,也可以專門針對特定領域或任務。

例如,幫助安排會議、分析數據、編寫代碼、撰寫營銷文稿、協助銷售人員把握銷售機會的智能體,甚至還有根據用戶要求對特定主題進行深入研究的智能體。

它們響應方式不同,有些能快速同步返回信息或完成任務,有些則需要較長時間運行(比如深度研究型智能體)。

自動化智能體:這類智能體在后臺運行,監聽事件,監測系統或數據的變化,然后做出合理決策并采取行動。

這些行動包括操作后端系統、進行測試驗證、解決問題、通知相關員工等。

如今,知識工作者不再只是簡單地調用智能體執行任務并等待結果,他們正逐漸轉型為智能體的管理者。

為了便于管理,未來會出現新型用戶界面,實現對多智能體系統的編排、監控和管理,這些智能體既能執行任務,還能調用甚至創建其他智能體。

NotebookLM企業版

NotebookLM是一款研究和學習工具,旨在簡化復雜信息的理解與整合流程。

用戶可以上傳各種源材料,如文檔、筆記和其他相關文件,NotebookLM借助AI技術,助力用戶更深入地理解這些內容。

想象一下,在研究復雜主題時,NotebookLM能把零散的資料整合到一個有序的工作空間。

本質上,NotebookLM就像一個專屬研究助手,加速研究進程,幫助用戶從單純的信息收集邁向深度理解。

NotebookLM企業版將這些功能引入企業環境,簡化員工的數據交互方式,幫他們從中獲取有價值的見解。


例如,AI生成的音頻摘要功能,用戶可以通過「聽」研究內容來提升理解效率,促進知識吸收。

NotebookLM企業版融入了企業級的安全和隱私功能,嚴格保護敏感的公司數據,符合相關政策要求。

Agentspace空間企業版

Google Agentspace提供了一套由AI驅動的工具,旨在通過方便員工獲取信息,自動化復雜的智能體工作流程,提升企業生產力。

Agentspace有效解決了傳統知識管理系統的固有缺陷,通過整合分散的內容源,生成有依據且個性化的回復、簡化業務流程,幫助員工高效獲取信息。

Agentspace企業版的架構基于多個核心原則構建。

安全性始終是Google Agentspace的首要關注點。

員工可以通過它獲取復雜問題的答案,還能統一訪問各類信息源,無論是文檔、郵件等非結構化數據,還是表格等結構化數據。

企業可根據自身需求配置一系列智能體,用于深度研究、創意生成與優化、數據分析等工作。


智能體空間企業版還支持創建定制化的AI智能體,滿足特定業務需求。

該平臺能夠開發和部署具有上下文感知能力的智能體,幫助營銷、財務、法律、工程等各部門員工高效開展研究、快速生成內容,并實現重復性任務(包括多步驟工作流程)的自動化。

定制智能體可連接內外部系統和數據,貼合公司業務領域和政策要求,甚至能基于專有業務數據訓練模型。

多智能體架構實際應用

為了說明多智能體概念在實際中的應用,來看一個專為汽車設計的綜合多智能體系統。


在這個系統中,多個專用智能體協同工作,為用戶帶來便捷、流暢的車內體驗。

  • 對話式導航智能體:專門用于幫助用戶查找位置、推薦地點,并借助Google Places和Maps等API進行導航。

  • 對話式媒體搜索智能體:專注于幫用戶查找和播放音樂、有聲讀物和播客。

  • 消息撰寫智能體:幫助用戶在駕駛時起草、總結和發送消息或電子郵件。

  • 汽車手冊智能體:借助檢索增強生成(RAG)系統,專門解答與汽車相關的問題。

  • 通用知識智能體:解答關于世界、歷史、科學、文化及其他通用主題的事實性問題。

多智能體系統將復雜任務拆解為多個專業子任務。

在這種架構下,每個智能體專注于特定領域。這種專業化使整個系統更加高效。

導航智能體專注于定位和路線規劃;媒體搜索智能體精通音樂和播客資源查找;汽車手冊智能體擅長解決車輛相關問題。

系統會根據任務難度分配資源,簡單任務用低配置資源,復雜任務再調用高性能資源。


關鍵功能(如調節溫度、開窗等)由設備端智能體快速響應,而像餐廳推薦這類非緊急任務則交給云端智能體。

這種設計還具備天然的容錯能力。網絡連接中斷時,設備端智能體仍能保證基本功能正常運行,比如溫度控制和基本媒體播放不受影響,只是暫時無法獲取餐廳推薦。

參考資料:

https://x.com/aaditsh/status/1919383594533072974

https://www.kaggle.com/whitepaper-agent-companion

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又見“吃飯砸鍋”?演員李凱馨陷“辱華”爭議,網友心疼成毅受牽連

又見“吃飯砸鍋”?演員李凱馨陷“辱華”爭議,網友心疼成毅受牽連

新民周刊
2025-05-11 16:09:34
黃金在不久的未來,或許就會漲到普通人無法想象的高度。

黃金在不久的未來,或許就會漲到普通人無法想象的高度。

流蘇晚晴
2025-05-11 21:29:47
iPhone 16 Pro史詩級降價,買早的人虧到姥姥家!

iPhone 16 Pro史詩級降價,買早的人虧到姥姥家!

玩機小子
2025-05-11 21:58:18
把觀眾當傻子?又丑又沒演技,這一次,沒有人會為她的作品買單

把觀眾當傻子?又丑又沒演技,這一次,沒有人會為她的作品買單

近史閣
2025-04-19 17:31:13
川普出訪沙特在即傳美國將承認巴勒斯坦國

川普出訪沙特在即傳美國將承認巴勒斯坦國

魚莫語
2025-05-10 23:52:53
上下游老新河堤被指高度不同現“豁口”,洪水沖垮村民祖屋;當地回應:是百年不遇天災

上下游老新河堤被指高度不同現“豁口”,洪水沖垮村民祖屋;當地回應:是百年不遇天災

大風新聞
2025-05-11 19:06:59
我回家鄉任副省長,參加同學聚會,卻被班花的處長丈夫嘲笑

我回家鄉任副省長,參加同學聚會,卻被班花的處長丈夫嘲笑

小月故事
2025-05-08 16:55:49
追逐杜蘭特只是幌子?專家:火箭看中25+4+7巨星!一特質適配陣容

追逐杜蘭特只是幌子?專家:火箭看中25+4+7巨星!一特質適配陣容

熊哥愛籃球
2025-05-11 18:07:49
2026年,2027 年,2028 年,未來三年,一定牢記這八大忠告!

2026年,2027 年,2028 年,未來三年,一定牢記這八大忠告!

石辰搞笑日常
2025-05-09 05:56:38
太尷尬!婚禮馬上開始,婚慶公司把臺子拆了,起因竟與新郎有關…

太尷尬!婚禮馬上開始,婚慶公司把臺子拆了,起因竟與新郎有關…

火山詩話
2025-05-12 05:53:20
外媒:普京提議重啟俄烏直接談判后,特朗普就俄烏沖突作出表態

外媒:普京提議重啟俄烏直接談判后,特朗普就俄烏沖突作出表態

環球網資訊
2025-05-11 13:16:27
中標價75萬元設備網上售價不到300元涉事高校通報

中標價75萬元設備網上售價不到300元涉事高校通報

每日經濟新聞
2025-05-11 19:50:36
菲律賓今日舉行中期選舉,杜特爾特和馬科斯政治家族挑戰重重

菲律賓今日舉行中期選舉,杜特爾特和馬科斯政治家族挑戰重重

環球網資訊
2025-05-12 05:54:21
生于1991年,曹威已任正處級新職

生于1991年,曹威已任正處級新職

新京報政事兒
2025-05-11 11:52:54
47歲陳思誠與小21歲女友威尼斯約會,評論區卻都在夸佟麗婭!

47歲陳思誠與小21歲女友威尼斯約會,評論區卻都在夸佟麗婭!

未曾青梅
2025-05-11 17:07:28
央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
罪惡由她們用肉體承擔!如此骯臟之事,曾被歐洲人看得無比高尚

罪惡由她們用肉體承擔!如此骯臟之事,曾被歐洲人看得無比高尚

審度
2025-05-11 12:03:35
李蘭錚:這4種食物是“催屎之王”,腸道通順了,吃飯香,身體棒

李蘭錚:這4種食物是“催屎之王”,腸道通順了,吃飯香,身體棒

蠟筆小小子
2025-05-11 16:54:27
iPhone17Pro最新曝光,后悔iPhone16Pro買早了

iPhone17Pro最新曝光,后悔iPhone16Pro買早了

搞機小帝
2025-05-10 00:09:29
入夏后,不建議買的4種蔬菜,沒營養,還傷身,菜販自己都不吃!

入夏后,不建議買的4種蔬菜,沒營養,還傷身,菜販自己都不吃!

簡食記工作號
2025-05-11 00:04:48
2025-05-12 06:44:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12682文章數 66033關注度
往期回顧 全部

科技要聞

首款折疊屏iPhone,有新消息!

頭條要聞

何立峰出席新聞發布會表示 中美達成重要共識 會談取得實質性進展

頭條要聞

何立峰出席新聞發布會表示 中美達成重要共識 會談取得實質性進展

體育要聞

分手7年之后,漢堡終于原諒了德甲

娛樂要聞

劉美含翻車背后:不要做“閑魚”人設

財經要聞

重慶一家人把755億巨債留給了股民

汽車要聞

空間表現是優勢 極狐T1將于5月底正式亮相發布

態度原創

游戲
時尚
手機
旅游
數碼

夢幻西游歐皇斬獲三傷害玉魄,綠色的馴龍鎧甲更有韻味?

劉詩詩和旗袍100%的適配度

手機要聞

榮耀Magic8系列再次被確認:大小直屏設計,且主攝與潛望均升級

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

業內人士:華為原有電腦用戶完全不受鴻蒙電腦戰略影響

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韶山市| 南江县| 长寿区| 灵武市| 独山县| 印江| 扶绥县| 都兰县| 亳州市| 泽库县| 安义县| 贵州省| 东莞市| 巧家县| 台南市| 化隆| 绍兴市| 额济纳旗| 密山市| 临泉县| 福安市| 桐乡市| 锡林浩特市| 高州市| 郯城县| 宜黄县| 卢湾区| 方山县| 平定县| 西和县| 绥江县| 湖南省| 南通市| 桐梓县| 含山县| 于田县| 贞丰县| 宜宾县| 凤冈县| 南漳县| 准格尔旗|