機(jī)器之心報(bào)道
機(jī)器之心編輯部
研究多智能體必讀指南。
「Anthropic 發(fā)布了他們?nèi)绾问褂枚鄠€(gè) Claude AI 智能體構(gòu)建多智能體研究系統(tǒng)的精彩解釋。對(duì)于任何構(gòu)建多智能體系統(tǒng)的人來說,這是一本必讀的指南?!箘倓?,X 知名博主 Rohan Paul 強(qiáng)力推薦了 Anthropic 一項(xiàng)新研究。
最近一段時(shí)間,關(guān)于智能體的研究層出不窮。但這也為廣大研究者帶來一些困惑,比如什么任務(wù)需要多智能體?多個(gè) AI 智能體如何協(xié)作?怎么解決上下文和記憶問題……
面對(duì)這些問題,你不妨讀讀 Anthropic 的這篇文章,或許能找到答案。
文章地址:https://www.anthropic.com/engineering/built-multi-agent-research-system
多智能體系統(tǒng)的優(yōu)勢(shì)
有些研究涉及開放式問題,這類問題往往難以預(yù)先確定所需的步驟。對(duì)于復(fù)雜問題的探索,人類無法硬性規(guī)定固定路徑,因?yàn)檫@一過程本質(zhì)上是動(dòng)態(tài)且具有路徑依賴性的。當(dāng)人們開展研究時(shí),通常會(huì)根據(jù)發(fā)現(xiàn)持續(xù)調(diào)整方法,沿著調(diào)查過程中浮現(xiàn)的線索不斷推進(jìn)。
這種不可預(yù)測(cè)性使得 AI 智能體特別適合執(zhí)行研究類任務(wù)。研究工作要求具備靈活性,能夠在調(diào)查過程中根據(jù)發(fā)展情況進(jìn)行轉(zhuǎn)向或探索相關(guān)聯(lián)的內(nèi)容。模型必須能夠自主進(jìn)行多輪推理,根據(jù)中間發(fā)現(xiàn)決定進(jìn)一步的探索方向。線性的一次性流程無法勝任這樣的任務(wù)。
研究的本質(zhì)是壓縮:從龐大的語料中提煉出有價(jià)值的見解。子智能體通過并行運(yùn)行、各自擁有獨(dú)立的上下文窗口來輔助這一壓縮過程,它們能同時(shí)探索問題的不同方面,然后將最重要的內(nèi)容提煉出來,交給主研究智能體處理。每個(gè)子智能體還承擔(dān)了關(guān)注點(diǎn)分離的作用 —— 它們使用不同的工具、提示詞和探索路徑,從而減少路徑依賴,確保研究過程更為全面且相互獨(dú)立。
一旦智能達(dá)到一定門檻,多智能體系統(tǒng)就成為提升性能的關(guān)鍵方式。例如,盡管在過去的十萬年中,個(gè)體人類的智力有所提升,但正是由于我們?cè)谛畔r(shí)代的集體智能和協(xié)作能力,人類社會(huì)的整體能力才呈指數(shù)級(jí)增長(zhǎng)。即使是具備通用智能的智能體,作為個(gè)體在執(zhí)行任務(wù)時(shí)也存在極限;而多個(gè)智能體協(xié)作,則能完成更多復(fù)雜任務(wù)。
Anthropic 內(nèi)部評(píng)估顯示,多智能體研究系統(tǒng)在「廣度優(yōu)先」的查詢?nèi)蝿?wù)中表現(xiàn)尤為出色,這類任務(wù)通常需要同時(shí)探索多個(gè)相互獨(dú)立的方向。他們發(fā)現(xiàn),在以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體組成的多智能體系統(tǒng)中,表現(xiàn)比單一的 Claude Opus 4 智能體高出 90.2%。
多智能體系統(tǒng)的核心優(yōu)勢(shì)在于能夠通過充分的 token 消耗來解決問題。分析顯示,在 BrowseComp 評(píng)估(該測(cè)試衡量瀏覽型智能體定位高難度信息的能力)中,三個(gè)因素共同解釋了 95% 的性能差異。研究發(fā)現(xiàn):
- token 消耗量單獨(dú)解釋了 80% 的差異;
- 工具調(diào)用次數(shù)和模型選擇構(gòu)成是另外兩個(gè)關(guān)鍵因素。
這一發(fā)現(xiàn)驗(yàn)證了 Anthropic 之前所采用的架構(gòu):通過將任務(wù)分發(fā)給擁有各自上下文窗口的不同智能體,從而為并行推理增加容量。最新的 Claude 模型在 token 使用效率上具有強(qiáng)大的乘數(shù)效應(yīng),例如,將 Claude Sonnet 升級(jí)至 4 版本所帶來的性能提升,甚至超過了將 Claude Sonnet 3.7 的 token 預(yù)算翻倍所帶來的提升。對(duì)于那些超出單一智能體處理極限的任務(wù),多智能體架構(gòu)可以有效擴(kuò)展 token 使用,從而實(shí)現(xiàn)更強(qiáng)的處理能力。
當(dāng)然,這種架構(gòu)也有一個(gè)缺點(diǎn):在實(shí)際應(yīng)用中,它們會(huì)非??焖俚叵?tokens。根據(jù) Anthropic 統(tǒng)計(jì),智能體通常會(huì)使用大約是普通聊天交互 4 倍 的 tokens,而多智能體系統(tǒng)的 token 消耗甚至是聊天的 15 倍左右。
因此,要實(shí)現(xiàn)經(jīng)濟(jì)上的可行性,多智能體系統(tǒng)需要用于那些任務(wù)價(jià)值足夠高、足以覆蓋其性能提升所帶來的成本的場(chǎng)景。此外,一些領(lǐng)域并不適合當(dāng)前的多智能體系統(tǒng),比如那些要求所有智能體共享同一上下文,或智能體之間存在大量依賴關(guān)系的任務(wù)。
例如,大多數(shù)編程任務(wù)中真正可并行化的部分相對(duì)較少,而且當(dāng)前的大語言模型智能體在「實(shí)時(shí)協(xié)調(diào)和分配任務(wù)」方面的能力還不夠強(qiáng)。
因此,多智能體系統(tǒng)最擅長(zhǎng)的場(chǎng)景是那些具有以下特點(diǎn)的高價(jià)值任務(wù):需要大量并行處理、信息量超出單一上下文窗口、以及需要與大量復(fù)雜工具交互的任務(wù)。
架構(gòu)
Anthropic 的研究系統(tǒng)采用多智能體架構(gòu),使用「協(xié)調(diào)者 - 執(zhí)行者(orchestrator-worker)」模式:由一個(gè)主導(dǎo)智能體負(fù)責(zé)整體協(xié)調(diào),同時(shí)將任務(wù)分派給多個(gè)并行運(yùn)行的專業(yè)子智能體。
多智能體架構(gòu)的實(shí)際運(yùn)作方式:用戶的查詢首先通過主導(dǎo)智能體(lead agent),由它創(chuàng)建多個(gè)專業(yè)子智能體,分別并行地搜索查詢的不同方面。
當(dāng)用戶提交查詢后,主導(dǎo)智能體會(huì)對(duì)其進(jìn)行分析,制定策略,并生成子智能體,分別從不同角度同時(shí)展開探索。如上圖所示,這些子智能體通過迭代地使用搜索工具來獲取信息(例如在本例中是關(guān)于 2025 年的 AI 智能體公司),并充當(dāng)「智能過濾器」的角色,最終將公司列表返回給主導(dǎo)智能體,由其整理出最終答案。
傳統(tǒng)的檢索增強(qiáng)生成(RAG)方法采用的是靜態(tài)檢索,即從語料庫(kù)中提取與輸入查詢最相似的一些片段,并用這些片段生成回答。相比之下,Anthropic 提出的架構(gòu)使用的是多步驟的動(dòng)態(tài)搜索流程,能夠根據(jù)中間結(jié)果不斷調(diào)整方向、尋找相關(guān)信息,并進(jìn)行深入分析,從而生成高質(zhì)量的答案。
上圖的工作流程是這樣的。當(dāng)用戶提交一個(gè)查詢時(shí),系統(tǒng)會(huì)創(chuàng)建一個(gè)名為 LeadResearcher 的主導(dǎo)研究智能體,它會(huì)進(jìn)入一個(gè)迭代式的研究過程。LeadResearcher 首先會(huì)思考研究方法,并將其計(jì)劃保存到 Memory(記憶模塊)中,以便持久化上下文信息 —— 因?yàn)橐坏┥舷挛拇翱诔^ 200,000 個(gè) token,內(nèi)容就會(huì)被截?cái)?,而保留研究?jì)劃對(duì)于后續(xù)推理至關(guān)重要。
隨后,LeadResearcher 會(huì)創(chuàng)建多個(gè)專業(yè)子智能體(Subagents)(圖中展示了兩個(gè),實(shí)際上可以是任意數(shù)量),并為每個(gè)子智能體分配具體的研究任務(wù)。每個(gè) Subagent 會(huì)獨(dú)立地進(jìn)行網(wǎng)頁(yè)搜索,使用交替式思維方式評(píng)估工具返回的結(jié)果,并將研究發(fā)現(xiàn)反饋給 LeadResearcher。
LeadResearcher 對(duì)這些結(jié)果進(jìn)行綜合分析,并判斷是否還需要進(jìn)一步研究 —— 如果需要,它可以創(chuàng)建更多的子智能體,或優(yōu)化已有的研究策略。
一旦收集到足夠的信息,系統(tǒng)就會(huì)退出研究循環(huán),并將所有研究發(fā)現(xiàn)交給 CitationAgent(引用標(biāo)注智能體),由它處理所有文檔和研究報(bào)告,識(shí)別出每條論述所對(duì)應(yīng)的具體引用位置,從而確保所有觀點(diǎn)都有明確的來源支撐。
最終,包含完整引用信息的研究成果將被返回給用戶。
研究型智能體的提示詞工程與評(píng)估方法
多智能體系統(tǒng)與單智能體系統(tǒng)之間存在關(guān)鍵差異,其中之一就是協(xié)調(diào)復(fù)雜度會(huì)迅速上升。在早期階段,智能體常常會(huì)出現(xiàn)一些錯(cuò)誤行為,例如:為簡(jiǎn)單的問題生成多達(dá) 50 個(gè)子智能體、在網(wǎng)絡(luò)上無休止地尋找根本不存在的資源,或者彼此頻繁干擾、發(fā)送過多無關(guān)更新。
由于每個(gè)智能體的行為都是由提示詞(prompt)驅(qū)動(dòng)的,因此提示詞工程成為研究者優(yōu)化這些行為的主要手段。以下是 Anthropic 在為智能體設(shè)計(jì)提示詞過程中總結(jié)出的一些原則:
高效的提示詞設(shè)計(jì)。要優(yōu)化提示詞(prompt),就必須理解其實(shí)際影響。為此,Anthropic 通過控制臺(tái)搭建了模擬環(huán)境 —— 完全復(fù)現(xiàn)系統(tǒng)中的提示詞和工具配置,逐步驟觀察智能體的工作過程。這種方法立刻暴露出典型失效模式:冗余執(zhí)行,即已獲得充分結(jié)果后仍繼續(xù)操作;低效查詢,即使用冗長(zhǎng)模糊的搜索指令;以及工具誤用,錯(cuò)誤選擇功能模塊。因而, 高效的提示詞設(shè)計(jì)依賴于你對(duì)智能體行為建立起準(zhǔn)確的心理模型,一旦理解深入,最有效的改進(jìn)方向也會(huì)變得一目了然。
教會(huì)協(xié)調(diào)者如何正確分工。在 Anthropic 所采用的系統(tǒng)中,主導(dǎo)智能體負(fù)責(zé)將用戶的查詢拆解為若干子任務(wù),并將這些任務(wù)分配給子智能體。每個(gè)子智能體都需要明確的目標(biāo)、輸出格式、關(guān)于應(yīng)使用哪些工具和信息來源的指導(dǎo),以及清晰的任務(wù)邊界。如果任務(wù)描述不夠具體,智能體之間就會(huì)出現(xiàn)重復(fù)勞動(dòng)、任務(wù)空缺,或者無法找到所需的信息。
Anthropic 曾經(jīng)歷過一個(gè)深刻的教訓(xùn):他們?cè)缙诓捎谩秆芯啃酒倘薄惯@類籠統(tǒng)指令時(shí), 發(fā)現(xiàn)這類指令往往過于模糊,導(dǎo)致子智能體誤解任務(wù),或者執(zhí)行與其他智能體完全相同的搜索。比如三個(gè)子智能體不約而同地鎖定 2025 年供應(yīng)鏈數(shù)據(jù),其中一個(gè)偏離到 2021 年汽車芯片危機(jī)卻未覆蓋制造端瓶頸,最終報(bào)告重復(fù)率高達(dá) 60% 且缺失晶圓廠產(chǎn)能分析。
根據(jù)查詢復(fù)雜度調(diào)整投入力度。由于智能體在判斷不同任務(wù)所需的適當(dāng)投入時(shí)存在困難,因此 Anthropic 在提示詞中嵌入了分級(jí)投入規(guī)則。簡(jiǎn)單的事實(shí)查找只需要 1 個(gè)智能體調(diào)用 3-10 次工具;直接對(duì)比類任務(wù)可能需要 2-4 個(gè)子智能體,每個(gè)調(diào)用 10-15 次工具;而復(fù)雜的研究任務(wù)則可能使用超過 10 個(gè)子智能體,并且明確劃分各自的職責(zé)。
這些明確的指導(dǎo)原則幫助主導(dǎo)智能體更有效地分配資源,避免在簡(jiǎn)單查詢上投入過多。
工具的設(shè)計(jì)與選擇至關(guān)重要。智能體與工具之間的接口就像人與計(jì)算機(jī)的交互界面一樣重要。使用合適的工具可以顯著提高效率 —— 在很多情況下,這不僅是優(yōu)化手段,更是必要條件。例如,如果一個(gè)智能體試圖通過網(wǎng)頁(yè)搜索來獲取只存在于 Slack 中的上下文信息,那么從一開始它就注定無法成功。
隨著 MCP 服務(wù)器讓模型能夠訪問外部工具,這一問題變得更加復(fù)雜 —— 智能體可能會(huì)遇到從未使用過的工具,而這些工具的描述質(zhì)量又參差不齊。
因此,Anthropic 為智能體設(shè)計(jì)了明確的啟發(fā)式規(guī)則,比如:先查看所有可用工具、將工具的用途與用戶意圖進(jìn)行匹配、使用網(wǎng)頁(yè)搜索進(jìn)行廣泛的信息探索、優(yōu)先選擇專用工具而非通用工具等。
糟糕的工具描述會(huì)導(dǎo)致智能體完全走上錯(cuò)誤的路徑,因此每個(gè)工具都必須具備明確的用途和清晰的描述。
讓智能體自我改進(jìn)。Anthropic 發(fā)現(xiàn) Claude 4 系列模型在提示詞工程方面表現(xiàn)非常出色。當(dāng)提供一個(gè)提示詞和相應(yīng)的失敗模式時(shí),它能夠診斷出智能體失敗的原因,并提出改進(jìn)建議。
Anthropic 甚至構(gòu)建了一個(gè)工具測(cè)試智能體:當(dāng)它接收到一個(gè)存在問題的 MCP 工具時(shí),會(huì)嘗試使用該工具,并隨后重寫其工具描述,以避免類似的失敗發(fā)生。通過對(duì)該工具進(jìn)行數(shù)十次測(cè)試,這個(gè)智能體能發(fā)現(xiàn)關(guān)鍵的使用細(xì)節(jié)和潛在的 bug。
這種優(yōu)化工具交互體驗(yàn)的流程,使后續(xù)智能體在使用新描述時(shí)的任務(wù)完成時(shí)間縮短了 40%,因?yàn)樗鼈兡軌虮荛_大多數(shù)常見錯(cuò)誤。
先廣后窄,循序漸進(jìn)。搜索策略應(yīng)當(dāng)模仿人類專家的研究方式:先全面探索,再深入細(xì)化。然而,智能體往往傾向于一開始就使用冗長(zhǎng)、具體的查詢?cè)~,結(jié)果返回的內(nèi)容卻非常有限。
為了解決這一問題,Anthropic 在提示詞中引導(dǎo)智能體從簡(jiǎn)短、寬泛的查詢開始,先評(píng)估可用信息,然后再逐步聚焦和深化研究方向。
引導(dǎo)思維過程。「擴(kuò)展思維模式」(Extended Thinking Mode)會(huì)讓 Claude 在輸出中展示出可見的思考過程,這相當(dāng)于一個(gè)可控的「草稿本」。主導(dǎo)智能體會(huì)利用這種思維過程來規(guī)劃整體策略,包括評(píng)估哪些工具適合當(dāng)前任務(wù)、判斷查詢的復(fù)雜度和需要的子智能體數(shù)量,并明確每個(gè)子智能體的職責(zé)。
測(cè)試表明,擴(kuò)展思維能夠顯著提升智能體的指令遵循能力、推理能力和執(zhí)行效率。
子智能體同樣會(huì)先制定計(jì)劃,然后在工具調(diào)用之后使用交替思維(Interleaved Thinking)來評(píng)估結(jié)果質(zhì)量、發(fā)現(xiàn)信息缺口,并改進(jìn)下一步的查詢。這使得子智能體在面對(duì)不同任務(wù)時(shí)具備更強(qiáng)的適應(yīng)能力。
并行調(diào)用工具徹底改變了研究任務(wù)的速度與性能。復(fù)雜的研究任務(wù)天然需要查閱大量信息來源。Anthropic 早期的智能體采用的是串行搜索,執(zhí)行效率極低。
為了解決這一問題,他們引入了兩種并行機(jī)制:
- 主導(dǎo)智能體同時(shí)創(chuàng)建 3-5 個(gè)子智能體,而不是依次生成;
- 每個(gè)子智能體同時(shí)使用 3 個(gè)以上的工具,而不是逐個(gè)調(diào)用。
這些改進(jìn)將復(fù)雜查詢的研究時(shí)間最多縮短了 90%,讓研究系統(tǒng)能在幾分鐘內(nèi)完成原本需要幾小時(shí)的工作,同時(shí)覆蓋的信息范圍也遠(yuǎn)超其他系統(tǒng)。
有效評(píng)估方法
良好的評(píng)估機(jī)制對(duì)于構(gòu)建可靠的 AI 應(yīng)用至關(guān)重要,智能體系統(tǒng)也不例外。然而,評(píng)估多智能體系統(tǒng)面臨獨(dú)特的挑戰(zhàn)。
傳統(tǒng)評(píng)估通常假設(shè) AI 每次都會(huì)遵循相同的步驟:給定輸入 X,系統(tǒng)應(yīng)按路徑 Y 執(zhí)行,并輸出結(jié)果 Z。但多智能體系統(tǒng)的工作方式并非如此。即使起點(diǎn)相同,智能體可能會(huì)走上完全不同但同樣有效的路徑來實(shí)現(xiàn)目標(biāo)。有的智能體可能只查閱 3 個(gè)信息源,有的可能會(huì)查 10 個(gè);它們也可能使用不同的工具來得出相同的答案。
由于我們并不總是知道哪一套操作步驟才是正確的,所以通常無法只靠檢查是否遵循了預(yù)設(shè)流程來評(píng)估智能體表現(xiàn)。相反,我們需要更靈活的評(píng)估方法,既要判斷智能體是否達(dá)成了正確的結(jié)果,也要衡量其執(zhí)行過程是否合理。
從小樣本評(píng)估開始。在智能體開發(fā)的早期階段,任何改動(dòng)往往都會(huì)帶來顯著影響。例如,僅僅調(diào)整一下提示詞,成功率就可能從 30% 提升到 80%。在這種影響幅度很大的階段,只需少量測(cè)試用例就能看出變化的效果。
Anthropic 最初使用了一組大約 20 個(gè)查詢,這些查詢代表了真實(shí)的使用模式。測(cè)試這些查詢通常就足以清晰判斷某項(xiàng)更改的效果。
人們經(jīng)常聽到 AI 開發(fā)團(tuán)隊(duì)說他們推遲創(chuàng)建評(píng)估機(jī)制,是因?yàn)樗麄冋J(rèn)為只有包含數(shù)百個(gè)測(cè)試用例的大規(guī)模評(píng)估才有價(jià)值。但實(shí)際上,最好的做法是立即從小規(guī)模測(cè)試開始,用幾個(gè)示例立刻著手評(píng)估,而不是等到構(gòu)建出完整評(píng)估系統(tǒng)之后再行動(dòng)。
如果使用得當(dāng),「由大語言模型擔(dān)任評(píng)審官」(LLM-as-judge)的評(píng)估方式也是不錯(cuò)的選擇。
研究類的輸出很難通過程序化手段進(jìn)行評(píng)估,因?yàn)樗鼈兺ǔJ亲杂筛袷降奈谋?,且很少存在唯一正確的答案。而 LLM 天然適合擔(dān)任這類輸出的評(píng)分者。
Anthropic 使用了一位「LLM 評(píng)審官」,根據(jù)一套評(píng)分標(biāo)準(zhǔn)(rubric)來評(píng)估每個(gè)輸出,具體包括以下幾個(gè)維度:
- 事實(shí)準(zhǔn)確性:陳述是否與引用來源相符?
- 引用準(zhǔn)確性:引用內(nèi)容是否確實(shí)支持了對(duì)應(yīng)的陳述?
- 完整性:是否覆蓋了所有被要求回答的內(nèi)容?
- 信息源質(zhì)量:是否優(yōu)先使用了高質(zhì)量的一手來源,而非較低質(zhì)量的二手資料?
- 工具使用效率:是否合理選擇并適當(dāng)使用了相關(guān)工具?
Anthropic 嘗試過使用多個(gè) LLM 來分別評(píng)估每一個(gè)維度,但最終發(fā)現(xiàn):只使用一次 LLM 調(diào)用,通過單個(gè)提示詞讓模型輸出 0.0–1.0 的評(píng)分以及「通過 / 未通過」的判斷,是最穩(wěn)定、最符合人類評(píng)審標(biāo)準(zhǔn)的方法。
這種方法在測(cè)試用例本身有明確答案時(shí)尤其有效,比如:「是否準(zhǔn)確列出了研發(fā)投入最高的三家制藥公司?」 這種題目可以直接判斷答案是否正確。
借助 LLM 擔(dān)任評(píng)審官,能夠高效地?cái)U(kuò)展到對(duì)數(shù)百個(gè)輸出結(jié)果進(jìn)行評(píng)估,大幅提升了評(píng)估系統(tǒng)的可擴(kuò)展性與實(shí)用性。
人工評(píng)估能發(fā)現(xiàn)自動(dòng)化評(píng)估遺漏的問題。實(shí)際測(cè)試智能體的人會(huì)發(fā)現(xiàn)一些評(píng)估系統(tǒng)無法捕捉的邊緣案例,比如在不尋常查詢中產(chǎn)生的幻覺答案、系統(tǒng)故障,或是細(xì)微的來源選擇偏差。即使在自動(dòng)化評(píng)估盛行的今天,人工測(cè)試依然不可或缺。
生產(chǎn)可靠性與工程挑戰(zhàn)
在傳統(tǒng)軟件中,程序缺陷可能導(dǎo)致功能失效、性能下降或系統(tǒng)宕機(jī)。而在智能體系統(tǒng)中,細(xì)微的變化可能引發(fā)巨大的行為變動(dòng),這使得為需要在長(zhǎng)時(shí)間運(yùn)行過程中維護(hù)狀態(tài)的復(fù)雜智能體編寫代碼異常困難。
智能體是有狀態(tài)的,錯(cuò)誤會(huì)累積。智能體可能運(yùn)行很長(zhǎng)時(shí)間,在多次調(diào)用工具過程中保持狀態(tài)。這意味著我們需要持久地執(zhí)行代碼并在過程中處理錯(cuò)誤。如果沒有有效的緩解措施,輕微的系統(tǒng)故障對(duì)智能體來說可能是災(zāi)難性的。當(dāng)發(fā)生錯(cuò)誤時(shí),我們不能簡(jiǎn)單地從頭重啟:重啟成本高且令用戶沮喪。相反,Anthropic 構(gòu)建了能夠從智能體發(fā)生錯(cuò)誤時(shí)的狀態(tài)繼續(xù)執(zhí)行的系統(tǒng)。
調(diào)試。智能體在運(yùn)行時(shí)會(huì)做出動(dòng)態(tài)決策,即使使用相同的提示,結(jié)果也具有非確定性,這使得調(diào)試變得更加困難。通過添加完整的生產(chǎn)追蹤,Anthropic 能夠系統(tǒng)地診斷智能體失敗的原因并修復(fù)問題。
部署需要謹(jǐn)慎協(xié)調(diào)。智能體系統(tǒng)是高度有狀態(tài)的提示、工具和執(zhí)行邏輯的網(wǎng)絡(luò),幾乎持續(xù)運(yùn)行。這意味著每當(dāng)我們部署更新時(shí),智能體可能處于執(zhí)行過程中的任何階段。雖然不能同時(shí)將所有智能體更新到新版本。但 Anthropic 采用彩虹部署,通過逐步將流量從舊版本轉(zhuǎn)移到新版本,同時(shí)保持兩者并行運(yùn)行,從而避免對(duì)正在運(yùn)行的智能體造成干擾。
同步執(zhí)行會(huì)造成瓶頸。目前,Anthropic 的主控智能體采用同步方式執(zhí)行子智能體任務(wù),會(huì)等待每批子智能體完成后才繼續(xù)下一步。這簡(jiǎn)化了協(xié)調(diào)過程,但也在智能體之間的信息流動(dòng)中形成了瓶頸。例如,主智能體無法實(shí)時(shí)引導(dǎo)子智能體,子智能體之間也無法協(xié)同,而整個(gè)系統(tǒng)可能會(huì)因?yàn)榈却硞€(gè)子智能體完成搜索而被阻塞。
異步執(zhí)行則能帶來更多的并行性:智能體可以同時(shí)工作,并在需要時(shí)創(chuàng)建新的子智能體。但這種異步性也帶來了結(jié)果協(xié)調(diào)、狀態(tài)一致性以及錯(cuò)誤傳播等方面的挑戰(zhàn)。隨著模型能夠處理更長(zhǎng)更復(fù)雜的研究任務(wù),Anthropic 預(yù)計(jì)性能提升將足以抵消這些復(fù)雜性的增加。
總結(jié)
在構(gòu)建 AI 智能體時(shí),最后一公里往往占據(jù)了整個(gè)旅程的大部分。從開發(fā)者機(jī)器上能運(yùn)行的代碼庫(kù),到變成可靠的生產(chǎn)系統(tǒng),需要大量的工程投入。智能體系統(tǒng)中錯(cuò)誤的復(fù)合特性意味著,傳統(tǒng)軟件中的小問題可能會(huì)徹底擾亂智能體的運(yùn)行。某一步驟失敗,可能導(dǎo)致智能體探索完全不同的路徑,從而產(chǎn)生不可預(yù)測(cè)的結(jié)果?;诒疚乃龅母鞣N原因,原型與生產(chǎn)環(huán)境之間的差距通常比預(yù)期更大。
盡管面臨這些挑戰(zhàn),多智能體系統(tǒng)在開放式研究任務(wù)中已經(jīng)展現(xiàn)出巨大價(jià)值。只要經(jīng)過細(xì)致的工程設(shè)計(jì)、全面的測(cè)試、注重細(xì)節(jié)的提示詞和工具設(shè)計(jì)、健全的運(yùn)維實(shí)踐,以及研究、產(chǎn)品與工程團(tuán)隊(duì)之間緊密合作且對(duì)當(dāng)前智能體能力有深刻理解,多智能體研究系統(tǒng)就能在大規(guī)模場(chǎng)景中穩(wěn)定運(yùn)行。我們已經(jīng)看到這些系統(tǒng)正在改變?nèi)藗兘鉀Q復(fù)雜問題的方式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.