本文來自 Anthropic 官網的分享,詳細闡述了他們是如何構建多智能體研究系統《How we built our multi-agent research system》。
他們研究發現,多智能體系統最適合三類場景:高價值并行任務、超出單上下文窗口的信息處理、需要操作多個復雜工具的情況。需要共享上下文或存在復雜依賴關系的場景目前并不適合多智能體方案。下面是翻譯全文:
我們的"研究"功能采用多智能體協作架構,讓 Claude 能更高效地探索復雜課題。本文將分享系統構建過程中遇到的工程挑戰與經驗總結。
如今 Claude 已具備跨網絡、Google Workspace 及各類集成系統進行信息檢索的研究能力,以完成復雜任務。這套多智能體系統從原型到生產的實踐歷程,讓我們在系統架構、工具設計和提示工程等方面積累了寶貴經驗。
多智能體系統由多個自主使用工具的 LLM 智能體協同工作,在我們的研究功能中,主智能體會根據用戶查詢規劃研究流程,隨后創建并行工作的子智能體進行信息檢索。這類系統在智能體協調、評估與可靠性方面帶來了全新挑戰。
本文將拆解我們驗證有效的設計原則,希望能為開發者構建多智能體系統提供參考。
多智能體系統的優勢
研究工作涉及開放式問題,很難提前預測所需的步驟。你無法為探索復雜主題設定固定的路徑,因為這個過程本質上是動態的,并且依賴于路徑。人們在進行研究時,往往會根據研究過程中出現的線索,不斷更新研究方法。
這種不可預測性使 AI Agent 特別適合研究任務。研究需要根據進展靈活調整方向或探索關聯線索,模型必須能自主進行多輪決策。傳統的線性單次處理流程無法勝任這類任務。
信息檢索的核心在于壓縮:從海量數據中提煉洞察。子智能體通過并行工作實現高效壓縮——它們各自擁有獨立上下文窗口,能同步探索問題的不同側面,最后將關鍵信息濃縮傳遞給主智能體。這種分工設計(差異化工具、提示詞和探索路徑)降低了路徑依賴,確保全面獨立的調查。
當智能水平達到閾值后,多智能體系統就成為擴展能力的必由之路。正如人類個體在過去十萬年雖然智力提升有限,但信息時代的集體智慧與協作能力讓社會整體效能呈指數級增長。即使通用智能體作為個體也存在局限,而智能體群體能實現遠超個體的成就。
我們的內部測試顯示,多智能體系統在需要同步探索多個獨立方向的廣度優先查詢中表現尤為突出。以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體的系統,在研究評估中比單智能體版本性能提升 90.2%。例如在查詢"信息技術標普 500 指數成分公司董事會成員"時,多智能體系統通過任務分解成功完成,而單智能體系統因串行搜索效率低下而失敗。
多智能體系統的優勢本質上是通過合理分配計算資源(token)來解決問題。在 BrowseComp 評估(測試瀏覽智能體定位冷門信息的能力)中,我們發現三個因素解釋了 95% 的性能差異:token 用量單獨解釋 80% 的差異,工具調用次數和模型選擇構成其余解釋變量。
這驗證了我們通過獨立上下文窗口分配工作以擴展并行推理能力的架構設計。最新 Claude 模型顯著提升了 token 使用效率——升級到 Claude Sonnet 4 帶來的性能增益,甚至超過在 Claude Sonnet 3.7 上雙倍 token 預算的效果。
但需注意:實際運行中這類架構會快速消耗 token。數據顯示,智能體任務平均消耗 token 量是普通聊天的 4 倍,多智能體系統則達到 15 倍。因此經濟可行性要求任務價值必須與性能提升相匹配。此外,需要共享上下文或存在復雜依賴關系的場景目前并不適合多智能體方案。
例如多數編程任務的并行潛力低于研究任務,且當前 LLM 智能體尚不擅長實時協調分工。我們發現多智能體系統最適合三類場景:高價值并行任務、超出單上下文窗口的信息處理、需要操作多個復雜工具的情況。
研究架構概覽
我們的研究系統采用具有協調器---工作者模式的多智能體架構,其中首席智能體協調流程,同時委托給并行操作的專門子智能體。
動態多智能體架構:用戶查詢經主智能體分析后,創建專業子智能體并行探索不同維度。
如上圖示,當用戶提交查詢(如 "2025 年 AI 智能體領域重點企業")后,子智能體作為智能過濾器,通過迭代使用搜索工具收集信息,最終將企業列表返回主智能體進行答案整合。
與傳統 RAG(檢索增強生成)的靜態檢索不同,我們的架構采用多步驟動態搜索:持續發現相關信息、適應新發現、分析結果以形成高質量答案。
上圖為多智能體研究系統完整工作流程圖。用戶提交查詢后,系統創建 LeadResearcher 主智能體進入迭代研究流程。該智能體首先規劃方法并將方案存入 Memory(因上下文窗口超過 20 萬 token 會被截斷,保存計劃至關重要),隨后創建承擔具體研究任務的子智能體(圖示 2 個,實際數量可變)。
各子智能體獨立執行網絡搜索,通過交錯思考評估工具結果,將發現反饋給主智能體。主智能體綜合結果后決定是否需要深化研究——必要時會創建新子智能體或調整策略。信息收集完成后,系統退出研究循環,將所有發現傳遞給 CitationAgent 處理文檔和研究報告,確保每個主張都有準確引用來源。最終附有引用的研究成果返回用戶。
為研究智能體提供及時的工程與評估
多智能體系統與單智能體存在關鍵差異,尤其是協調復雜度的快速增長。早期智能體常出現以下問題:簡單查詢創建 50 個子智能體、無止境搜索不存在的信息源、過度更新互相干擾等。由于每個智能體都由提示詞驅動,提示工程成為改進行為的主要手段。以下是我們總結的提示詞設計原則:
- 智能體思維模擬:通過控制臺實時觀察智能體逐步執行過程,能立即發現繼續冗余搜索、使用冗長查詢或選錯工具等問題。建立準確的智能體心智模型后,最關鍵改進往往顯而易見。
- 教會協調者(主智能體)如何授權:我們發現簡單指令如 "研究芯片短缺" 會導致子智能體重復工作(如三個子智能體分別調查 2021 汽車芯片危機與 2025 供應鏈現狀)。有效分工需要明確:具體目標、輸出格式、工具指南和任務邊界。
- 根據查詢復雜度調整工作量:將工作量分級規則嵌入提示詞——簡單的事實調查只需 1 名智能體調用 3-10 個工具;直接比較可能需要 2-4 名子智能體,每名子智能體調用 10-15 個工具;而復雜的研究可能需要 10 名以上子智能體,并明確劃分職責。這些明確的指導原則有助于主智能體高效地分配資源,并避免在簡單查詢上投入過多資源——這在我們早期版本中是一種常見的失敗模式。
- 工具的設計和選擇至關重要:智能體 - 工具接口與人機界面同等重要。使用正確的工具至關重要——通常,這是絕對必要的。例如,一個智能體在網絡上搜索只存在于 Slack 中的上下文,從一開始就注定要失敗。由于 MCP 服務器允許模型訪問外部工具,這個問題會變得更加嚴重,因為智能體會遇到一些描述質量參差不齊的、從未見過的工具。我們為智能體提供了明確的啟發式方法:例如,首先檢查所有可用的工具,將工具使用情況與用戶意圖相匹配,在網絡上搜索廣泛的外部探索,或者優先選擇專用工具而非通用工具。糟糕的工具描述可能會讓智能體走上完全錯誤的路徑,因此每個工具都需要有明確的用途和清晰的描述。
- 讓智能體自我提升:Claude 4 模型本身就能成為優秀提示工程師。當給出提示和故障模式時,它們能夠診斷智能體失敗的原因并提出改進建議。我們甚至創建了一個工具測試智能體——當獲得一個有缺陷的 MCP 工具時,它會嘗試使用該工具,然后重寫工具描述以避免故障。通過數十次工具測試,該智能體發現了關鍵的細微差別和錯誤。這種改進工具人體工程學的過程使未來使用新描述的智能體的任務完成時間縮短了 40%,因為他們能夠避免大多數錯誤。
- 先廣后深策略: 搜索策略應效仿專家的人工研究:先探索全局,再深入細節。智能體通常會默認輸入過長、具體的查詢,但結果卻很少。我們通過鼓勵智能體先從簡短、寬泛的查詢開始,評估可用的內容,然后逐步縮小范圍來抵消這種傾向。
- 思維過程引導:擴展思維模式引導 Claude 在可見的思考過程中輸出額外的標記,可以充當可控的便箋簿。首席智能體運用思維來規劃其方法,評估哪些工具適合該任務,確定查詢的復雜性和子智能體數量,并定義每個子智能體的角色。我們的測試表明,擴展思維可以提高指令遵循能力、推理能力和效率。子智能體也會進行規劃,然后在工具結果之后運用交叉思維來評估質量、識別差距并優化下一個查詢。這使得子智能體能夠更有效地適應任何任務。
- 并行工具調用提升了速度和性能:復雜的研究任務自然需要探索眾多來源。我們早期的智能體執行的是順序搜索,速度非常慢。為了提高速度,我們引入了兩種并行化方式:(1) 主智能體并行(而非串行)啟動 3-5 個子智能體;(2) 子智能體并行使用 3 個或以上工具。這些改進將復雜查詢的研究時間縮短了高達 90%,使研究團隊能夠在幾分鐘內完成更多工作,而不是幾小時,同時覆蓋比其他系統更多的信息。
我們的提示策略聚焦啟發式規則而非僵化條款。通過研究人類專家工作模式,我們將問題分解、信源評估、動態調整、深度與廣度平衡等策略編碼到提示中,同時設置明確防護欄防止失控。最后通過可觀測性和測試案例建立快速迭代循環。
智能體的有效評估
可靠評估對 AI 應用至關重要,但多智能體系統帶來獨特挑戰。傳統評估假設系統會遵循固定路徑(給定輸入 X,經路徑 Y 得輸出 Z),而多智能體可能通過不同有效路徑達成目標——可能使用不同工具或搜索不同數量信源。即使起點相同,智能體也可能采取完全不同的有效路徑來實現其目標。
一個智能體可能搜索三個來源,而另一個智能體搜索十個,或者它們可能使用不同的工具來找到相同的答案。由于我們并不總是知道正確的步驟是什么,我們通常不能僅僅檢查智能體是否遵循了我們預先規定的“正確”步驟。相反,我們需要靈活的評估方法來判斷智能體是否在遵循合理流程的同時實現了正確的結果。因此我們需要能判斷結果正確性及過程合理性的靈活評估方法。
- 小樣本快速驗證:早期開發中提示詞微調可能使成功率從 30% 躍升至 80%,20 個典型查詢就足以觀察變化。不必等待構建數百測試案例的大規模評估。
- LLM 作為評估者:研究輸出是自由文本且少有唯一正確答案,我們采用 LLM 評估器按標準打分(事實準確性、引用準確性、完整性、信源質量、工具效率)。實驗表明,單一 LLM 調用輸出 0.0-1.0 分數及通過 / 失敗判定,與人類判斷最一致。當測試案例存在明確答案時(如 "列出研發預算前三的藥企"),該方法尤其有效。
- 人工評估補缺:測試人員能發現自動化評估遺漏的邊緣情況——非常規查詢的幻覺答案、系統故障、微妙的信源選擇偏見等。例如早期智能體持續選擇 SEO 優化內容農場而非權威但排名較低的學術 PDF 或個人博客,通過提示詞添加信源質量啟發式規則解決了該問題。
多智能體系統具有涌現特性——主智能體的微小變化可能不可預測地改變子智能體行為。成功需要理解交互模式而不僅是單體行為。因此最佳提示詞不僅是嚴格指令,更是定義分工、解決方法和資源預算的協作框架。實現這點需要精心設計的提示詞與工具、穩健啟發式規則、可觀測性和緊密反饋循環。
生產環境可靠性和工程挑戰
與傳統軟件不同,智能體系統中微小變化會產生行為級聯效應,使得為需要維持長期狀態的復雜智能體編寫代碼異常困難。
狀態持久與錯誤累積:智能體是有狀態的,錯誤會累積。它可以長時間運行,在多次工具調用中保持狀態。這意味著我們需要持久地執行代碼并處理過程中的錯誤。如果沒有有效的緩解措施,輕微的系統故障可能會對智能體造成災難性的后果。發生錯誤時,我們不能從頭開始重啟:重啟不僅成本高昂,還會讓用戶感到沮喪。因此,我們構建了能夠從智能體發生錯誤時的位置恢復的系統。我們還利用模型的智能來優雅地處理問題:例如,讓智能體知道工具何時發生故障,并讓其進行調整,效果出奇地好。我們將基于 Claude 構建的 AI 智能體的適應性與重試邏輯和定期檢查點等確定性保障措施相結合。
- 新方法讓調試受益匪淺:智能體會做出動態決策,即使提示完全相同,每次運行之間也存在不確定性。這讓調試更加困難。例如,用戶會報告“找不到明顯的信息”,但我們卻找不到原因。智能體是否使用了錯誤的搜索查詢?選擇了錯誤的來源?還是遇到了工具故障?添加完整的生產跟蹤功能使我們能夠診斷智能體失敗的原因并系統地解決問題。除了標準的可觀察性之外,我們還監控智能體的決策模式和交互結構——所有這些都無需監控單個對話的內容,從而保護用戶隱私。這種高級別的可觀察性幫助我們診斷根本原因、發現意外行為并修復常見故障。
- 部署需要謹慎協調:智能體系統是高度狀態化的網絡,由提示詞、工具和執行邏輯組成,幾乎持續運行。這意味著,每當我們部署更新時,智能體都可能處于其進程的任何地方。因此,我們需要防止我們善意的代碼更改破壞現有智能體。我們無法同時將所有智能體更新到新版本。相反,我們使用彩虹部署來避免中斷正在運行的智能體,方法是逐步將流量從舊版本轉移到新版本,同時保持兩個版本同時運行。
- 同步執行會造成瓶頸:當前主智能體同步執行子智能體會造成信息流瓶頸——主智能體無法引導子智能體、子智能體間不能協調、單個子智能體搜索會阻塞整個系統。異步執行雖能提升并行性,但會增加結果協調、狀態一致性和錯誤傳播的復雜度。隨著模型處理更長更復雜研究任務的能力提升,我們預期性能收益將證明復雜性的合理性。
結論
構建 AI 智能體時,"最后一公里" 往往占據了最重要的一步。在開發者機器上運行的代碼庫需要大量的工程設計才能成為可靠的生產系統。Agent 系統中錯誤的復合性意味著傳統軟件的一個小問題就可能徹底破壞 Agent。一步失敗就可能導致 Agent 探索完全不同的軌跡,從而導致不可預測的結果。由于本文所述的所有原因,原型和生產之間的差距通常比預期的要大。
盡管面臨諸多挑戰,多智能體系統已被證明在開放式研究任務中具有重要價值。用戶表示,Claude 幫助他們找到了未曾考慮過的商業機會,引導他們應對復雜的醫療保健方案,解決棘手的技術錯誤,并通過發現他們獨自一人無法發現的研究關聯,節省了長達數天的工作時間。
多智能體研究系統能夠通過精心的工程設計、全面的測試、注重細節的提示和工具設計、強大的操作實踐,以及對當前智能體功能有深入理解的研究、產品和工程團隊之間的緊密合作,實現大規??煽窟\行。我們已經看到這些系統正在改變人們解決復雜問題的方式。
上圖:Clio 嵌入圖展示當前研究功能的主要使用場景。前五類用途包括:跨專業領域開發軟件系統(10%)、專業 / 技術內容開發優化(8%)、業務增長與營收戰略制定(8%)、學術研究與教育材料開發(7%)、人物 / 機構 / 地點信息核實(5%)。
附錄:多智能體系統實用建議
對在多輪對話中改變狀態的智能體進行最終狀態評估。 評估在多輪對話中修改持久狀態的智能體面臨著獨特的挑戰。與只讀研究任務不同,每個操作都可能改變后續步驟的環境,從而產生傳統評估方法難以處理的依賴關系。我們發現,專注于最終狀態評估而非逐輪分析是成功的。與其判斷智能體是否遵循了特定的流程,不如評估其是否達到了正確的最終狀態。這種方法承認智能體可能會找到實現同一目標的其他路徑,同時仍能確保其交付預期結果。對于復雜的工作流,應將評估分解為應該發生特定狀態變化的離散檢查點,而不是試圖驗證每個中間步驟。
長周期對話管理。 生產智能體通常參與跨越數百輪的對話,需要謹慎的上下文管理策略。隨著對話的延長,標準上下文窗口變得不足,需要智能壓縮和記憶機制。我們實現了一些模式,智能體會在執行新任務之前總結已完成的工作階段,并將重要信息存儲在外部存儲器中。當上下文接近上限時,智能體可以生成具有干凈上下文的全新子智能體,同時通過謹慎的交接保持對話的連續性。此外,它們可以從內存中檢索存儲的上下文(例如研究計劃),而不會在達到上下文上限時丟失之前的工作。這種分布式方法可以防止上下文溢出,同時在擴展交互過程中保持對話的連貫性。
將子智能體輸出到文件系統,以最大限度地減少“電話游戲”。 直接子智能體輸出可以繞過主協調器,從而提高某些類型結果的保真度和性能。與其要求子智能體通過主智能體傳達所有信息,不如實施工件系統,讓專門的智能體可以創建獨立持久的輸出。子智能體調用工具將其工作存儲在外部系統中,然后將輕量級引用傳遞回協調器。這可以防止在多階段處理過程中丟失信息,并減少通過對話歷史記錄復制大量輸出所帶來的令牌開銷。該模式尤其適用于結構化輸出,例如代碼、報告或數據可視化,在這些情況下,子智能體的專用提示比通過通用協調器進行篩選能產生更好的結果。
End!
加入 MemoPro會員,獲取更多趨勢信號
Memo: Signal, not noise!
訂閱 MemoPro
Memo(vcsmemo.com)是一個基于付費訂閱模式的創投內容平臺,已得到大量 VC、企業 CEO 以及高管的支持,我們希望幫助你捕捉最具價值的行業信號、過濾噪音(Signal,Not Noise)。
訂閱 MemoPro你將獲得:
1.解鎖未來一年以及之前的所有會員專屬內容
2.:付費內容+最新行業快訊+...
3.優先體驗 Memo 新產品和新功能
限時 799 元/年(原價 999 元/年),掃碼立即訂閱
1.
2.
3.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.