99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

近期必讀!Devin VS Anthropic 的多智能體構(gòu)建方法論

0
分享至

播客內(nèi)容由listenhub生成,懶得看的話(huà)也可以聽(tīng)

昨天最熱的的兩篇文章是關(guān)于多智能體系統(tǒng)構(gòu)建的討論。

先是 Anthropic 發(fā)布了他們?cè)谏疃人阉鞫嘀悄荏w構(gòu)建過(guò)程中的一些經(jīng)驗(yàn),具體:包括多智能體系統(tǒng)的優(yōu)勢(shì)、架構(gòu)概覽、提示工程與評(píng)估、智能體的有效評(píng)估等方面。

另外一邊 Devin 的開(kāi)發(fā)商 Cognition 的一個(gè)負(fù)責(zé)人 Walden 發(fā)布文章告誡大家不要構(gòu)建多智能體,指出一些常見(jiàn)但實(shí)際效果不佳的方法,特別是多智能體架構(gòu)的弊端。


這篇文章主要就是結(jié)合兩篇文章看一下 Cognition 提到的多智能體架構(gòu)弊端和 Anthropic 給出的解決方案。同時(shí)后面也會(huì)有兩篇文章非常詳細(xì)的總結(jié)。

什么是多智能體

多智能體系統(tǒng)由多個(gè)智能體(大型語(yǔ)言模型 [LLM] 自主地循環(huán)使用工具)協(xié)同工作組成。

在這種系統(tǒng)中,一個(gè)主智能體(或協(xié)調(diào)器)會(huì)根據(jù)用戶(hù)查詢(xún)規(guī)劃研究過(guò)程,然后使用工具創(chuàng)建并行操作的子智能體,這些子智能體同時(shí)搜索信息。這種架構(gòu)允許主智能體協(xié)調(diào)整個(gè)過(guò)程,同時(shí)將任務(wù)委托給專(zhuān)門(mén)的子智能體。

所以具體的步驟一般為:

  1. 1. 將工作分解為多個(gè)部分

  2. 2. 啟動(dòng)子智能體處理這些部分

  3. 3. 最終合并這些結(jié)果


多智能體存在哪些問(wèn)題?如何解決

總的來(lái)說(shuō) Anthropic 也承認(rèn) Cognition 提到的多智能體問(wèn)題的存在,但是他們也做了很多約束和措施來(lái)解決這些問(wèn)題。

首先是領(lǐng)域選擇: 他們將多智能體系統(tǒng)應(yīng)用于他們認(rèn)為特別適合并行化和開(kāi)放式探索的領(lǐng)域——研究任務(wù),而不是普遍適用于所有任務(wù)(例如他們承認(rèn)編碼任務(wù)就不太適合,Cognition 就是做的編程智能體)。

然后是嚴(yán)格的架構(gòu)和設(shè)計(jì): 采用協(xié)調(diào)者-工作者模式,并通過(guò)詳細(xì)的提示工程來(lái)明確子智能體的任務(wù)和職責(zé),以最大程度地減少誤解和沖突

最后引入高級(jí)上下文管理: 引入記憶機(jī)制和通過(guò)文件系統(tǒng)傳遞輸出等方式,來(lái)解決上下文窗口限制和信息流失的問(wèn)題。

我們來(lái)看看具體的對(duì)比。


1. 關(guān)于多智能體架構(gòu)的“脆弱性”與“可靠性”問(wèn)題

Cognition的觀(guān)點(diǎn): 多智能體架構(gòu)非常脆弱,關(guān)鍵的失敗點(diǎn)在于子智能體可能誤解任務(wù)并產(chǎn)生不一致的結(jié)果,導(dǎo)致最終的智能體難以整合這些誤解。智能體需要長(zhǎng)期運(yùn)行并保持連貫對(duì)話(huà)時(shí),可靠性至關(guān)重要,而上下文工程是核心。多智能體系統(tǒng)會(huì)導(dǎo)致“決策過(guò)于分散,上下文無(wú)法充分共享”,從而產(chǎn)生“脆弱的系統(tǒng)”

Anthropic的觀(guān)點(diǎn): Anthropic承認(rèn)多智能體系統(tǒng)確實(shí)會(huì)帶來(lái)“智能體協(xié)調(diào)、評(píng)估和可靠性方面的新挑戰(zhàn)”。他們也指出,“代理系統(tǒng)中的微小變化會(huì)級(jí)聯(lián)為大的行為變化”,這使得為復(fù)雜的、需要維護(hù)狀態(tài)的智能體編寫(xiě)代碼變得非常困難。代理系統(tǒng)中的錯(cuò)誤復(fù)合性質(zhì)意味著,對(duì)于傳統(tǒng)軟件來(lái)說(shuō)的次要問(wèn)題可能會(huì)完全擾亂智能體。早期的智能體確實(shí)存在協(xié)調(diào)問(wèn)題,例如“為簡(jiǎn)單查詢(xún)生成50個(gè)子代理”、“無(wú)休止地搜索不存在的來(lái)源”以及“過(guò)度更新互相干擾”。


2. 關(guān)于上下文共享和沖突決策

Cognition的觀(guān)點(diǎn): 子智能體即使共享原始任務(wù)上下文,也可能因?yàn)闊o(wú)法看到其他子智能體正在做什么而導(dǎo)致工作不一致,因?yàn)樗鼈兊男袆?dòng)基于相互沖突的未預(yù)設(shè)假設(shè)。他們強(qiáng)調(diào)原則1是“共享完整上下文和完整的智能體追蹤,而不僅僅是單獨(dú)的消息”,原則2是“行動(dòng)帶有隱含決策,沖突的決策會(huì)導(dǎo)致糟糕的結(jié)果”。

Anthropic 首先也承認(rèn)了這些限制:“有些領(lǐng)域需要所有智能體共享相同上下文,或者涉及智能體之間許多依賴(lài)關(guān)系,目前不適合多智能體系統(tǒng)”。他們特別提到,“大多數(shù)編碼任務(wù)涉及的真正可并行化任務(wù)比研究任務(wù)少,而且LLM智能體目前還不擅長(zhǎng)實(shí)時(shí)協(xié)調(diào)和委派給其他智能體”。這與《Don’t Build Multi-Agents》中提到的Claude Code子智能體不并行寫(xiě)代碼以及“編輯應(yīng)用模型”中小型模型誤解指令的問(wèn)題形成了呼應(yīng)。

然后我們來(lái)看一下 Anthropic 是如何克服這些限制的:

  • 協(xié)調(diào)模式: Anthropic的系統(tǒng)采用“協(xié)調(diào)者-工作者”模式,由一個(gè)主智能體協(xié)調(diào)整個(gè)過(guò)程,并委派任務(wù)給并行的專(zhuān)業(yè)子智能體。主智能體分析查詢(xún),制定策略,并生成子智能體同時(shí)探索不同的方面。子智能體將結(jié)果返回給主智能體進(jìn)行綜合。
  • 明確委托: 他們強(qiáng)調(diào)“教導(dǎo)協(xié)調(diào)者如何委托”,即主智能體需要為子智能體提供詳細(xì)的任務(wù)描述,包括目標(biāo)、輸出格式、使用的工具和來(lái)源指南,以及明確的任務(wù)邊界,以避免工作重復(fù)、遺漏或任務(wù)誤解。例如,如果沒(méi)有詳細(xì)描述,子智能體可能會(huì)重復(fù)執(zhí)行相同的搜索,或者對(duì)任務(wù)進(jìn)行不同的解釋。
  • 上下文管理: 對(duì)于長(zhǎng)期運(yùn)行的任務(wù)和上下文窗口溢出問(wèn)題,Anthropic的解決方案是主智能體將計(jì)劃保存到“內(nèi)存”中,以持久化上下文,防止上下文窗口過(guò)大時(shí)被截?cái)?。他們還實(shí)現(xiàn)了智能體在完成工作階段后總結(jié)關(guān)鍵信息并存儲(chǔ)到外部記憶中,并在上下文接近限制時(shí)生成新的子智能體,通過(guò)仔細(xì)交接保持連續(xù)性。
  • 最小化“電話(huà)游戲”: 他們通過(guò)讓子智能體將輸出直接保存到文件系統(tǒng)來(lái)“最小化‘電話(huà)游戲’(game of telephone)”,而不是所有信息都通過(guò)主協(xié)調(diào)器傳遞。這有助于提高保真度和性能,并減少通過(guò)對(duì)話(huà)歷史復(fù)制大量輸出所需的token開(kāi)銷(xiāo),從而避免信息丟失。


3. 關(guān)于單線(xiàn)程線(xiàn)性智能體與多智能體并行性

Cognition的觀(guān)點(diǎn): 推薦最簡(jiǎn)單的遵循原則的方法是使用“單線(xiàn)程線(xiàn)性智能體”,其中上下文是連續(xù)的。他們認(rèn)為目前的智能體在長(zhǎng)上下文、主動(dòng)的交流方面不如人類(lèi)可靠,因此多智能體協(xié)作只會(huì)導(dǎo)致脆弱的系統(tǒng)。

Anthropic的觀(guān)點(diǎn): Anthropic則積極擁抱多智能體并行性,認(rèn)為它是“擴(kuò)展性能的關(guān)鍵方式”。

他們認(rèn)為,對(duì)于像研究這樣開(kāi)放式、不可預(yù)測(cè)的問(wèn)題,多智能體系統(tǒng)特別適用,因?yàn)樗峁┝遂`活性,能夠根據(jù)發(fā)現(xiàn)調(diào)整方法,并允許子智能體并行操作,從而實(shí)現(xiàn)“壓縮”和“關(guān)注點(diǎn)分離”。他們通過(guò)內(nèi)部評(píng)估發(fā)現(xiàn),多智能體研究系統(tǒng)在廣度優(yōu)先的查詢(xún)上,性能比單智能體系統(tǒng)提高了90.2%。

  • 速度提升: Anthropic通過(guò)引入兩種并行化方式大幅提升了研究時(shí)間:主智能體并行啟動(dòng)3-5個(gè)子智能體,子智能體并行使用3個(gè)以上工具,從而將復(fù)雜查詢(xún)的研究時(shí)間縮短了90%。
  • Token消耗: 不過(guò),Anthropic也承認(rèn)這是一個(gè)“缺點(diǎn)”:“這些架構(gòu)在實(shí)踐中會(huì)快速消耗token”,多智能體系統(tǒng)通常比聊天互動(dòng)多用約15倍的token。因此,多智能體系統(tǒng)只適用于“任務(wù)價(jià)值足夠高以支付增加的性能”的場(chǎng)景。
  • 協(xié)調(diào)瓶頸: Anthropic目前的主智能體是“同步執(zhí)行子智能體”,即等待每組子智能體完成后再繼續(xù),這簡(jiǎn)化了協(xié)調(diào),但會(huì)在信息流中造成瓶頸。他們提到異步執(zhí)行將實(shí)現(xiàn)更大的并行性,但會(huì)增加結(jié)果協(xié)調(diào)、狀態(tài)一致性和錯(cuò)誤傳播的挑戰(zhàn),并期望未來(lái)模型能處理更長(zhǎng)的復(fù)雜研究任務(wù)時(shí),性能提升將證明其復(fù)雜性是值得的。


Cognition - Don’t Build Multi-Agents 總結(jié)


文章主要圍繞以下兩項(xiàng)上下文工程(Context Engineering)原則展開(kāi):

  1. 1. 共享上下文: 智能體應(yīng)共享完整的上下文,包括完整的智能體追蹤(agent traces),而不僅僅是單獨(dú)的消息。

  2. 2. 行動(dòng)隱含決策: 智能體的行動(dòng)帶有隱含的決策,沖突的決策會(huì)導(dǎo)致糟糕的結(jié)果。

構(gòu)建長(zhǎng)期運(yùn)行智能體的理論與挑戰(zhàn) 文章指出,LLM智能體框架的表現(xiàn)令人失望,目前還沒(méi)有單一的構(gòu)建方法成為標(biāo)準(zhǔn)。特別是在構(gòu)建嚴(yán)肅的生產(chǎn)級(jí)應(yīng)用時(shí),可靠性至關(guān)重要,而上下文工程是實(shí)現(xiàn)可靠性的核心。上下文工程旨在動(dòng)態(tài)、自動(dòng)化地為L(zhǎng)LM提供完成任務(wù)所需的理想格式信息。

文章以一個(gè)常見(jiàn)的將任務(wù)分解為多個(gè)部分的智能體為例,說(shuō)明了多智能體架構(gòu)的脆弱性。

  • 任務(wù)分解的脆弱性: 假設(shè)一個(gè)智能體被要求“構(gòu)建一個(gè)《飛揚(yáng)的小鳥(niǎo)》克隆”,并將其分解為子任務(wù):“構(gòu)建帶綠管子和碰撞盒的移動(dòng)游戲背景”和“構(gòu)建一個(gè)可以上下移動(dòng)的小鳥(niǎo)”7。如果子智能體1誤解了任務(wù),構(gòu)建了《超級(jí)馬里奧兄弟》風(fēng)格的背景,而子智能體2構(gòu)建的小鳥(niǎo)與《飛揚(yáng)的小鳥(niǎo)》不符,那么最終的智能體將面臨結(jié)合這些誤解的困難。
  • 上下文共享不足: 即使將原始任務(wù)作為上下文復(fù)制給子智能體,也可能導(dǎo)致問(wèn)題。在多輪對(duì)話(huà)的真實(shí)生產(chǎn)系統(tǒng)中,智能體可能需要進(jìn)行工具調(diào)用來(lái)分解任務(wù),任何細(xì)節(jié)都可能影響任務(wù)的解釋。
  • 行動(dòng)沖突: 即使每個(gè)子智能體都能看到之前智能體的上下文,如果它們沒(méi)有看到彼此在做什么,它們的工作最終也可能不一致。例如,可能出現(xiàn)不同視覺(jué)風(fēng)格的小鳥(niǎo)和背景。這是因?yàn)樽又悄荏w1和子智能體2的行動(dòng)基于相互沖突的未預(yù)設(shè)的假設(shè)。文章強(qiáng)調(diào),原則1和原則2是如此關(guān)鍵,以至于默認(rèn)應(yīng)該排除任何不遵守它們的多智能體架構(gòu)。
Cognition 推薦的架構(gòu)

最簡(jiǎn)單的遵循這些原則的方法是使用單線(xiàn)程線(xiàn)性智能體。在這種架構(gòu)中,上下文是連續(xù)的。然而,對(duì)于包含許多子部分的超大任務(wù),可能會(huì)出現(xiàn)上下文窗口溢出問(wèn)題。對(duì)于真正長(zhǎng)期運(yùn)行的任務(wù),文章提出了一種更高級(jí)的方法:引入一個(gè)新的LLM模型,其主要目的是將歷史行動(dòng)和對(duì)話(huà)壓縮成關(guān)鍵細(xì)節(jié)、事件和決策。這需要大量投入來(lái)確定什么是關(guān)鍵信息并構(gòu)建一個(gè)擅長(zhǎng)此任務(wù)的系統(tǒng)。

原則的應(yīng)用與實(shí)際案例

  • Claude Code子智能體: 截至2025年6月,Claude Code是一個(gè)會(huì)生成子任務(wù)的智能體,但它從不與子任務(wù)智能體并行工作,并且子任務(wù)智能體通常只負(fù)責(zé)回答問(wèn)題,不編寫(xiě)代碼。這是因?yàn)樽尤蝿?wù)智能體缺乏主智能體所需的上下文來(lái)執(zhí)行除回答明確定義的問(wèn)題之外的任何操作。如果并行運(yùn)行多個(gè)子智能體,它們可能會(huì)給出沖突的響應(yīng),導(dǎo)致可靠性問(wèn)題。在這種情況下,使用子智能體的好處是,子智能體的調(diào)查工作不需要保留在主智能體的歷史記錄中,從而允許在上下文耗盡之前進(jìn)行更長(zhǎng)的追蹤。
  • 編輯應(yīng)用模型(Edit Apply Models): 在2024年,許多模型在編輯代碼方面表現(xiàn)不佳。常見(jiàn)的做法是讓大型模型輸出代碼編輯的Markdown解釋?zhuān)缓髮⑦@些解釋提供給小型模型來(lái)實(shí)際重寫(xiě)文件。然而,這些系統(tǒng)仍然存在缺陷,小型模型經(jīng)常會(huì)因?yàn)橹噶钪械奈⑿∑缌x而誤解大型模型的指令并進(jìn)行不正確的編輯。如今,編輯決策和應(yīng)用通常由單個(gè)模型在一個(gè)行動(dòng)中完成。
多智能體協(xié)作的局限性

Cognition 文章指出,雖然讓決策者之間“對(duì)話(huà)”以解決問(wèn)題看似合理,就像人類(lèi)在分歧時(shí)會(huì)溝通一樣,但到2025年,智能體尚不能以比單個(gè)智能體更可靠的方式進(jìn)行這種長(zhǎng)上下文、主動(dòng)的交流。

人類(lèi)在高效地傳達(dá)重要知識(shí)方面非常高效,但這種效率需要非凡的智能。 自ChatGPT推出后不久,人們一直在探索多個(gè)智能體相互協(xié)作以實(shí)現(xiàn)目標(biāo)。盡管作者對(duì)未來(lái)智能體之間協(xié)作的可能性持樂(lè)觀(guān)態(tài)度,但目前來(lái)看,運(yùn)行多個(gè)智能體協(xié)作只會(huì)導(dǎo)致脆弱的系統(tǒng)。決策變得過(guò)于分散,并且智能體之間無(wú)法充分共享上下文。

跨智能體上下文傳遞的難題目前沒(méi)有人投入專(zhuān)門(mén)的精力去解決,并預(yù)測(cè)當(dāng)單線(xiàn)程智能體在與人類(lèi)溝通方面變得更好時(shí),這個(gè)問(wèn)題將“免費(fèi)”得到解決,從而解鎖更大的并行性和效率。


Anthropic - How we built our multi-agent research system 總結(jié)


Anthropic 的多智能體研究系統(tǒng)是一個(gè)利用多個(gè) Claude 智能體協(xié)同工作來(lái)更有效地探索復(fù)雜主題的系統(tǒng)。該系統(tǒng)旨在通過(guò)其研究功能,使 Claude 能夠跨網(wǎng)絡(luò)、Google Workspace 和任何集成進(jìn)行搜索,以完成復(fù)雜的任務(wù)。

多智能體系統(tǒng)的優(yōu)勢(shì)

研究工作涉及開(kāi)放性問(wèn)題,很難預(yù)先預(yù)測(cè)所需的步驟,因?yàn)檠芯窟^(guò)程本質(zhì)上是動(dòng)態(tài)且路徑依賴(lài)的。多智能體系統(tǒng)特別適合研究任務(wù),因?yàn)樗缶邆潇`活性,以便在調(diào)查過(guò)程中根據(jù)發(fā)現(xiàn)進(jìn)行調(diào)整或探索切線(xiàn)聯(lián)系。

多智能體系統(tǒng)能夠通過(guò)以下方式提升性能:

  • 并行操作和信息壓縮:子智能體能夠通過(guò)自己的上下文窗口并行運(yùn)行,同時(shí)探索問(wèn)題的不同方面,然后將最重要的信息提煉給主研究智能體。
  • 關(guān)注點(diǎn)分離:每個(gè)子智能體提供關(guān)注點(diǎn)分離——不同的工具、提示和探索軌跡——這減少了路徑依賴(lài),并實(shí)現(xiàn)了徹底、獨(dú)立的調(diào)查。
  • 擴(kuò)展性能:一旦智能達(dá)到某個(gè)閾值,多智能體系統(tǒng)就成為擴(kuò)展性能的重要方式,就像人類(lèi)社會(huì)通過(guò)集體智能和協(xié)調(diào)能力實(shí)現(xiàn)了指數(shù)級(jí)發(fā)展一樣。
  • 卓越的廣度優(yōu)先查詢(xún)能力:內(nèi)部評(píng)估顯示,多智能體研究系統(tǒng)在涉及同時(shí)追求多個(gè)獨(dú)立方向的廣度優(yōu)先查詢(xún)方面表現(xiàn)出色。例如,當(dāng)被要求識(shí)別信息技術(shù) S&P 500 公司所有董事會(huì)成員時(shí),多智能體系統(tǒng)通過(guò)將此任務(wù)分解為子智能體的任務(wù)找到了正確答案,而單個(gè)智能體系統(tǒng)則未能通過(guò)緩慢的順序搜索找到答案。
  • 高效的 token 使用:多智能體系統(tǒng)能夠消耗足夠的 token 來(lái)解決問(wèn)題。分析表明,token 使用本身解釋了 BrowseComp 評(píng)估中 80% 的性能差異,而工具調(diào)用次數(shù)和模型選擇是另外兩個(gè)解釋因素。多智能體架構(gòu)通過(guò)將工作分配給具有獨(dú)立上下文窗口的智能體來(lái)增加并行推理的能力,從而有效地?cái)U(kuò)展了 token 使用量。

然而,多智能體系統(tǒng)也有其缺點(diǎn):它們通常會(huì)快速消耗大量 token。在 Anthropic 的數(shù)據(jù)中,智能體通常比聊天交互多使用約 4 倍的 token,而多智能體系統(tǒng)則比聊天多使用約 15 倍的 token。因此,多智能體系統(tǒng)需要任務(wù)的價(jià)值足夠高,以支付其增加的性能成本,從而實(shí)現(xiàn)經(jīng)濟(jì)可行性。此外,一些需要所有智能體共享相同上下文或涉及許多智能體之間依賴(lài)關(guān)系的領(lǐng)域,目前不適合多智能體系統(tǒng),例如大多數(shù)編碼任務(wù)。

架構(gòu)概覽

Anthropic 的研究系統(tǒng)采用協(xié)調(diào)器-工作器(orchestrator-worker)模式的多智能體架構(gòu),其中一個(gè)主智能體協(xié)調(diào)整個(gè)過(guò)程,同時(shí)將任務(wù)委托給專(zhuān)門(mén)的并行操作的子智能體。

其工作流程如下:

  1. 1. 用戶(hù)提交查詢(xún)后,主智能體(LeadResearcher)會(huì)分析查詢(xún),制定策略,并生成子智能體來(lái)同時(shí)探索不同的方面。

  2. 2. LeadResearcher 首先思考其方法,并將計(jì)劃保存到內(nèi)存中以保留上下文,以防上下文窗口超過(guò) 200,000 個(gè) token 被截?cái)唷?/p>

  3. 3. 然后,它會(huì)創(chuàng)建專(zhuān)門(mén)的子智能體(Subagents),并分配具體的任務(wù)。

  4. 4. 每個(gè)子智能體獨(dú)立執(zhí)行網(wǎng)絡(luò)搜索,使用交錯(cuò)思考(interleaved thinking)評(píng)估工具結(jié)果,并將發(fā)現(xiàn)結(jié)果返回給 LeadResearcher。

  5. 5. LeadResearcher 綜合這些結(jié)果,并決定是否需要更多研究——如果需要,它可以創(chuàng)建額外的子智能體或調(diào)整其策略。

  6. 6. 一旦收集到足夠的信息,系統(tǒng)就會(huì)退出研究循環(huán),并將所有發(fā)現(xiàn)結(jié)果傳遞給一個(gè) CitationAgent(引用智能體),該智能體處理文檔和研究報(bào)告以識(shí)別具體的引用位置,確保所有聲明都正確歸因于其來(lái)源。

  7. 7. 最終的研究結(jié)果(包含引用)隨后返回給用戶(hù)。

與傳統(tǒng)使用檢索增強(qiáng)生成(RAG)的方法不同,Anthropic 的架構(gòu)使用多步驟搜索,動(dòng)態(tài)查找相關(guān)信息,適應(yīng)新發(fā)現(xiàn),并分析結(jié)果以形成高質(zhì)量的答案。


提示工程與評(píng)估

多智能體系統(tǒng)與單智能體系統(tǒng)存在關(guān)鍵差異,包括協(xié)調(diào)復(fù)雜性的快速增長(zhǎng)。提示工程是 Anthropic 改進(jìn)智能體行為的主要手段。

學(xué)到的提示原則包括:

  1. 1. 像你的智能體一樣思考:理解提示的效果,通過(guò)模擬觀(guān)察智能體一步步工作,從而發(fā)現(xiàn)故障模式。

  2. 2. 教導(dǎo)協(xié)調(diào)器如何委派任務(wù):主智能體需要將查詢(xún)分解為子任務(wù),并向子智能體描述它們。每個(gè)子智能體都需要明確的目標(biāo)、輸出格式、工具和來(lái)源的使用指導(dǎo)以及清晰的任務(wù)邊界,以避免重復(fù)工作或遺漏信息。

  3. 3. 根據(jù)查詢(xún)復(fù)雜性調(diào)整工作量:在提示中嵌入擴(kuò)展規(guī)則,以幫助主智能體高效分配資源并防止在簡(jiǎn)單查詢(xún)上過(guò)度投入。簡(jiǎn)單的查證可能只需要 1 個(gè)智能體和 3-10 次工具調(diào)用,而復(fù)雜的研究可能需要 10 個(gè)以上的子智能體。

  4. 4. 工具設(shè)計(jì)和選擇至關(guān)重要:智能體-工具接口與人機(jī)接口同樣重要。確保每個(gè)工具都有明確的目的和清晰的描述,并向智能體提供明確的啟發(fā)式規(guī)則(例如,優(yōu)先使用專(zhuān)用工具而非通用工具)。

  5. 5. 讓智能體自我改進(jìn):Claude 4 模型可以作為優(yōu)秀的提示工程師,當(dāng)給定提示和失敗模式時(shí),它們能夠診斷失敗原因并提出改進(jìn)建議。Anthropic 甚至創(chuàng)建了一個(gè)工具測(cè)試智能體,能夠測(cè)試有缺陷的工具并重寫(xiě)其描述以避免失敗。

  6. 6. 先廣后深:搜索策略應(yīng)模仿人類(lèi)專(zhuān)家研究:先探索概況,再深入細(xì)節(jié)。通過(guò)提示智能體從簡(jiǎn)短、寬泛的查詢(xún)開(kāi)始,評(píng)估可用信息,然后逐步縮小焦點(diǎn)。

  7. 7. 引導(dǎo)思考過(guò)程:擴(kuò)展思考模式(Extended thinking mode)作為可控的草稿本,使 Claude 輸出額外的 token,用于規(guī)劃、評(píng)估工具適用性、確定查詢(xún)復(fù)雜度和子智能體數(shù)量,并定義每個(gè)子智能體的角色。

  8. 8. 并行工具調(diào)用提升速度和性能:通過(guò)讓主智能體并行啟動(dòng)子智能體,以及子智能體并行使用多個(gè)工具,將復(fù)雜查詢(xún)的研究時(shí)間縮短了高達(dá) 90%。

Anthropic 的提示策略側(cè)重于灌輸良好的啟發(fā)式規(guī)則而非僵硬的規(guī)則,通過(guò)研究人類(lèi)專(zhuān)家如何進(jìn)行研究并將其策略編碼到提示中,如將難題分解為小任務(wù)、評(píng)估來(lái)源質(zhì)量、根據(jù)新信息調(diào)整搜索方法以及識(shí)別何時(shí)應(yīng)注重深度或廣度。

智能體的有效評(píng)估

評(píng)估多智能體系統(tǒng)面臨獨(dú)特的挑戰(zhàn),因?yàn)榧词蛊瘘c(diǎn)相同,智能體也可能采取完全不同的有效路徑來(lái)達(dá)到目標(biāo)12。評(píng)估方法需要靈活,既要判斷智能體是否達(dá)到了正確的結(jié)果,也要判斷其過(guò)程是否合理。

關(guān)鍵評(píng)估方法包括:

  • 立即開(kāi)始小樣本評(píng)估:在早期開(kāi)發(fā)階段,即使是少數(shù)測(cè)試用例也能揭示巨大的影響,因?yàn)樾Ч?guī)模往往很大。
  • LLM 作為裁判的評(píng)估:研究輸出通常是自由形式文本,沒(méi)有單一正確答案,LLM 適合作為評(píng)分裁判。Anthropic 使用 LLM 裁判根據(jù)事實(shí)準(zhǔn)確性、引用準(zhǔn)確性、完整性、來(lái)源質(zhì)量和工具效率等標(biāo)準(zhǔn)來(lái)評(píng)估輸出。
  • 人工評(píng)估發(fā)現(xiàn)自動(dòng)化遺漏的問(wèn)題:人工測(cè)試人員能夠發(fā)現(xiàn)自動(dòng)化評(píng)估可能遺漏的邊緣情況,例如異常查詢(xún)上的幻覺(jué)答案、系統(tǒng)故障或微妙的來(lái)源選擇偏差。
  • 多智能體系統(tǒng)具有涌現(xiàn)行為,其行為并非通過(guò)特定編程產(chǎn)生。理解交互模式至關(guān)重要,最好的提示不是嚴(yán)格的指令,而是定義分工、問(wèn)題解決方法和工作量預(yù)算的協(xié)作框架。
生產(chǎn)可靠性和工程挑戰(zhàn)

將智能體系統(tǒng)從原型轉(zhuǎn)化為可靠的生產(chǎn)系統(tǒng)面臨顯著的工程挑戰(zhàn),因?yàn)榇硐到y(tǒng)中的錯(cuò)誤具有復(fù)合性質(zhì)。

主要挑戰(zhàn)包括:

  • 智能體有狀態(tài)且錯(cuò)誤會(huì)累積:智能體可以長(zhǎng)時(shí)間運(yùn)行并跨多個(gè)工具調(diào)用保持狀態(tài)。次要系統(tǒng)故障可能對(duì)智能體造成災(zāi)難性影響。Anthropic 構(gòu)建了能夠從錯(cuò)誤發(fā)生的地方恢復(fù)的系統(tǒng),并利用模型的智能來(lái)優(yōu)雅地處理問(wèn)題,例如在工具失敗時(shí)通知智能體并讓其適應(yīng)。
  • 調(diào)試需要新方法:智能體做出動(dòng)態(tài)決策,并且在運(yùn)行之間是非確定性的,即使提示相同也如此,這使得調(diào)試更加困難。通過(guò)添加完整的生產(chǎn)追蹤,Anthropic 能夠診斷智能體失敗的原因并系統(tǒng)地修復(fù)問(wèn)題。
  • 部署需要仔細(xì)協(xié)調(diào):智能體系統(tǒng)是高度有狀態(tài)的提示、工具和執(zhí)行邏輯的網(wǎng)絡(luò),幾乎連續(xù)運(yùn)行。Anthropic 使用彩虹部署(rainbow deployments),通過(guò)逐步將流量從舊版本轉(zhuǎn)移到新版本,同時(shí)保持兩者同時(shí)運(yùn)行,從而避免中斷正在運(yùn)行的智能體。
  • 同步執(zhí)行造成瓶頸:目前,Anthropic 的主智能體同步執(zhí)行子智能體,等待每組子智能體完成后再繼續(xù)。這簡(jiǎn)化了協(xié)調(diào),但在智能體之間的信息流中造成了瓶頸,例如主智能體無(wú)法引導(dǎo)子智能體,整個(gè)系統(tǒng)可能被阻塞。異步執(zhí)行將實(shí)現(xiàn)額外的并行性,但會(huì)增加結(jié)果協(xié)調(diào)、狀態(tài)一致性和錯(cuò)誤傳播的挑戰(zhàn)。
結(jié)論與價(jià)值

盡管面臨這些挑戰(zhàn),多智能體系統(tǒng)已被證明對(duì)開(kāi)放式研究任務(wù)非常有價(jià)值。

用戶(hù)反饋稱(chēng),Claude 幫助他們發(fā)現(xiàn)了未曾考慮的商業(yè)機(jī)會(huì),導(dǎo)航復(fù)雜的醫(yī)療保健選項(xiàng),解決了棘手的技術(shù)錯(cuò)誤,并節(jié)省了數(shù)天的工作時(shí)間,因?yàn)榘l(fā)現(xiàn)了他們獨(dú)自無(wú)法找到的研究聯(lián)系。

通過(guò)精心的工程設(shè)計(jì)、全面的測(cè)試、注重細(xì)節(jié)的提示和工具設(shè)計(jì)、強(qiáng)大的操作實(shí)踐以及研究、產(chǎn)品和工程團(tuán)隊(duì)之間的緊密協(xié)作,多智能體研究系統(tǒng)能夠可靠地大規(guī)模運(yùn)行。

目前,研究功能最常見(jiàn)的使用案例包括:開(kāi)發(fā)專(zhuān)業(yè)領(lǐng)域軟件系統(tǒng)(10%)、開(kāi)發(fā)和優(yōu)化專(zhuān)業(yè)技術(shù)內(nèi)容(8%)、開(kāi)發(fā)業(yè)務(wù)增長(zhǎng)和收入生成策略(8%)、協(xié)助學(xué)術(shù)研究和教育材料開(kāi)發(fā)(7%),以及研究和驗(yàn)證人員、地點(diǎn)或組織信息(5%)。


整理和翻譯不易,覺(jué)得有用的話(huà)可以給個(gè)三連,感謝?

參考:

https://www.anthropic.com/engineering/built-multi-agent-research-system

https://cognition.ai/blog/dont-build-multi-agents

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
莆田90萬(wàn)騙婚后續(xù):新娘父親回應(yīng),家里有2個(gè)兒子,臨時(shí)加價(jià)90萬(wàn)

莆田90萬(wàn)騙婚后續(xù):新娘父親回應(yīng),家里有2個(gè)兒子,臨時(shí)加價(jià)90萬(wàn)

江山揮筆
2025-06-24 15:26:59
女大學(xué)生對(duì)比照火了,一樣的衣服,卻一眼看出窮養(yǎng)和富養(yǎng)的區(qū)別

女大學(xué)生對(duì)比照火了,一樣的衣服,卻一眼看出窮養(yǎng)和富養(yǎng)的區(qū)別

知曉科普
2025-06-25 15:00:11
不出意外,中國(guó)未來(lái)超50%人,將流入這幾個(gè)城市,房?jī)r(jià)或反彈

不出意外,中國(guó)未來(lái)超50%人,將流入這幾個(gè)城市,房?jī)r(jià)或反彈

巢客HOME
2025-06-25 09:40:03
劉越:劉誠(chéng)宇和蒯紀(jì)聞表現(xiàn)都可以 申花對(duì)李可的引進(jìn)是成功的

劉越:劉誠(chéng)宇和蒯紀(jì)聞表現(xiàn)都可以 申花對(duì)李可的引進(jìn)是成功的

直播吧
2025-06-25 18:11:12
被央視除名,又一個(gè)女明星涼了

被央視除名,又一個(gè)女明星涼了

獨(dú)立魚(yú)
2025-06-24 23:56:29
騰訊PR不識(shí)自家前安全大佬遭吐槽

騰訊PR不識(shí)自家前安全大佬遭吐槽

大廠(chǎng)觀(guān)察
2025-06-25 19:02:47
每年70萬(wàn)人因肺癌而死!再次勸告:天熱寧可吹吹風(fēng)扇,也別做6事

每年70萬(wàn)人因肺癌而死!再次勸告:天熱寧可吹吹風(fēng)扇,也別做6事

嘆為觀(guān)止易
2025-06-17 11:44:21
吳謙大校警告:人民如果長(zhǎng)期歌舞升平、娛樂(lè)至死,離危亡就不遠(yuǎn)了

吳謙大校警告:人民如果長(zhǎng)期歌舞升平、娛樂(lè)至死,離危亡就不遠(yuǎn)了

boss外傳
2025-05-04 17:20:03
女排前隊(duì)長(zhǎng)為排球與前夫離婚,與現(xiàn)任分居20多年,遺憾奧運(yùn)未奪冠

女排前隊(duì)長(zhǎng)為排球與前夫離婚,與現(xiàn)任分居20多年,遺憾奧運(yùn)未奪冠

觀(guān)察鑒娛
2025-06-25 10:11:33
同比暴跌70%,國(guó)人為什么不買(mǎi)瑪莎拉蒂了?

同比暴跌70%,國(guó)人為什么不買(mǎi)瑪莎拉蒂了?

優(yōu)視汽車(chē)
2025-06-24 09:45:02
轉(zhuǎn)會(huì)預(yù)算還有兩億!利物浦簽維爾茨后還有好戲,伊薩克真要來(lái)了?

轉(zhuǎn)會(huì)預(yù)算還有兩億!利物浦簽維爾茨后還有好戲,伊薩克真要來(lái)了?

銳評(píng)利物浦
2025-06-25 23:12:53
《以法之名》張文菁含冤認(rèn)罪,李人駿借老婆家世攀上蘭書(shū)記

《以法之名》張文菁含冤認(rèn)罪,李人駿借老婆家世攀上蘭書(shū)記

動(dòng)物奇奇怪怪
2025-06-26 01:52:39
40.2℃!福建局部有大雨到暴雨!還有熱帶低壓,預(yù)計(jì)明天登陸,永春天氣……

40.2℃!福建局部有大雨到暴雨!還有熱帶低壓,預(yù)計(jì)明天登陸,永春天氣……

永春生活網(wǎng)
2025-06-25 19:30:24
本科最慘的4個(gè)專(zhuān)業(yè)!畢業(yè)生過(guò)度飽和,學(xué)歷再高也失業(yè)?

本科最慘的4個(gè)專(zhuān)業(yè)!畢業(yè)生過(guò)度飽和,學(xué)歷再高也失業(yè)?

譚老師地理工作室
2025-06-23 18:52:47
2.3億頂薪!安東尼·戴維斯拒絕獨(dú)行俠,真相讓人震驚!

2.3億頂薪!安東尼·戴維斯拒絕獨(dú)行俠,真相讓人震驚!

萌比比
2025-06-25 09:28:45
外媒:聯(lián)合國(guó)發(fā)言人稱(chēng),聯(lián)合國(guó)已決定將一些國(guó)際職員暫時(shí)從伊朗撤離

外媒:聯(lián)合國(guó)發(fā)言人稱(chēng),聯(lián)合國(guó)已決定將一些國(guó)際職員暫時(shí)從伊朗撤離

環(huán)球網(wǎng)資訊
2025-06-24 19:49:24
一個(gè)獅頭鵝頭能賣(mài)上千元,這么值錢(qián)為何沒(méi)全國(guó)推廣?原因很現(xiàn)實(shí)

一個(gè)獅頭鵝頭能賣(mài)上千元,這么值錢(qián)為何沒(méi)全國(guó)推廣?原因很現(xiàn)實(shí)

貍貓之一的動(dòng)物圈
2025-06-24 09:39:54
毛主席遺體防腐每年花費(fèi)無(wú)數(shù),永久保存的水晶棺,純度高達(dá)99.99%

毛主席遺體防腐每年花費(fèi)無(wú)數(shù),永久保存的水晶棺,純度高達(dá)99.99%

南權(quán)先生
2025-06-24 12:10:24
新的風(fēng)暴已到來(lái),中國(guó)必須面對(duì)!專(zhuān)家:有3個(gè)棘手的挑戰(zhàn)已經(jīng)出現(xiàn)

新的風(fēng)暴已到來(lái),中國(guó)必須面對(duì)!專(zhuān)家:有3個(gè)棘手的挑戰(zhàn)已經(jīng)出現(xiàn)

聯(lián)友說(shuō)娛
2025-06-17 10:13:27
男子與兩名女子車(chē)震,引發(fā)1死2傷命案

男子與兩名女子車(chē)震,引發(fā)1死2傷命案

深度報(bào)
2025-06-11 23:37:55
2025-06-26 02:48:49
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
關(guān)注人工智能、LLM 、 AI 圖像視頻和設(shè)計(jì)
112文章數(shù) 31關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線(xiàn)500輛展車(chē) 26日前運(yùn)往全國(guó)

頭條要聞

廣東一飯店米飯免費(fèi)老人每天打米飯配醬油吃 店主發(fā)聲

頭條要聞

廣東一飯店米飯免費(fèi)老人每天打米飯配醬油吃 店主發(fā)聲

體育要聞

驚艷世俱杯的39歲少帥,一個(gè)另類(lèi)的巴西人

娛樂(lè)要聞

向佐接機(jī)郭碧婷,全程無(wú)交流像陌生人

財(cái)經(jīng)要聞

免除蘇寧易購(gòu)5億債務(wù)的神秘人是誰(shuí)?

汽車(chē)要聞

對(duì)話(huà)王媛:在世界的游樂(lè)場(chǎng),一起龐巴迪

態(tài)度原創(chuàng)

房產(chǎn)
游戲
本地
教育
軍事航空

房產(chǎn)要聞

三亞頂豪!內(nèi)部資料曝光!

任天堂真的很?chē)?yán)格!Switch2玩家因起名太騷被"ban機(jī)"

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

教育要聞

干貨!化學(xué)考前精華整理

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開(kāi)啟

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 清流县| 克什克腾旗| 儋州市| 迭部县| 隆林| 常德市| 永顺县| 吉木乃县| 宝兴县| 宁波市| 平陆县| 青河县| 手游| 西林县| 边坝县| 九寨沟县| 呼图壁县| 眉山市| 社旗县| 黄梅县| 额尔古纳市| 宁河县| 五寨县| 乌拉特中旗| 潞西市| 永善县| 蓬安县| 双峰县| 孟津县| 泰宁县| 堆龙德庆县| 齐河县| 昌吉市| 钦州市| 广南县| 屯门区| 双桥区| 余江县| 永寿县| 卫辉市| 凯里市|