故事的開端,是一組來自研究機構Epoch AI的驚人數據[1]:在AI領域,訓練成本正以每年2.4倍的速度瘋狂增長,到2027年可能突破10億美元大關。然而,性能的提升卻步履維艱。
這種殘酷的“剪刀差”,正是思想家Toby Ord在其文章《規模化悖論》[2]中所描述的——我們正用越來越昂貴的資源,換取越來越微小的進步。AI智能,正不可避免地撞上成本與物理的“玻璃天花板”。
如何突破這道天花板?
2025年6月,硅谷兩位最頂尖的“解題者”——創造了Devin的Cognition與打造了Claude 4的Anthropic——幾乎同時給出了水火不容的答案。
Cognition發表了一篇題為《不要構建多智能體》[3]的“異端”檄文,向行業最火熱的“智能體大軍”范式潑了一盆冷水。而幾乎是前后腳,Anthropic針鋒相對地發布了《我們如何構建多智能體研究系統》[4],用詳實的數據和復雜的架構,展示了他們對多智能體路線的堅定信仰。
當最聰明的大腦給出完全相反的答案時,到底誰錯了?或者,他們都看到了我們沒看到的東西?這場巔峰對決的背后,隱藏著一個深刻的、價值萬億的困境:如何有效地“規模化”(Scale)AI的智能產出。他們的選擇,不僅定義了各自的未來,也為我們所有人揭示了AI規模化道路上,一個殘酷的真相。
第一章:解法一 · Cognition的“垂直深耕”:向心智深處要效率 診斷問題:規模化的頭號敵人是“熵增”
Cognition的哲學,可以用一句話概括:在一個漏水的船上,增加再多的劃槳手也無濟于事。他們認為,當前AI系統的根本問題在于其內在的不可靠性。盲目地增加AI智能體的數量,并不會帶來效率的線性增長,反而會因為協調和溝通的混亂,導致錯誤的指數級放大。
這在系統論中,被稱為“熵增”——一個孤立系統總是趨向于從有序走向無序。在軟件工程領域,這早有印證,經典的《人月神話》告訴我們,為一個延期的項目增加人手,只會讓它更晚完成。Cognition用實踐證明,這個定律在AI世界同樣適用。
他們的檄文中,那個著名的“開發Flappy Bird”的案例,就是對“熵增”最生動的演繹。
上圖生動展示了這場協同災難。這就像一個頂級交響樂團,小提琴手在演奏巴赫,而圓號手卻吹起了爵士樂。每個樂手技藝高超,但整場演出是一場災難。每一個獨立的部件都近乎完美,但組合在一起,卻成了一個毫無價值的“縫合怪”。
這就是Cognition所說的“合成謬誤”。每一個子智能體都基于自己看不見的“隱性決策”采取行動,當這些決策無法對齊時,混亂便不可避免。
別以為這只是個例。根據一份2025年對七個主流多智能體框架的大型研究[5],研究者系統性地歸納了14種常見的失敗模式(MAST分類)。其中,軟件開發智能體系統ChatDev在編程任務上的正確率僅有33.3%[6];而模擬跨應用操作的AppWorld系統,失敗率更是高達驚人的86.7%。這些冰冷的數據,都指向了Cognition的診斷:多智能體協作,正在成為AI系統“熵增”的重災區。
解決方案:打造“低熵體”,用可靠性對抗復雜性
面對“熵增”這個強大的敵人,Cognition沒有選擇在混亂中建立秩序,而是反其道而行之,選擇從根源上消除混亂的來源。
他們的答案是:打造一個極致可靠、上下文連貫的“低熵智能體”。
這個方案的核心武器,就是他們提出的“上下文工程”(Context Engineering)。如果說“提示詞工程”是教AI“聽懂話”,那“上下文工程”就是讓AI擁有“完美的記憶力”,能理清思路、記住前因后果。它確保了在一個長周期的復雜任務中,AI的核心“心智”始終是單一且連貫的。
這個“低熵體”就像一個高度有序的晶體結構,內部信息傳遞高效且無損。而普通的多智能體系統,則更像一團混亂的氣體,每個分子(智能體)都在進行著無法預測的布朗運動。
為了維持這種“低熵”狀態,尤其是在處理超長任務時,Cognition還祭出了一項秘密武器——“上下文壓縮機”。這并非簡單的信息檢索(RAG),而是一種更高級的“主動提煉”。它像一個AI的“海馬體”,能動態地理解任務進展,將冗長的過程壓縮成“關鍵決策”和“核心事件”的摘要,確保AI在漫長的旅途中“不忘初心”。
Cognition在賭一個看似反直覺的未來:真正的智能規模化,不是通過增加“大腦”的數量,而是通過提升單個“大腦”的內在品質——它的可靠性、記憶力和專注力。
第二章:解法二 · Anthropic的“并行擴張”:向群體智慧要規模
幾乎在Cognition發表檄文的同一時間,Anthropic給出了一個截然不同的答案。他們的文章沒有絲毫的哲學思辨,而是用工程師的語言,和冷冰冰的數據,構建了一個完全對立的世界。
診斷問題:規模化的核心瓶頸是“帶寬”
Anthropic的診斷直擊要害:單個智能體的核心瓶瓶頸在于其有限的“注意力帶寬”。就像一個人無論多聰明,也無法同時閱讀和理解一百本書。AI的上下文窗口和順序處理能力,就是它的“帶寬”上限。當面臨一個需要整合海量信息的復雜問題時,這個瓶頸是致命的。
因此,唯一的出路就是——砸碎瓶頸,實現并行。
為了證明這一點,Anthropic在他們的報告中給出了一個堪稱“數據暴擊”的發現:在他們的研究中,模型在推理過程中消耗的Token總量,可以解釋80%的最終性能差異。
這個發現的驚人之處在于,它近乎粗暴地揭示了一個真理:在當前階段,很多時候“大力”真的能出奇跡。投入更多的計算資源(Token),就等于更好的結果。
緊接著,他們給出了第二個重磅數據:在內部研究評估中,**一個由Claude Opus 4作為“領導”,多個Claude Sonnet 4作為“員工”的多智能體系統,其性能比單個、更強大的Claude Opus 4高出整整90.2%**。
他們用一個生動的案例強化了這一觀點:當被要求“找出標準普爾500指數中所有IT公司的董事會成員”時,單個智能體陷入了緩慢的、一個接一個的線性搜索,最終失敗。而多智能體系統則像一個高效的情報中心,多路并進,迅速鎖定了目標。
這與Cognition的“Flappy Bird”悲劇,形成了最鮮明的對比。一個因無法協同而失敗,一個因高效協同而成功。
解決方案:構建“分布式認知系統”,用管理駕馭并行
如果說Cognition的方案是打造一個“天才工匠”,那么Anthropic的方案就是建立一座“現代化工廠”。他們承認并行的混亂,但堅信,這種混亂是可以通過精密的“管理學”來駕馭的。
他們的多智能體研究系統,就是一座管理森嚴的“AI工廠”。
Anthropic的多智能體架構圖
這張來自Anthropic官方博客的架構圖[7],清晰地展示了他們的“AI公司”是如何運作的:
組織架構(“編排-工作者”模式):有一個作為“CEO”的LeadResearcher(領導研究員),負責拆解任務、制定計劃。
部門經理(Subagents):CEO會將具體的子任務,分配給多個并行的Subagents(子智能體)。每個子智能體都帶著明確的KPI(任務指令)去執行。
中央數據庫(Memory):CEO會把整體計劃儲存在“Memory”中,防止因為任務過長、上下文窗口溢出而“忘記”了最初的目標。
法務合規部(CitationAgent):在所有研究完成后,還有一個專門的CitationAgent(引用智能體),負責檢查所有信息的來源,確保最終報告的每一句話都有據可查,把“法務”工作都配齊了。
Anthropic的工程師們甚至在文章中分享了他們的“管理心得”,比如要“教會編排者如何委托”,指令不能含糊,必須清晰具體;要“根據查詢復雜性擴展工作量”,不能用牛刀殺雞;甚至要“讓智能體自我改進提示”,鼓勵AI員工提出合理化建議。
這套復雜的系統,無異于在代碼中復刻了一套現代公司的管理體系。Anthropic的賭注是,只要“管理”足夠精細,群體的智慧就必然能超越個體的極限,實現1+1>2的“涌現智能”。
第三章:真相 · AI的“不可能三角”:一場關于成本與價值的殘酷權衡
Cognition的“單體極致”和Anthropic的“群體智能”,誰對誰錯?
當我們跳出技術細節,從一個更高的維度審視這場對決時,會發現這并非技術路線之爭,而是商業模式和價值哲學的根本分歧。這背后,是一個深刻而殘酷的經濟學現實,我們可以稱之為——AI的“不可能三角”。
在追求AI智能規模化的道路上,可靠性(Reliability)、效率(Efficiency)和經濟性(Economy)這三個目標,你永遠無法同時擁有。你最多只能選擇其中兩個,而被迫犧牲另一個。
終極框架:“可靠、高效、廉價”,你只能選兩個
這個框架完美地解釋了Cognition與Anthropic的戰略選擇,也得到了行業領袖們言論的印證。
Cognition的選擇:極致的“可靠”,犧牲了“經濟性”。Cognition的“上下文工程”和“單體智能”,是為了在軟件工程這類高風險、要求上下文絕對一致的任務上,實現無與倫比的可靠性。這種可靠性本身就是一種效率。但為了實現這一點,他們投入了巨大的前期研發成本,并且這種模式可能難以在所有領域低成本地規模化。
Anthropic的選擇:極致的“效率”,也犧牲了“經濟性”。Anthropic的多智能體系統,是為了在信息搜集這類可大規模并行的任務上,實現無與倫比的效率。但這種效率的代價是驚人的。根據他們的報告,多智能體系統消耗的Token是普通聊天的15倍。這相當于用開戰斗機的成本去送外賣,除非這份外賣價值連城。與此同時,他們還需要投入巨大的“管理成本”(復雜的工程和提示設計)來保證系統的可靠性。
這個“不可能三角”,在AI領袖們的言論中得到了反復驗證。NVIDIA的CEO黃仁勛宣稱,下一代AI需要百倍的算力[8]才能實現更好的推理(追求效率和可靠性,不談經濟性)。Meta的Yann LeCun則一針見血地指出,AI最大的成本不在訓練,而在推理[9],當AI走向大眾,經濟性將成為核心命題。
而這不僅僅是Token費用。根據一份針對企業AI應用的總擁有成本(TCO)的分析[10],那些看不見的“隱性成本”——從數據管道維護到專業人才——占據了總支出的60%到80%。對于核心業務,這意味著每年高達600萬至1200萬美元的真實投入。
在“不可能三角”的殘酷現實面前,AI的免費午餐時代,或許真的要結束了。
結語:未來屬于能駕馭“雙面繡”的大師
那么,這場對決的終局是什么?
答案是,沒有終極贏家,只有更聰明的“使用者”。
未來最成功的組織,將是那些能深刻理解這個“不可能三角”,并能根據不同任務性質,靈活切換和組合這兩種模式的“雙面繡”大師。
這個設想并非空穴來風。在AI研究的前沿,關于“混合智能體系統”(Hybrid Agentic Systems)的探索已經開始。2025年涌現的MetaOrch[11](神經編排框架)和DynTaskMAS[12](動態任務圖)等研究,都在嘗試構建一種自適應的AI系統——它能智能地判斷一個任務的性質,然后決定是調用一個Cognition式的“專家內核”來深度執行,還是啟動一個Anthropic式的“并行工廠”來廣泛搜集。
這或許才是AI規模化困境的最終解。
現在,請審視你自己的工作流:你是在“寫一部長篇小說”(需要上下文連貫的Cognition模式),還是在“完成一份市場調研報告”(可以并行搜集的Anthropic模式)?你愿意為你的AI,支付怎樣的“可靠性溢價”或“效率溢價”?
你的答案,決定了你將在AI的哪個未來中獲勝。
參考資料
Epoch AI的驚人數據: https://epoch.ai/blog/how-much-does-it-cost-to-train-frontier-ai-models
《規模化悖論》: https://www.tobyord.com/writing/the-scaling-paradox
《不要構建多智能體》: https://cognition.ai/blog/dont-build-multi-agents
《我們如何構建多智能體研究系統》: https://www.anthropic.com/engineering/built-multi-agent-research-system
[5]
大型研究: https://arxiv.org/pdf/2503.13657.pdf
[6]
正確率僅有33.3%: https://ailearninsights.substack.com/p/why-multi-agent-ai-systems-fail-like
[7]
架構圖: https://www.anthropic.com/engineering/built-multi-agent-research-system
[8]
百倍的算力: https://www.cnbc.com/2025/02/26/nvidia-ceo-huang-says-next-generation-ai-will-need-more-compute.html
[9]
不在訓練,而在推理: https://globaladvisors.biz/2025/02/04/quote-yann-lecun/
[10]
總擁有成本(TCO)的分析: https://www.linkedin.com/pulse/true-cost-open-source-llms-6m12m-annually-devansh-devansh-wzemf
[11]
MetaOrch: https://www.arxiv.org/pdf/2505.02861.pdf
[12]
DynTaskMAS: http://arxiv.org/pdf/2503.07675.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.