網易首頁 > 網易號 > 正文申請入駐

真正的智能體即將登場：它們將被訓練，而不是定義好的工作流

2025-03-13 23:16:09　來源: AI范兒

上海舉報

分享至

【本文翻譯自 Vintage Data】

如今，AI 智能體（Agents）隨處可見。但在智能體大語言模型（Agentic LLM）研究領域，最重要的突破卻鮮有人關注。

2025 年 1 月，OpenAI 發布了 DeepResearch，這是 O3 語言模型的一個專門版本，主要用于網頁和文檔搜索。由于其“在瀏覽任務上的強化學習訓練”，DeepResearch 具備了規劃搜索策略、交叉比對信息源，并根據中間反饋檢索小眾知識的能力。Claude Sonnet 3.7 似乎在編程領域復刻了這一模式，在復雜的代碼任務序列上，其表現超越了以往基于多個模型協同工作的方式。

簡而言之，正如 William Brown 所言：“LLM 智能體已經具備執行長時間、多步任務的能力。”

這一進展促使人們重新思考 LLM 智能體的定義。2024 年 12 月，Anthropic 提出了新的定義：“LLM 智能體是一種可以動態掌控自身任務流程和工具使用方式的系統，能夠自主決定如何完成目標?！?/p>

相比之下，更常見的智能體系統屬于“工作流”（workflows），即 LLM 和工具按照預定義的代碼路徑協同運行。最近受到廣泛關注的 Manus AI 就是典型案例。我在周末的測試結果表明，這類工作流系統仍然存在 AutoGPT 時代的根本性問題，尤其在搜索任務上暴露明顯短板：

- 無法規劃搜索路徑，經常陷入死循環；

- 記憶力不足，難以維持任務超過 5-10 分鐘；

- 長期行動效果欠佳，任務序列往往因誤差累積而失敗。

本文基于新的 LLM 智能體定義，嘗試整理現有研究進展。這些信息來自大型 AI 研究機構的有限公開資料、開源研究社區的復現實驗，以及個人的一些推測。

▍簡單 LLM 智能體的“殘酷現實”

基礎語言模型的工作方式與智能體概念幾乎背道而馳。

在經典的智能體研究中，智能體通常被置于受限環境中。例如，在迷宮中，你只能朝某些方向移動，不能隨意穿墻、飛行或消失。你的行動受物理規則（以及可能的游戲規則）約束。然而，即便在這樣的限制下，智能體仍然可以擁有一定的自由度，因為通往終點的路徑不止一條。但不管選擇哪種方式，每一步行動都必須圍繞最終目標——贏得游戲、獲得獎勵——展開。優秀的智能體會逐步記住自己的行動軌跡，并歸納出高效的策略和模式。

這種方式被稱為“搜索”（search）。這個比喻非常形象：智能體在迷宮中探索最優路線，就像用戶在搜索引擎上點擊不同的鏈接一樣。搜索算法的研究已有數十年的歷史，比如 Q-star——一度被傳為 OpenAI 新一代 O 系列模型背后的核心算法（盡管目前尚不明確）——實際上是 1968 年 A-Star 搜索算法的變體。近期最具代表性的例子是 Pufferlib 進行的寶可夢強化學習實驗：在訓練過程中，我們可以看到智能體不斷嘗試不同的路徑，失敗、回溯，并最終找到最優解。

基礎語言模型的運行方式，與真正的智能體幾乎完全相反：

-智能體會記住環境，而基礎模型不會。LLM 只能依賴當前上下文窗口的內容，無法長期存儲信息。

-智能體受限于“有限理性”，而 LLM 僅僅是在預測可能的文本。雖然這種方式有時會得出看似合理的推理，但它并不受嚴格的邏輯約束，可能隨時偏離原有思路，僅僅是為了生成更符合語言風格的文本。

-智能體可以制定長期策略，而 LLM 無法真正規劃未來。智能體可以提前預判并做出決策，甚至在出現問題時回溯調整；而 LLM 只能處理單步推理任務，一旦需要跨多個步驟的復雜推理，它很快就會力不從心。LLM 遵循的是文本生成規則，而非物理定律或游戲規則。

目前，大多數 LLM 智能體的實現方式，是通過預設提示詞（prompts）和規則來約束輸出。這在短期內能帶來一定效果，但從長期來看，它無法突破 Richard Sutton 提出的“痛苦教訓”（The Bitter Lesson）。

許多人誤解了“痛苦教訓”，以為它只是一種 LLM 預訓練指南。實際上，它最初是針對智能體研究的，并警示研究人員：直接把知識硬編碼到模型里，并不是長久之計。舉個例子，如果智能體遇到障礙物，它可以被硬編碼為自動避開或回溯。這種方法在短期內確實能提升表現，并且不需要額外訓練模型。然而，從長期來看，它往往會導致模型陷入次優解，甚至在意外場景下完全崩潰。

核心觀點是：按照人類的思維模式設計 AI，在長期來看是無效的。

這一理論基于以下觀察：

1. AI 研究人員往往傾向于直接構建知識，讓智能體依賴硬編碼規則；

2. 這種方式短期內確實有效，并能給研究者帶來正反饋；

3. 但從長期來看，它會限制智能體的發展，導致性能停滯甚至退步；

4. 重大 AI 突破往往源于相反的方法，即通過大規模計算、搜索和學習來提升能力。

這種成功往往帶著“苦澀”，因為它推翻了人們原本鐘愛的“知識嵌入”思路。

如果我們把這一理論應用到當今的 LLM 生產環境，會發現許多主流方法仍然是在“構建知識”。Manus 這樣的 LLM 工作流系統，本質上是用一系列預設的提示詞來引導模型。這可能是當前最現實的方案，因為它不需要重新訓練模型，但它并不是最優的解決方案。最終，這種方法只能得到一種“生成式 AI + 規則系統”的混合體——它讓 AI 以一種固定模式來理解世界，比如空間、物體、多智能體之間的交互等。

換句話說，如果 Manus AI 不能正確訂票，或無法提供合理的生存建議，這不是因為它的設計出了問題，而是因為它遭遇了“痛苦教訓”：

- 單純依賴提示詞（prompts）無法擴展。

- 硬編碼規則（rules）無法擴展。

如果要打造真正的 LLM 智能體，就必須設計能夠搜索、規劃并執行任務的系統。

▍RL+推理：大模型智能體的制勝之道

關于 LLM 智能體的真正突破，外界所知甚少。Anthropic、OpenAI、DeepMind 等少數實驗室掌握核心技術，而我們只能從零星的官方披露、傳聞和有限的開源研究中拼湊線索。

1)類似于傳統智能體，LLM 智能體的訓練依賴強化學習（RL）。可以將這個過程比作走迷宮——所有可能的文本輸出路徑都是潛在的選擇，而最終的“獎勵”是找到最佳答案。判斷是否達到獎勵目標的過程被稱為“驗證器”（verifier），這正是 William Brown 最新 verifier 庫的核心。

當前，驗證器主要用于數學推導或代碼生成等可嚴格評估的任務。然而，正如 Kalomaze 所展示的，針對非明確可驗證的結果，仍然可以通過訓練特定分類器來構建驗證器。而且，相較于生成內容，語言模型在評估任務上的表現更為穩定。因此，即便是小規模的 LLM 作為評審者（LLM-as-judge），也能顯著提升整體模型表現，并優化獎勵機制。

2)LLM 智能體的訓練方式類似于寫作：模型先生成完整的文本草案，然后再進行評估。這種方式并非最初的研究重點，早期的探索主要圍繞如何擴展 token 序列的搜索能力展開。計算資源的限制是影響訓練方式的關鍵，同時，近年來在“推理”模型（更準確地說是“起草”模型）上的突破也起到了決定性作用。當前，主流訓練方式是讓模型自主推演邏輯步驟，并假設能得出正確答案的推理路徑更可能是合理的。

這種方法有時會帶來令人意外的現象，例如 DeepSeek R0 模型偶爾會在推理過程中在中英文之間切換。但強化學習（RL）只關心最終是否有效，無論路徑是否正統、方法是否意料之中。就像一個在迷宮中摸索的智能體，語言模型需要依靠自身的推理能力尋找最優路徑，而非依賴人工設計的提示詞或既定指令——這正是“痛苦教訓”之下的最優解。

3)為了簡化獎勵機制，并提高推理過程的可控性，LLM 生成的文本通常被劃分為結構化的數據段落。這一過程被稱為“評分標準工程”（rubric engineering），可直接作為獎勵函數的一部分，或者（在大實驗室的訓練環境中更常見）作為后訓練階段的一項優化策略。

4)LLM 智能體的訓練往往是多步的，尤其在搜索任務中表現得尤為明顯。與一次性判斷搜索結果的優劣不同，訓練過程會評估模型獲取資源、分析信息、調整推理、修正搜索路徑等能力。因此，當前業界主流的 LLM 智能體訓練方法是 DeepSeek 提出的 GRPO，特別是在結合 vllm 進行文本生成時表現出色。

幾周前，我基于 William Brown 的研究，發布了一款適用于 Google Colab 的code notebook，成功在一張 A100 GPU 上運行 GRPO。計算成本的下降是推動強化學習與智能體設計普及的關鍵，未來幾年，這一趨勢或將加速發展。

▍如何擴展這一能力？

基礎部分已經奠定，但從這里到 OpenAI DeepResearch 以及其他能處理長序列任務的新型 AI 代理，還有很長的路要走。讓我來推測一下可能的發展方向。

目前，開放強化學習（RL）和推理研究主要聚焦于數學領域，因為我們擁有大量數學練習題數據。其中一些數據被收錄進 Common Crawl，并由 HuggingFace 通過分類器提?。?FineMath）。但在搜索等許多領域，我們缺乏類似的數據。因為這些任務需要真正的操作序列數據，比如用戶日志、點擊記錄和交互模式。

我過去曾從事日志分析（時間不算太久遠），當時的模型仍然依賴馬爾可夫鏈（盡管這一領域發展極快），并且仍然在用 1990 年代 AOL 泄露的數據進行訓練。目前，這一領域新增的關鍵開放數據集之一是 Wikipedia clickstream，這是一個匿名化的 Wikipedia 文章跳轉路徑數據集。

但問題來了，這個數據集是否已經上傳到 HuggingFace？答案是否定的。事實上，HuggingFace 上幾乎沒有真正能賦能 AI 代理進行自主規劃的數據。整個行業仍然假設 LLM 需要依賴人工編排的規則系統。我不確定 OpenAI 或 Anthropic 是否擁有足夠的數據，但至少在這一點上，傳統科技公司仍然占據優勢，并且沒有可行的替代方案——畢竟，Google 的用戶查詢數據不會被公開出售（除非它已經悄悄流入暗網）。

有沒有辦法繞過這一限制？有，那就是通過模擬直接生成數據。傳統 RL 模型并不依賴已有數據，而是通過大量搜索來歸納約束和策略。如果應用到搜索任務，一個典型的 RL 方法可能類似于游戲 AI：讓模型自由探索，并在找到正確答案時給予獎勵。這可能是一個漫長的過程，比如查找某項深藏于 1960 年代蘇聯論文中的冷門化學實驗。通過不斷嘗試各種查詢方式，模型最終可能會偶然發現正確的結果。更重要的是，它可以歸納出有助于未來搜索的模式，使得找到類似信息的幾率更高。

我們來計算一下這種方法的規模。在標準的 RL 設計（如 GRPO）中，你可以同時運行 16 個并行搜索代理——而在大型實驗室的訓練中，這個數量可能會更高。假設每個代理在每輪訓練中訪問 100 個頁面，這意味著單輪就會產生 2,000 次查詢。而這還只是一步。對于一個復雜的搜索能力訓練，可能需要數十萬步（這也是為什么我認為該技術目前處于中期訓練階段）。在此過程中，單個訓練序列可能涉及數億次查詢——甚至可能導致某些學術數據庫服務器承受過載攻擊。這顯然不是理想方案。在這種情況下，真正的瓶頸可能不是算力，而是帶寬。

游戲 RL 也面臨類似的挑戰。這正是 Pufferlib 等最新方法試圖解決的問題：它們將訓練環境封裝，使其對學習系統而言看起來像 Atari 游戲，而不損失泛化能力……

強化學習（RL）在游戲領域面臨的挑戰，與在搜索領域的挑戰類似。這正是 Pufferlib 這類最新方法的作用所在——它能將訓練環境封裝，使其在學習庫的視角下看起來就像 Atari 游戲，而不會損失通用性。換句話說，RL 模型只需要看到它們真正需要用到的部分。如果將這一方法應用于搜索，可能意味著利用 Common Crawl 這樣的大型數據集，并讓數據像真實的 Web 交互一樣流動，包括 URL、API 調用和其他典型的 HTTP 結構。而實際上，這些數據早已存儲在本地數據框架中，并具備高速查詢能力。

基于此，我認為訓練一個 LLM RL 搜索智能體可能會采用以下策略：

-構建一個大規模的 Web 搜索模擬系統，使用固定的數據集，并不斷轉換數據格式，使其適配模型的輸入需求。

-通過輕量級 SFT（如 DeepSeek 的 SFT-RL-SFT-RL 訓練范式）對模型進行初步微調，利用現有的搜索模式，讓它的推理能力和輸出格式更符合預期，從而加速后續的 RL 訓練。

-設計多種復雜查詢，并配備標準答案作為驗證數據。這可能涉及某種高級的合成數據流水線，比如利用回譯技術對現有資源進行轉換，或者聘請博士級專家進行高質量人工標注。

-采用多步 RL 訓練，讓模型能夠自主搜索。例如，它會接收一個查詢，啟動搜索，獲取結果，選擇深入瀏覽某個頁面或調整搜索關鍵詞——整個過程都由 RL 機制驅動。從模型的角度來看，它是在真實地瀏覽互聯網，而實際上所有數據流轉都是由一個模擬器在后臺完成的。

-在搜索能力達到一定水準后，再進行新一輪的 RL 和 SFT 訓練，這次重點優化最終的答案整合過程。這可能涉及復雜的合成數據流水線，比如將長篇報告拆解成小塊，讓模型分析并重新組織內容，以生成高質量的總結。

整體來看，這種方法不僅能提高搜索智能體的有效性，還能讓它在復雜任務中更具自主性和適應性。

▍真正的智能體時代終于來臨

我們最終擁有了真正的智能體模型。這種模型在實際工作流程和模型編排中將帶來哪些改變？僅僅是整體質量提升？還是一種完全不同的范式？

讓我們回顧Anthropic的定義：LLM智能體能夠"動態自主規劃其處理流程和工具使用，保持對任務執行方式的控制權"。我將以最熟悉的搜索場景為例展開分析。

關于"RAG技術將消亡，被長上下文LLM直接使用取代"的預測從未成真，原因包括：長上下文計算成本高昂、復雜查詢準確率有限、輸入溯源困難等。真正的智能搜索LLM不會取代RAG技術，更現實的演進方向是將其自動化，封裝向量數據庫、路由選擇、結果重排等復雜度。典型搜索流程可能呈現以下形態：

1. 查詢解析與意圖識別：系統對查詢進行語義分析和任務分解，推測用戶真實意圖

2. 即時交互澄清（OpenAI DeepResearch已實現）：當查詢模糊時主動發起澄清對話

3. 智能路由決策：根據上下文選擇通用搜索或調用專業數據庫（模型已內化標準API架構）

4. 資源優化機制：優先訪問結構化數據接口、站點地圖等"數字鏡像"，降低實時網絡調用

5. 自適應搜索策略：系統可自主放棄無效路徑，像專業研究員般切換備選方案（OpenAI DeepResearch已展現通過邏輯推理定位冷門資源的能力）

6. 過程可解釋性：完整記錄決策鏈條作為推理軌跡

簡言之，搜索流程被直接工程化。LLM智能體基于現有基礎設施，以最高效的方式達成目標。這種范式無需額外數據準備，也無需培訓用戶適應新交互方式。正如Tim Berners-Lee十多年前的預言："理想智能體的每個決策都應精準反映用戶當下的真實需求"。

將這種范式擴展到其他領域更能體現其價值：真正的網絡工程智能體可以直接配置網絡設備（路由器/交換機/防火墻）、分析拓撲結構提出優化方案、解析故障日志定位根因；真正的金融智能體可以實現ISO 20022與MT103等異構標準的無縫轉換。這些能力遠非現有提示工程所能企及。

當前僅有少數頂尖實驗室具備開發真正LLM智能體的能力，他們掌握著技術制高點：專業訣竅、數據配方（或合成方法）、產品化視野等。雖然這種技術集中現象值得警惕，但資本界對模型訓練長期價值的認知局限客觀上加劇了壟斷趨勢。

筆者素來反對技術炒作，但考慮到智能體可能引發的范式革命和價值重構，必須強調開放生態的緊迫性：開放驗證工具、GRPO訓練樣本，乃至復雜合成管道和仿真環境。

2025年能否成為智能體元年？讓我們拭目以待。

原文鏈接：https://vintagedata.org/blog/posts/designing-llm-agents

? AI范兒

要進“交流群”，請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式

OpenAI 推出構建智能體的新工具：這是你需要了解的一切

跟著 Manus 一起火的 MCP 到底是什么？

MCP 為什么勝出？

點這里關注我，記得標星哦～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.