【本文翻譯自 Vintage Data】
如今,AI 智能體(Agents)隨處可見。但在智能體大語言模型(Agentic LLM)研究領域,最重要的突破卻鮮有人關注。
2025 年 1 月,OpenAI 發布了 DeepResearch,這是 O3 語言模型的一個專門版本,主要用于網頁和文檔搜索。由于其“在瀏覽任務上的強化學習訓練”,DeepResearch 具備了規劃搜索策略、交叉比對信息源,并根據中間反饋檢索小眾知識的能力。Claude Sonnet 3.7 似乎在編程領域復刻了這一模式,在復雜的代碼任務序列上,其表現超越了以往基于多個模型協同工作的方式。
簡而言之,正如 William Brown 所言:“LLM 智能體已經具備執行長時間、多步任務的能力。”
這一進展促使人們重新思考 LLM 智能體的定義。2024 年 12 月,Anthropic 提出了新的定義:“LLM 智能體是一種可以動態掌控自身任務流程和工具使用方式的系統,能夠自主決定如何完成目標?!?/p>
相比之下,更常見的智能體系統屬于“工作流”(workflows),即 LLM 和工具按照預定義的代碼路徑協同運行。最近受到廣泛關注的 Manus AI 就是典型案例。我在周末的測試結果表明,這類工作流系統仍然存在 AutoGPT 時代的根本性問題,尤其在搜索任務上暴露明顯短板:
- 無法規劃搜索路徑,經常陷入死循環;
- 記憶力不足,難以維持任務超過 5-10 分鐘;
- 長期行動效果欠佳,任務序列往往因誤差累積而失敗。
本文基于新的 LLM 智能體定義,嘗試整理現有研究進展。這些信息來自大型 AI 研究機構的有限公開資料、開源研究社區的復現實驗,以及個人的一些推測。
▍簡單 LLM 智能體的“殘酷現實”
基礎語言模型的工作方式與智能體概念幾乎背道而馳。
在經典的智能體研究中,智能體通常被置于受限環境中。例如,在迷宮中,你只能朝某些方向移動,不能隨意穿墻、飛行或消失。你的行動受物理規則(以及可能的游戲規則)約束。然而,即便在這樣的限制下,智能體仍然可以擁有一定的自由度,因為通往終點的路徑不止一條。但不管選擇哪種方式,每一步行動都必須圍繞最終目標——贏得游戲、獲得獎勵——展開。優秀的智能體會逐步記住自己的行動軌跡,并歸納出高效的策略和模式。
這種方式被稱為“搜索”(search)。這個比喻非常形象:智能體在迷宮中探索最優路線,就像用戶在搜索引擎上點擊不同的鏈接一樣。搜索算法的研究已有數十年的歷史,比如 Q-star——一度被傳為 OpenAI 新一代 O 系列模型背后的核心算法(盡管目前尚不明確)——實際上是 1968 年 A-Star 搜索算法的變體。近期最具代表性的例子是 Pufferlib 進行的寶可夢強化學習實驗:在訓練過程中,我們可以看到智能體不斷嘗試不同的路徑,失敗、回溯,并最終找到最優解。
基礎語言模型的運行方式,與真正的智能體幾乎完全相反:
-智能體會記住環境,而基礎模型不會。LLM 只能依賴當前上下文窗口的內容,無法長期存儲信息。
-智能體受限于“有限理性”,而 LLM 僅僅是在預測可能的文本。雖然這種方式有時會得出看似合理的推理,但它并不受嚴格的邏輯約束,可能隨時偏離原有思路,僅僅是為了生成更符合語言風格的文本。
-智能體可以制定長期策略,而 LLM 無法真正規劃未來。智能體可以提前預判并做出決策,甚至在出現問題時回溯調整;而 LLM 只能處理單步推理任務,一旦需要跨多個步驟的復雜推理,它很快就會力不從心。LLM 遵循的是文本生成規則,而非物理定律或游戲規則。
目前,大多數 LLM 智能體的實現方式,是通過預設提示詞(prompts)和規則來約束輸出。這在短期內能帶來一定效果,但從長期來看,它無法突破 Richard Sutton 提出的“痛苦教訓”(The Bitter Lesson)。
許多人誤解了“痛苦教訓”,以為它只是一種 LLM 預訓練指南。實際上,它最初是針對智能體研究的,并警示研究人員:直接把知識硬編碼到模型里,并不是長久之計。舉個例子,如果智能體遇到障礙物,它可以被硬編碼為自動避開或回溯。這種方法在短期內確實能提升表現,并且不需要額外訓練模型。然而,從長期來看,它往往會導致模型陷入次優解,甚至在意外場景下完全崩潰。
核心觀點是:按照人類的思維模式設計 AI,在長期來看是無效的。
這一理論基于以下觀察:
1. AI 研究人員往往傾向于直接構建知識,讓智能體依賴硬編碼規則;
2. 這種方式短期內確實有效,并能給研究者帶來正反饋;
3. 但從長期來看,它會限制智能體的發展,導致性能停滯甚至退步;
4. 重大 AI 突破往往源于相反的方法,即通過大規模計算、搜索和學習來提升能力。
這種成功往往帶著“苦澀”,因為它推翻了人們原本鐘愛的“知識嵌入”思路。
如果我們把這一理論應用到當今的 LLM 生產環境,會發現許多主流方法仍然是在“構建知識”。Manus 這樣的 LLM 工作流系統,本質上是用一系列預設的提示詞來引導模型。這可能是當前最現實的方案,因為它不需要重新訓練模型,但它并不是最優的解決方案。最終,這種方法只能得到一種“生成式 AI + 規則系統”的混合體——它讓 AI 以一種固定模式來理解世界,比如空間、物體、多智能體之間的交互等。
換句話說,如果 Manus AI 不能正確訂票,或無法提供合理的生存建議,這不是因為它的設計出了問題,而是因為它遭遇了“痛苦教訓”:
- 單純依賴提示詞(prompts)無法擴展。
- 硬編碼規則(rules)無法擴展。
如果要打造真正的 LLM 智能體,就必須設計能夠搜索、規劃并執行任務的系統。
▍RL+推理:大模型智能體的制勝之道
關于 LLM 智能體的真正突破,外界所知甚少。Anthropic、OpenAI、DeepMind 等少數實驗室掌握核心技術,而我們只能從零星的官方披露、傳聞和有限的開源研究中拼湊線索。
1)類似于傳統智能體,LLM 智能體的訓練依賴強化學習(RL)。可以將這個過程比作走迷宮——所有可能的文本輸出路徑都是潛在的選擇,而最終的“獎勵”是找到最佳答案。判斷是否達到獎勵目標的過程被稱為“驗證器”(verifier),這正是 William Brown 最新 verifier 庫的核心。
當前,驗證器主要用于數學推導或代碼生成等可嚴格評估的任務。然而,正如 Kalomaze 所展示的,針對非明確可驗證的結果,仍然可以通過訓練特定分類器來構建驗證器。而且,相較于生成內容,語言模型在評估任務上的表現更為穩定。因此,即便是小規模的 LLM 作為評審者(LLM-as-judge),也能顯著提升整體模型表現,并優化獎勵機制。
2)LLM 智能體的訓練方式類似于寫作:模型先生成完整的文本草案,然后再進行評估。這種方式并非最初的研究重點,早期的探索主要圍繞如何擴展 token 序列的搜索能力展開。計算資源的限制是影響訓練方式的關鍵,同時,近年來在“推理”模型(更準確地說是“起草”模型)上的突破也起到了決定性作用。當前,主流訓練方式是讓模型自主推演邏輯步驟,并假設能得出正確答案的推理路徑更可能是合理的。
這種方法有時會帶來令人意外的現象,例如 DeepSeek R0 模型偶爾會在推理過程中在中英文之間切換。但強化學習(RL)只關心最終是否有效,無論路徑是否正統、方法是否意料之中。就像一個在迷宮中摸索的智能體,語言模型需要依靠自身的推理能力尋找最優路徑,而非依賴人工設計的提示詞或既定指令——這正是“痛苦教訓”之下的最優解。
3)為了簡化獎勵機制,并提高推理過程的可控性,LLM 生成的文本通常被劃分為結構化的數據段落。這一過程被稱為“評分標準工程”(rubric engineering),可直接作為獎勵函數的一部分,或者(在大實驗室的訓練環境中更常見)作為后訓練階段的一項優化策略。
4)LLM 智能體的訓練往往是多步的,尤其在搜索任務中表現得尤為明顯。與一次性判斷搜索結果的優劣不同,訓練過程會評估模型獲取資源、分析信息、調整推理、修正搜索路徑等能力。因此,當前業界主流的 LLM 智能體訓練方法是 DeepSeek 提出的 GRPO,特別是在結合 vllm 進行文本生成時表現出色。
幾周前,我基于 William Brown 的研究,發布了一款適用于 Google Colab 的code notebook,成功在一張 A100 GPU 上運行 GRPO。計算成本的下降是推動強化學習與智能體設計普及的關鍵,未來幾年,這一趨勢或將加速發展。
▍如何擴展這一能力?
基礎部分已經奠定,但從這里到 OpenAI DeepResearch 以及其他能處理長序列任務的新型 AI 代理,還有很長的路要走。讓我來推測一下可能的發展方向。
目前,開放強化學習(RL)和推理研究主要聚焦于數學領域,因為我們擁有大量數學練習題數據。其中一些數據被收錄進 Common Crawl,并由 HuggingFace 通過分類器提?。?FineMath)。但在搜索等許多領域,我們缺乏類似的數據。因為這些任務需要真正的操作序列數據,比如用戶日志、點擊記錄和交互模式。
我過去曾從事日志分析(時間不算太久遠),當時的模型仍然依賴馬爾可夫鏈(盡管這一領域發展極快),并且仍然在用 1990 年代 AOL 泄露的數據進行訓練。目前,這一領域新增的關鍵開放數據集之一是 Wikipedia clickstream,這是一個匿名化的 Wikipedia 文章跳轉路徑數據集。
但問題來了,這個數據集是否已經上傳到 HuggingFace?答案是否定的。事實上,HuggingFace 上幾乎沒有真正能賦能 AI 代理進行自主規劃的數據。整個行業仍然假設 LLM 需要依賴人工編排的規則系統。我不確定 OpenAI 或 Anthropic 是否擁有足夠的數據,但至少在這一點上,傳統科技公司仍然占據優勢,并且沒有可行的替代方案——畢竟,Google 的用戶查詢數據不會被公開出售(除非它已經悄悄流入暗網)。
有沒有辦法繞過這一限制?有,那就是通過模擬直接生成數據。傳統 RL 模型并不依賴已有數據,而是通過大量搜索來歸納約束和策略。如果應用到搜索任務,一個典型的 RL 方法可能類似于游戲 AI:讓模型自由探索,并在找到正確答案時給予獎勵。這可能是一個漫長的過程,比如查找某項深藏于 1960 年代蘇聯論文中的冷門化學實驗。通過不斷嘗試各種查詢方式,模型最終可能會偶然發現正確的結果。更重要的是,它可以歸納出有助于未來搜索的模式,使得找到類似信息的幾率更高。
我們來計算一下這種方法的規模。在標準的 RL 設計(如 GRPO)中,你可以同時運行 16 個并行搜索代理——而在大型實驗室的訓練中,這個數量可能會更高。假設每個代理在每輪訓練中訪問 100 個頁面,這意味著單輪就會產生 2,000 次查詢。而這還只是一步。對于一個復雜的搜索能力訓練,可能需要數十萬步(這也是為什么我認為該技術目前處于中期訓練階段)。在此過程中,單個訓練序列可能涉及數億次查詢——甚至可能導致某些學術數據庫服務器承受過載攻擊。這顯然不是理想方案。在這種情況下,真正的瓶頸可能不是算力,而是帶寬。
游戲 RL 也面臨類似的挑戰。這正是 Pufferlib 等最新方法試圖解決的問題:它們將訓練環境封裝,使其對學習系統而言看起來像 Atari 游戲,而不損失泛化能力……
強化學習(RL)在游戲領域面臨的挑戰,與在搜索領域的挑戰類似。這正是 Pufferlib 這類最新方法的作用所在——它能將訓練環境封裝,使其在學習庫的視角下看起來就像 Atari 游戲,而不會損失通用性。換句話說,RL 模型只需要看到它們真正需要用到的部分。如果將這一方法應用于搜索,可能意味著利用 Common Crawl 這樣的大型數據集,并讓數據像真實的 Web 交互一樣流動,包括 URL、API 調用和其他典型的 HTTP 結構。而實際上,這些數據早已存儲在本地數據框架中,并具備高速查詢能力。
基于此,我認為訓練一個 LLM RL 搜索智能體可能會采用以下策略:
-構建一個大規模的 Web 搜索模擬系統,使用固定的數據集,并不斷轉換數據格式,使其適配模型的輸入需求。
-通過輕量級 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 訓練范式)對模型進行初步微調,利用現有的搜索模式,讓它的推理能力和輸出格式更符合預期,從而加速后續的 RL 訓練。
-設計多種復雜查詢,并配備標準答案作為驗證數據。這可能涉及某種高級的合成數據流水線,比如利用回譯技術對現有資源進行轉換,或者聘請博士級專家進行高質量人工標注。
-采用多步 RL 訓練,讓模型能夠自主搜索。例如,它會接收一個查詢,啟動搜索,獲取結果,選擇深入瀏覽某個頁面或調整搜索關鍵詞——整個過程都由 RL 機制驅動。從模型的角度來看,它是在真實地瀏覽互聯網,而實際上所有數據流轉都是由一個模擬器在后臺完成的。
-在搜索能力達到一定水準后,再進行新一輪的 RL 和 SFT 訓練,這次重點優化最終的答案整合過程。這可能涉及復雜的合成數據流水線,比如將長篇報告拆解成小塊,讓模型分析并重新組織內容,以生成高質量的總結。
整體來看,這種方法不僅能提高搜索智能體的有效性,還能讓它在復雜任務中更具自主性和適應性。
▍真正的智能體時代終于來臨
我們最終擁有了真正的智能體模型。這種模型在實際工作流程和模型編排中將帶來哪些改變?僅僅是整體質量提升?還是一種完全不同的范式?
讓我們回顧Anthropic的定義:LLM智能體能夠"動態自主規劃其處理流程和工具使用,保持對任務執行方式的控制權"。我將以最熟悉的搜索場景為例展開分析。
關于"RAG技術將消亡,被長上下文LLM直接使用取代"的預測從未成真,原因包括:長上下文計算成本高昂、復雜查詢準確率有限、輸入溯源困難等。真正的智能搜索LLM不會取代RAG技術,更現實的演進方向是將其自動化,封裝向量數據庫、路由選擇、結果重排等復雜度。典型搜索流程可能呈現以下形態:
1. 查詢解析與意圖識別:系統對查詢進行語義分析和任務分解,推測用戶真實意圖
2. 即時交互澄清(OpenAI DeepResearch已實現):當查詢模糊時主動發起澄清對話
3. 智能路由決策:根據上下文選擇通用搜索或調用專業數據庫(模型已內化標準API架構)
4. 資源優化機制:優先訪問結構化數據接口、站點地圖等"數字鏡像",降低實時網絡調用
5. 自適應搜索策略:系統可自主放棄無效路徑,像專業研究員般切換備選方案(OpenAI DeepResearch已展現通過邏輯推理定位冷門資源的能力)
6. 過程可解釋性:完整記錄決策鏈條作為推理軌跡
簡言之,搜索流程被直接工程化。LLM智能體基于現有基礎設施,以最高效的方式達成目標。這種范式無需額外數據準備,也無需培訓用戶適應新交互方式。正如Tim Berners-Lee十多年前的預言:"理想智能體的每個決策都應精準反映用戶當下的真實需求"。
將這種范式擴展到其他領域更能體現其價值:真正的網絡工程智能體可以直接配置網絡設備(路由器/交換機/防火墻)、分析拓撲結構提出優化方案、解析故障日志定位根因;真正的金融智能體可以實現ISO 20022與MT103等異構標準的無縫轉換。這些能力遠非現有提示工程所能企及。
當前僅有少數頂尖實驗室具備開發真正LLM智能體的能力,他們掌握著技術制高點:專業訣竅、數據配方(或合成方法)、產品化視野等。雖然這種技術集中現象值得警惕,但資本界對模型訓練長期價值的認知局限客觀上加劇了壟斷趨勢。
筆者素來反對技術炒作,但考慮到智能體可能引發的范式革命和價值重構,必須強調開放生態的緊迫性:開放驗證工具、GRPO訓練樣本,乃至復雜合成管道和仿真環境。
2025年能否成為智能體元年?讓我們拭目以待。
原文鏈接:https://vintagedata.org/blog/posts/designing-llm-agents
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
OpenAI 推出構建智能體的新工具:這是你需要了解的一切
跟著 Manus 一起火的 MCP 到底是什么?
MCP 為什么勝出?
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.