99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

真正的智能體即將登場:它們將被訓練,而不是定義好的工作流

0
分享至


【本文翻譯自 Vintage Data】

如今,AI 智能體(Agents)隨處可見。但在智能體大語言模型(Agentic LLM)研究領域,最重要的突破卻鮮有人關注。

2025 年 1 月,OpenAI 發布了 DeepResearch,這是 O3 語言模型的一個專門版本,主要用于網頁和文檔搜索。由于其“在瀏覽任務上的強化學習訓練”,DeepResearch 具備了規劃搜索策略、交叉比對信息源,并根據中間反饋檢索小眾知識的能力。Claude Sonnet 3.7 似乎在編程領域復刻了這一模式,在復雜的代碼任務序列上,其表現超越了以往基于多個模型協同工作的方式。

簡而言之,正如 William Brown 所言:“LLM 智能體已經具備執行長時間、多步任務的能力。

這一進展促使人們重新思考 LLM 智能體的定義。2024 年 12 月,Anthropic 提出了新的定義:“LLM 智能體是一種可以動態掌控自身任務流程和工具使用方式的系統,能夠自主決定如何完成目標?!?/p>

相比之下,更常見的智能體系統屬于“工作流”(workflows),即 LLM 和工具按照預定義的代碼路徑協同運行。最近受到廣泛關注的 Manus AI 就是典型案例。我在周末的測試結果表明,這類工作流系統仍然存在 AutoGPT 時代的根本性問題,尤其在搜索任務上暴露明顯短板:

- 無法規劃搜索路徑,經常陷入死循環;

- 記憶力不足,難以維持任務超過 5-10 分鐘;

- 長期行動效果欠佳,任務序列往往因誤差累積而失敗。

本文基于新的 LLM 智能體定義,嘗試整理現有研究進展。這些信息來自大型 AI 研究機構的有限公開資料、開源研究社區的復現實驗,以及個人的一些推測。

▍簡單 LLM 智能體的“殘酷現實”

基礎語言模型的工作方式與智能體概念幾乎背道而馳。

在經典的智能體研究中,智能體通常被置于受限環境中。例如,在迷宮中,你只能朝某些方向移動,不能隨意穿墻、飛行或消失。你的行動受物理規則(以及可能的游戲規則)約束。然而,即便在這樣的限制下,智能體仍然可以擁有一定的自由度,因為通往終點的路徑不止一條。但不管選擇哪種方式,每一步行動都必須圍繞最終目標——贏得游戲、獲得獎勵——展開。優秀的智能體會逐步記住自己的行動軌跡,并歸納出高效的策略和模式。

這種方式被稱為“搜索”(search)。這個比喻非常形象:智能體在迷宮中探索最優路線,就像用戶在搜索引擎上點擊不同的鏈接一樣。搜索算法的研究已有數十年的歷史,比如 Q-star——一度被傳為 OpenAI 新一代 O 系列模型背后的核心算法(盡管目前尚不明確)——實際上是 1968 年 A-Star 搜索算法的變體。近期最具代表性的例子是 Pufferlib 進行的寶可夢強化學習實驗:在訓練過程中,我們可以看到智能體不斷嘗試不同的路徑,失敗、回溯,并最終找到最優解。


基礎語言模型的運行方式,與真正的智能體幾乎完全相反

-智能體會記住環境,而基礎模型不會。LLM 只能依賴當前上下文窗口的內容,無法長期存儲信息。

-智能體受限于“有限理性”,而 LLM 僅僅是在預測可能的文本。雖然這種方式有時會得出看似合理的推理,但它并不受嚴格的邏輯約束,可能隨時偏離原有思路,僅僅是為了生成更符合語言風格的文本。

-智能體可以制定長期策略,而 LLM 無法真正規劃未來。智能體可以提前預判并做出決策,甚至在出現問題時回溯調整;而 LLM 只能處理單步推理任務,一旦需要跨多個步驟的復雜推理,它很快就會力不從心。LLM 遵循的是文本生成規則,而非物理定律或游戲規則。

目前,大多數 LLM 智能體的實現方式,是通過預設提示詞(prompts)和規則來約束輸出。這在短期內能帶來一定效果,但從長期來看,它無法突破 Richard Sutton 提出的“痛苦教訓”(The Bitter Lesson)。

許多人誤解了“痛苦教訓”,以為它只是一種 LLM 預訓練指南。實際上,它最初是針對智能體研究的,并警示研究人員:直接把知識硬編碼到模型里,并不是長久之計。舉個例子,如果智能體遇到障礙物,它可以被硬編碼為自動避開或回溯。這種方法在短期內確實能提升表現,并且不需要額外訓練模型。然而,從長期來看,它往往會導致模型陷入次優解,甚至在意外場景下完全崩潰。

核心觀點是:按照人類的思維模式設計 AI,在長期來看是無效的。

這一理論基于以下觀察:

1. AI 研究人員往往傾向于直接構建知識,讓智能體依賴硬編碼規則;

2. 這種方式短期內確實有效,并能給研究者帶來正反饋;

3. 但從長期來看,它會限制智能體的發展,導致性能停滯甚至退步;

4. 重大 AI 突破往往源于相反的方法,即通過大規模計算、搜索和學習來提升能力。

這種成功往往帶著“苦澀”,因為它推翻了人們原本鐘愛的“知識嵌入”思路。

如果我們把這一理論應用到當今的 LLM 生產環境,會發現許多主流方法仍然是在“構建知識”。Manus 這樣的 LLM 工作流系統,本質上是用一系列預設的提示詞來引導模型。這可能是當前最現實的方案,因為它不需要重新訓練模型,但它并不是最優的解決方案。最終,這種方法只能得到一種“生成式 AI + 規則系統”的混合體——它讓 AI 以一種固定模式來理解世界,比如空間、物體、多智能體之間的交互等。

換句話說,如果 Manus AI 不能正確訂票,或無法提供合理的生存建議,這不是因為它的設計出了問題,而是因為它遭遇了“痛苦教訓”:

- 單純依賴提示詞(prompts)無法擴展。

- 硬編碼規則(rules)無法擴展。

如果要打造真正的 LLM 智能體,就必須設計能夠搜索、規劃并執行任務的系統。

RL+推理:大模型智能體的制勝之道

關于 LLM 智能體的真正突破,外界所知甚少。Anthropic、OpenAI、DeepMind 等少數實驗室掌握核心技術,而我們只能從零星的官方披露、傳聞和有限的開源研究中拼湊線索。

1)類似于傳統智能體,LLM 智能體的訓練依賴強化學習(RL)。可以將這個過程比作走迷宮——所有可能的文本輸出路徑都是潛在的選擇,而最終的“獎勵”是找到最佳答案。判斷是否達到獎勵目標的過程被稱為“驗證器”(verifier),這正是 William Brown 最新 verifier 庫的核心。

當前,驗證器主要用于數學推導或代碼生成等可嚴格評估的任務。然而,正如 Kalomaze 所展示的,針對非明確可驗證的結果,仍然可以通過訓練特定分類器來構建驗證器。而且,相較于生成內容,語言模型在評估任務上的表現更為穩定。因此,即便是小規模的 LLM 作為評審者(LLM-as-judge),也能顯著提升整體模型表現,并優化獎勵機制。

2)LLM 智能體的訓練方式類似于寫作:模型先生成完整的文本草案,然后再進行評估。這種方式并非最初的研究重點,早期的探索主要圍繞如何擴展 token 序列的搜索能力展開。計算資源的限制是影響訓練方式的關鍵,同時,近年來在“推理”模型(更準確地說是“起草”模型)上的突破也起到了決定性作用。當前,主流訓練方式是讓模型自主推演邏輯步驟,并假設能得出正確答案的推理路徑更可能是合理的。

這種方法有時會帶來令人意外的現象,例如 DeepSeek R0 模型偶爾會在推理過程中在中英文之間切換。但強化學習(RL)只關心最終是否有效,無論路徑是否正統、方法是否意料之中。就像一個在迷宮中摸索的智能體,語言模型需要依靠自身的推理能力尋找最優路徑,而非依賴人工設計的提示詞或既定指令——這正是“痛苦教訓”之下的最優解。

3)為了簡化獎勵機制,并提高推理過程的可控性,LLM 生成的文本通常被劃分為結構化的數據段落。這一過程被稱為“評分標準工程”(rubric engineering),可直接作為獎勵函數的一部分,或者(在大實驗室的訓練環境中更常見)作為后訓練階段的一項優化策略。

4)LLM 智能體的訓練往往是多步的,尤其在搜索任務中表現得尤為明顯。與一次性判斷搜索結果的優劣不同,訓練過程會評估模型獲取資源、分析信息、調整推理、修正搜索路徑等能力。因此,當前業界主流的 LLM 智能體訓練方法是 DeepSeek 提出的 GRPO,特別是在結合 vllm 進行文本生成時表現出色。

幾周前,我基于 William Brown 的研究,發布了一款適用于 Google Colab 的code notebook,成功在一張 A100 GPU 上運行 GRPO。計算成本的下降是推動強化學習與智能體設計普及的關鍵,未來幾年,這一趨勢或將加速發展。

如何擴展這一能力?

基礎部分已經奠定,但從這里到 OpenAI DeepResearch 以及其他能處理長序列任務的新型 AI 代理,還有很長的路要走。讓我來推測一下可能的發展方向。

目前,開放強化學習(RL)和推理研究主要聚焦于數學領域,因為我們擁有大量數學練習題數據。其中一些數據被收錄進 Common Crawl,并由 HuggingFace 通過分類器提?。?FineMath)。但在搜索等許多領域,我們缺乏類似的數據。因為這些任務需要真正的操作序列數據,比如用戶日志、點擊記錄和交互模式。

我過去曾從事日志分析(時間不算太久遠),當時的模型仍然依賴馬爾可夫鏈(盡管這一領域發展極快),并且仍然在用 1990 年代 AOL 泄露的數據進行訓練。目前,這一領域新增的關鍵開放數據集之一是 Wikipedia clickstream,這是一個匿名化的 Wikipedia 文章跳轉路徑數據集。

但問題來了,這個數據集是否已經上傳到 HuggingFace?答案是否定的。事實上,HuggingFace 上幾乎沒有真正能賦能 AI 代理進行自主規劃的數據。整個行業仍然假設 LLM 需要依賴人工編排的規則系統。我不確定 OpenAI 或 Anthropic 是否擁有足夠的數據,但至少在這一點上,傳統科技公司仍然占據優勢,并且沒有可行的替代方案——畢竟,Google 的用戶查詢數據不會被公開出售(除非它已經悄悄流入暗網)。

有沒有辦法繞過這一限制?有,那就是通過模擬直接生成數據。傳統 RL 模型并不依賴已有數據,而是通過大量搜索來歸納約束和策略。如果應用到搜索任務,一個典型的 RL 方法可能類似于游戲 AI:讓模型自由探索,并在找到正確答案時給予獎勵。這可能是一個漫長的過程,比如查找某項深藏于 1960 年代蘇聯論文中的冷門化學實驗。通過不斷嘗試各種查詢方式,模型最終可能會偶然發現正確的結果。更重要的是,它可以歸納出有助于未來搜索的模式,使得找到類似信息的幾率更高。

我們來計算一下這種方法的規模。在標準的 RL 設計(如 GRPO)中,你可以同時運行 16 個并行搜索代理——而在大型實驗室的訓練中,這個數量可能會更高。假設每個代理在每輪訓練中訪問 100 個頁面,這意味著單輪就會產生 2,000 次查詢。而這還只是一步。對于一個復雜的搜索能力訓練,可能需要數十萬步(這也是為什么我認為該技術目前處于中期訓練階段)。在此過程中,單個訓練序列可能涉及數億次查詢——甚至可能導致某些學術數據庫服務器承受過載攻擊。這顯然不是理想方案。在這種情況下,真正的瓶頸可能不是算力,而是帶寬。

游戲 RL 也面臨類似的挑戰。這正是 Pufferlib 等最新方法試圖解決的問題:它們將訓練環境封裝,使其對學習系統而言看起來像 Atari 游戲,而不損失泛化能力……

強化學習(RL)在游戲領域面臨的挑戰,與在搜索領域的挑戰類似。這正是 Pufferlib 這類最新方法的作用所在——它能將訓練環境封裝,使其在學習庫的視角下看起來就像 Atari 游戲,而不會損失通用性。換句話說,RL 模型只需要看到它們真正需要用到的部分。如果將這一方法應用于搜索,可能意味著利用 Common Crawl 這樣的大型數據集,并讓數據像真實的 Web 交互一樣流動,包括 URL、API 調用和其他典型的 HTTP 結構。而實際上,這些數據早已存儲在本地數據框架中,并具備高速查詢能力。

基于此,我認為訓練一個 LLM RL 搜索智能體可能會采用以下策略:

-構建一個大規模的 Web 搜索模擬系統,使用固定的數據集,并不斷轉換數據格式,使其適配模型的輸入需求。

-通過輕量級 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 訓練范式)對模型進行初步微調,利用現有的搜索模式,讓它的推理能力和輸出格式更符合預期,從而加速后續的 RL 訓練。

-設計多種復雜查詢,并配備標準答案作為驗證數據。這可能涉及某種高級的合成數據流水線,比如利用回譯技術對現有資源進行轉換,或者聘請博士級專家進行高質量人工標注。

-采用多步 RL 訓練,讓模型能夠自主搜索。例如,它會接收一個查詢,啟動搜索,獲取結果,選擇深入瀏覽某個頁面或調整搜索關鍵詞——整個過程都由 RL 機制驅動。從模型的角度來看,它是在真實地瀏覽互聯網,而實際上所有數據流轉都是由一個模擬器在后臺完成的。

-在搜索能力達到一定水準后,再進行新一輪的 RL 和 SFT 訓練,這次重點優化最終的答案整合過程。這可能涉及復雜的合成數據流水線,比如將長篇報告拆解成小塊,讓模型分析并重新組織內容,以生成高質量的總結。

整體來看,這種方法不僅能提高搜索智能體的有效性,還能讓它在復雜任務中更具自主性和適應性。

真正的智能體時代終于來臨

我們最終擁有了真正的智能體模型。這種模型在實際工作流程和模型編排中將帶來哪些改變?僅僅是整體質量提升?還是一種完全不同的范式?

讓我們回顧Anthropic的定義:LLM智能體能夠"動態自主規劃其處理流程和工具使用,保持對任務執行方式的控制權"。我將以最熟悉的搜索場景為例展開分析。

關于"RAG技術將消亡,被長上下文LLM直接使用取代"的預測從未成真,原因包括:長上下文計算成本高昂、復雜查詢準確率有限、輸入溯源困難等。真正的智能搜索LLM不會取代RAG技術,更現實的演進方向是將其自動化,封裝向量數據庫、路由選擇、結果重排等復雜度。典型搜索流程可能呈現以下形態:

1. 查詢解析與意圖識別:系統對查詢進行語義分析和任務分解,推測用戶真實意圖

2. 即時交互澄清(OpenAI DeepResearch已實現):當查詢模糊時主動發起澄清對話

3. 智能路由決策:根據上下文選擇通用搜索或調用專業數據庫(模型已內化標準API架構)

4. 資源優化機制:優先訪問結構化數據接口、站點地圖等"數字鏡像",降低實時網絡調用

5. 自適應搜索策略:系統可自主放棄無效路徑,像專業研究員般切換備選方案(OpenAI DeepResearch已展現通過邏輯推理定位冷門資源的能力)

6. 過程可解釋性:完整記錄決策鏈條作為推理軌跡

簡言之,搜索流程被直接工程化。LLM智能體基于現有基礎設施,以最高效的方式達成目標。這種范式無需額外數據準備,也無需培訓用戶適應新交互方式。正如Tim Berners-Lee十多年前的預言:"理想智能體的每個決策都應精準反映用戶當下的真實需求"。

將這種范式擴展到其他領域更能體現其價值:真正的網絡工程智能體可以直接配置網絡設備(路由器/交換機/防火墻)、分析拓撲結構提出優化方案、解析故障日志定位根因;真正的金融智能體可以實現ISO 20022與MT103等異構標準的無縫轉換。這些能力遠非現有提示工程所能企及。

當前僅有少數頂尖實驗室具備開發真正LLM智能體的能力,他們掌握著技術制高點:專業訣竅、數據配方(或合成方法)、產品化視野等。雖然這種技術集中現象值得警惕,但資本界對模型訓練長期價值的認知局限客觀上加劇了壟斷趨勢。

筆者素來反對技術炒作,但考慮到智能體可能引發的范式革命和價值重構,必須強調開放生態的緊迫性:開放驗證工具、GRPO訓練樣本,乃至復雜合成管道和仿真環境。

2025年能否成為智能體元年?讓我們拭目以待。

原文鏈接:https://vintagedata.org/blog/posts/designing-llm-agents

? AI范兒

要進“交流群”,請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式


OpenAI 推出構建智能體的新工具:這是你需要了解的一切


跟著 Manus 一起火的 MCP 到底是什么?


MCP 為什么勝出?

點這里關注我,記得標星哦~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
漢堡主帥:升入德甲的任務雖已完成,但我們的目標是德乙冠軍

漢堡主帥:升入德甲的任務雖已完成,但我們的目標是德乙冠軍

雷速體育
2025-05-16 21:39:25
廣廈大戰北京G5!許利民變陣棄用3將!打爆第一中鋒,內訌曝光

廣廈大戰北京G5!許利民變陣棄用3將!打爆第一中鋒,內訌曝光

大國侃球
2025-05-16 15:11:06
首輪29順位!楊瀚森再砍11+6+6,美迷:終于有人能對位約基奇了

首輪29順位!楊瀚森再砍11+6+6,美迷:終于有人能對位約基奇了

弄月公子
2025-05-16 10:31:39
大跳水!暴跌70%!

大跳水!暴跌70%!

魯中晨報
2025-05-16 07:15:04
外交部:堅決反對美方對中國芯片產品和人工智能產業 進行惡意封鎖和打壓

外交部:堅決反對美方對中國芯片產品和人工智能產業 進行惡意封鎖和打壓

每日經濟新聞
2025-05-16 16:14:43
二手房成交量大增,所有人都想拋房自救,只有我警告大家準備抄底

二手房成交量大增,所有人都想拋房自救,只有我警告大家準備抄底

大龍哥說房
2025-05-16 11:50:30
下周不回國了,下周離婚

下周不回國了,下周離婚

求實處
2025-05-14 23:33:01
天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

阿坷敘故事
2025-05-15 22:22:33
梅根最新發布:女王的擔憂成真,黑人基因或徹底改變溫莎家族

梅根最新發布:女王的擔憂成真,黑人基因或徹底改變溫莎家族

人物檔案局
2025-05-15 19:58:00
在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

春序娛樂
2025-05-07 10:17:47
20:00預約!每人2枚!10元中國龍幣,中行今晚開約!

20:00預約!每人2枚!10元中國龍幣,中行今晚開約!

天天紀念幣
2025-05-16 09:37:35
4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

腫瘤的真相與誤區
2025-03-09 20:35:22
iPhone 16 Pro成京東618手機銷量王!128GB照樣被國人買爆

iPhone 16 Pro成京東618手機銷量王!128GB照樣被國人買爆

快科技
2025-05-15 11:48:07
29歲失聯小伙杜炎軍已遇難,在峨眉山金頂跳崖,朋友揭露輕生細節

29歲失聯小伙杜炎軍已遇難,在峨眉山金頂跳崖,朋友揭露輕生細節

180°視角
2025-05-16 07:37:47
鹿晗創作新歌歌詞疑回應分手傳聞:我們默契得就連分開都閉口不提

鹿晗創作新歌歌詞疑回應分手傳聞:我們默契得就連分開都閉口不提

魯中晨報
2025-05-16 15:15:26
圓滿!37歲本澤馬奪沙特淘金第一冠,效力過三隊全拿過聯賽冠軍

圓滿!37歲本澤馬奪沙特淘金第一冠,效力過三隊全拿過聯賽冠軍

直播吧
2025-05-16 14:29:15
主政蘇州一年半后,劉小濤任江蘇省委副書記

主政蘇州一年半后,劉小濤任江蘇省委副書記

上觀新聞
2025-05-16 19:49:18
中國為何叫中國?如果連祖國名字由來都不知道,是不是有點尷尬

中國為何叫中國?如果連祖國名字由來都不知道,是不是有點尷尬

界史
2025-05-15 18:11:28
當李雪琴混進古裝劇,和宋祖兒同框時,簡直是降維打擊

當李雪琴混進古裝劇,和宋祖兒同框時,簡直是降維打擊

喵喵娛樂團
2025-05-15 17:17:03
開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

PChome電腦之家
2025-05-16 10:29:50
2025-05-17 00:32:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
496文章數 128關注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風暴雨般的質疑

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

藝術
本地
時尚
手機
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

2025年“5·19中國旅游日”活動啟動儀式

張一山人設崩塌全記錄:演技爭議、感情緋聞不斷,童星光環剩多少

手機要聞

曝三星Galaxy Z Fold7改用鈦支撐板,推進輕薄化設計

教育要聞

這道題很是考察同學們的洞察力

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 银川市| 若尔盖县| 昌图县| 黔江区| 乐清市| 泰和县| 太保市| 唐河县| 综艺| 逊克县| 万州区| 塔河县| 仁布县| 阿拉尔市| 渝中区| 隆回县| 大冶市| 安康市| 宁陕县| 望城县| 平原县| 淮阳县| 永春县| 阿城市| 新巴尔虎右旗| 泊头市| 梁山县| 垦利县| 松江区| 巨鹿县| 黄龙县| 墨玉县| 乐昌市| 南康市| 辽宁省| 四会市| 平顶山市| 泽普县| 泗阳县| 龙游县| 龙胜|