(關注公眾號設為標,獲取AI深度洞察)
全文 4,000字 | 閱讀約12分鐘
剛剛刷社交媒體,發現全網都是關于Manus的討論,熱度高得驚人,儼然一碼難求的場面。所有人都在求邀請碼,有的花錢要買,還有的直接找創始人要。
Manus是一個真正自主的AI代理,能夠解決各類復雜多變的任務。與傳統AI不同,它不僅能提供建議或答案,還能直接交付完整的任務成果。官方視頻里給出了三個agent的實例:篩選簡歷、篩選房產、股票分析。
現在各種媒體平臺都在測試產品視頻和文章,這里我就不測試,至少給大家聊聊Manus意味著什么?
【核心觀點:】
模型即產品——AI的未來是將模型打造為最終產品。
有針對性的訓練效果超預期——強化學習讓模型學會了執行復雜任務。
推理成本正在自由落體式下降——技術進步讓AI服務前所未有地便宜。
應用層的困境——隨著模型能力提升,應用層可能首先被自動化取代。
普通人意味著什么?——要么自己掌握技術,要么被技術取代。
過去幾年,人們對AI發展的下一個周期有很多猜測。是智能Agent?是推理搜索引擎?還是真正的多模態技術?
一、模型即產品:
現在可以明確了:模型本身就是產品。
當前研究和市場發展的所有因素都指向這一方向。
通用模型的擴展正在停滯。這是GPT-4.5發布背后傳遞的核心信息:能力在線性增長,而計算成本卻呈幾何曲線上升。即使有過去兩年訓練和基礎設施方面的所有效率提升,OpenAI也無法以一個相對合理的價格部署這個龐大的模型。
有目標性的訓練效果遠超預期。強化學習和推理的結合意味著模型突然開始學習執行任務。這不是傳統的機器學習,也不是基礎模型,而是一種神秘的第三種事物。就連小型模型在數學方面都突然變得驚人地優秀。編碼模型不再只是生成代碼,而是能夠自己管理整個代碼庫。Claude能夠在上下文信息非常有限且沒有專門訓練的情況下玩寶可夢游戲。
推理成本正在急劇下降。DeepSeek的最新優化意味著,所有可用的GPU可以滿足全球人口每天從前沿模型獲取1萬個標記的需求。根本不存在這種規模的需求。對模型提供商來說,銷售標記的經濟模式不再有效:他們必須在價值鏈上向更高處移動。
這也是一個讓人不舒服的方向。所有投資者都一直在押注應用層。在AI演化的下一階段,應用層很可能是第一個被自動化和顛覆的領域。
二、未來模型的形態
"過去幾周,我們看到了這種新一代"模型即產品"的兩個典型例子:OpenAI的DeepResearch和Claude Sonnet 3.7。
我讀到了很多關于DeepResearch的誤解,這些誤解因為大量開源和閉源克隆產品的出現而更加混亂。OpenAI并沒有在O3之上構建一個包裝器。他們訓練了一個全新的模型,能夠在內部執行搜索,無需任何外部調用、提示或編排: 該模型學習了核心瀏覽能力(搜索、點擊、滾動、解釋文件)(...)以及如何通過強化學習在這些瀏覽任務上訓練,來分析大量網站以找到特定信息或撰寫全面報告。
DeepResearch不是標準的大語言模型,也不是標準的聊天機器人。它是一種新形式的研究語言模型,專門設計用于執行端到端的搜索任務。對于認真使用它的人來說,差異立即顯現:模型生成結構一致的長篇報告,并有底層的源分析過程。相比之下,正如Hanchung Lee強調的,所有其他DeepSearch產品,包括國內的DeepSeek以及Perplexity和Google的變體,只是在普通模型上做了一些小調整:
"Google的Gemini和Perplexity的聊天助手也提供"深度研究"功能,但兩者都沒有發表任何關于如何為此任務優化模型或系統的文獻,也沒有任何實質性的量化評估(...)我們假設所做的微調工作并不重要。"
三、愿景越來越清晰
去年12月,Anthropic提出了一個有爭議但在我看來非常準確的智能代理模型定義。類似于DeepSearch,真正的智能代理必須能夠在內部執行目標任務:它們"能動態地指導自己的處理過程和工具使用,完全掌控如何完成任務"。
目前大多數智能代理創業公司構建的并非真正的智能代理,而是工作流程,即"通過預定義代碼路徑來編排大語言模型和工具的系統"。工作流程可能仍然帶來一些價值,特別是在垂直領域的應用上。然而,對于目前在大型AI實驗室工作的人來說,一個顯而易見的事實是:自主系統的所有重大進展都將首先通過重新設計模型本身來實現。
Claude 3.7的發布給我們提供了一個非常具體的例證,這個模型主要是針對復雜代碼使用場景而訓練的。所有像Devin以及當下Manus這樣的工作流程適配在軟件工程基準測試上都獲得了重大提升。
再舉一個小得多的例子:在Pleias,我們目前正在研究自動化RAG(檢索增強生成)。當前的RAG系統是許多相互連接但脆弱的工作流程的組合:路由、分塊、重排序、查詢解釋、查詢擴展、源上下文化、搜索工程。隨著訓練技術棧的發展,有可能將所有這些過程捆綁到兩個獨立但相互連接的模型中,一個用于數據準備,另一個用于搜索/檢索/報告生成。這需要精心設計的合成流程和全新的強化學習獎勵函數。這是真正的訓練,真正的研究。
這一切在實踐中意味著什么:轉移復雜性。訓練過程預先考慮了廣泛的行動和邊緣情況,使得部署變得更加簡單。但在這個過程中,大部分價值現在是由模型訓練者創造的,最終很可能也會被他們獲取。簡而言之,Claude的目標是打破并取代當前的工作流程,比如來自llama index的這種基本"智能代理"系統:
或者
三、訓練還是被訓練
需要重申:大型AI實驗室并沒有隱藏的議程。雖然他們有時可能不夠透明,但實際上他們已經公開表明:他們將打包服務,向應用層進軍,并試圖在那里獲取大部分價值。商業后果非常明確。Databricks的生成式AI副總裁Naveen Rao表述得相當到位:
所有封閉的AI模型提供商將在未來2-3年內停止銷售API。只有開源模型將通過API提供服務(...) 封閉模型提供商正在嘗試構建非商品化的能力,他們需要出色的用戶界面來實現這些功能。這不再僅僅是一個模型,而是一個帶有特定目的的應用和界面。
所以現在發生的只是大量的否認。模型提供商和包裝商之間的蜜月期已經結束。事情可能朝著這些方向發展:
Claude Code和DeepSearch是這個方向上的早期技術和產品實驗。你會注意到DeepSearch并不通過API提供,只用于為高級訂閱創造價值。Claude Code是一個極簡的終端集成。奇怪的是,雖然Claude 3.7在Claude Code中運行完美,但Cursor卻在使用它時遇到困難,我已經看到幾個高端用戶因此取消了訂閱。真正的大語言模型智能代理不關心預先存在的工作流程:它們直接替代它。
最知名的包裝商現在正在爭相轉變為混合AI訓練公司。他們確實擁有一些訓練能力,盡管很少宣傳。Cursor的主要資產之一是他們的小型自動補全模型。WindSurf有他們內部的廉價代碼模型Codium。Perplexity一直依賴于自家的分類器進行路由,最近還轉向訓練自己的DeepSeek變體用于搜索目的。
對于較小的包裝商來說,如果大型實驗室完全放棄這個市場,除了可能會更加依賴通用推理提供商外,不會有太大變化。我也預計會看到更多對用戶界面的關注,這一點仍然被嚴重低估,因為更多的通用模型可能會捆綁常見的部署任務,特別是對于RAG(檢索增強生成)。
簡而言之,對大多數成功的包裝商來說,困境很簡單:訓練還是被訓練。他們現在所做的不僅是為大型實驗室提供免費的市場研究,甚至由于所有輸出最終都是通過模型提供商生成的,還提供了免費的數據設計和生成。
之后會發生什么,無人能夠確定。成功的包裝商確實有熟悉自己垂直領域的優勢,并積累了大量寶貴的用戶反饋。然而,根據我的經驗,從模型層向下到應用層要比從頭開始建立全新的訓練能力容易得多。包裝商可能也沒有得到投資者的幫助。據我所聞,對訓練存在如此負面的偏見,他們幾乎不得不隱藏將成為他們最關鍵價值的東西:目前Cursor的小模型和Codium都沒有得到適當的文檔記錄。
強化學習的價值未被估計
這讓我想到了真正痛苦的部分:目前所有的AI投資都是相關聯的。基金運營基于以下假設:
真正的價值完全在于獨立于模型層的應用層,這個應用層最有能力顛覆現有市場。
模型提供商只會以不斷降低的價格銷售令牌,從而使包裝商變得更加有利可圖。
封閉模型的包裝將滿足所有現有需求,即使在對外部依賴持長期擔憂的監管行業也是如此。
構建任何訓練能力都是浪費時間。這不僅包括預訓練,還包括所有形式的訓練。
恐怕這越來越像是一場冒險的賭博,以及市場未能準確評估最新技術發展(特別是強化學習領域)的真實價值。在當前的經濟生態系統中,風險基金旨在尋找不相關的投資。他們可能不會擊敗標普500指數,但這并不是大型機構投資者所尋求的:他們想要捆綁風險,確保在不景氣的年份至少有些項目能夠成功。模型訓練就像是一個教科書般完美的例子:在大多數西方經濟體走向衰退的背景下,它具有巨大的顛覆潛力。然而,模型訓練者無法籌集資金,或者至少無法以常規方式籌集。Prime Intellect是少數幾家有明確潛力成為前沿實驗室的西方新AI訓練公司之一。在國內,類似的情況也存在,盡管智譜AI等公司已經展示了一些突破性的模型訓練能力。然而,盡管他們取得了包括訓練首個去中心化大語言模型在內的成就,但他們仍然難以籌集到比普通包裝商更多的資金。國內的大模型公司也面臨著類似的資本困境,即使在國家政策支持的背景下。
除此之外,撇開大型實驗室不談,當前的訓練生態系統非常小。你可以用手指數出所有這些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace預訓練團隊(實際上很小)...還有中國的智源研究院、百度飛槳團隊等,加上一些更學術的參與者(Allen AI、Eleuther...),他們構建并支持了當前訓練的大部分開放基礎設施。在歐洲,我知道至少7-8個大語言模型項目將集成我們在Pleias開發的Common Corpus(公共語料庫)和一些預訓練工具——其余的將是fineweb,以及可能來自Nous或Arcee的訓練后指令集。在國內,類似的開放基礎設施正由文心一言、智譜AI等團隊推動。
當前的融資環境存在深刻問題。即使是OpenAI現在也感受到了。最近,對當前硅谷創業公司格局中缺乏"垂直強化學習"的不滿的情緒十分明顯。我相信這個信息直接來自Sam Altman,并可能導致下一批YC項目的一些調整,但也指向了一個更大的轉變:很快,大型實驗室選擇的合作伙伴將不再是API客戶,而是參與早期訓練階段的相關承包商。在國內AI賽道上,這種轉變的跡象同樣開始顯現。
如果模型就是產品,你不可能獨自構建它?
如果模型就是產品,你不可能獨自構建它。搜索和代碼是容易摘取的低垂果實:兩年來的主要用例,市場幾近成熟,你可以在幾個月內推出新的Cursor。但未來許多最有利可圖的AI用例還沒有發展到這么成熟的階段——典型的例子是,想想那些仍然主導世界經濟大部分領域的基于規則的系統...擁有跨領域專業知識和高度專注的小型專業團隊可能最有條件解決這些問題——最終在完成初步基礎工作后成為潛在的"人才收購"目標。我們可能在UI方面也會看到同樣的管道。一些優選合作伙伴獲得對封閉專業模型的獨家API訪問權,前提是他們走上業務收購的道路。
到目前為止,還沒有提到DeepSeek。這只是因為DeepSeek已經更進一步:模型不僅是產品,而是通用基礎設施層。和OpenAI與Anthropic一樣,梁文峰公開表明了他的計劃:
"我們相信,當前階段是技術創新的爆發,而不是應用的爆發(...) 如果形成了完整的上下游產業生態系統,那么我們就不需要自己制作應用。當然,如果需要,我們制作應用也沒有障礙,但研究和技術創新將永遠是我們的首要任務。"
Manus AI,已經很接近理想中的數字版 AI Agent 的樣子了!能夠自動執行任務、搜索、找資料、寫代碼和生成各種格式的文檔。 一個真正的個人數字助理,就是應該完成你能用電腦完成的所有工作。
但這樣的 像Manus的Agent 應用,會不會撞到大模型公司下一代產品的槍口上呢!留給大家思考。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
原文鏈接:https://vintagedata.org/blog/posts/model-is-the-product
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.