網易首頁 > 網易號 > 正文申請入駐

AGI的不歸之途

2025-06-02 22:29:24　來源: 未盡研究

上海舉報

分享至

轉眼之間， 2025 年即將過半。上半年 OpenAI o3 、 Gemini 2.5 pro 、 Grok 3 mini 和 Claude 4 的推出，以及智能體 MCP 、 A2A 等協議的推出和融合，讓前沿大模型、智能體、應用的進展再次提速。

智能體接管人類工作的時長，成為觀察AGI進程的又一個重要視角。硅谷研究機構METR刻畫出了智能體完成任務復雜程度每7個月翻倍的曲線，Claude-opus 4 可以連續工作7小時。從初級白領工作開始，智能體接管的任務會越來越多。

智能體似乎正在真正解除鮑莫爾病——一個在傳統經濟學中的悖論，即技術進步無法提升醫療、教育等勞動密集服務業的勞動生產率。Anthropic創始人阿莫迪（Dario Amodei）發出了聳人的警告，智能體將很快取代一半的初級白領工人，一人獨角獸公司將在2026年出現。

這一切在硅谷的科技巨頭，尤其是在科技七雄中，正在開始發生。它們一方面增加AI基礎設施的投入，加強頂尖AI人才的爭奪，一方面在大量裁撤可替代的工作崗位。AI的超級獨角獸這里，OpenAI的年化收入達到百億美元，Anthropic的年化收入半年內從10億美元增加到30億美元。在一些AI應用的垂直領域，如編程、產品開發與設計、招聘、營銷、客服、醫療、教育等領域，開始出現一些早期的規模產出。

與此同時，關于AI產生自我意識、開始對人類隱瞞、欺騙人類、甚至拒絕執行人類指令的跡向，開始在這些新發布的模型中出現。深度學習之父、諾獎得主辛頓再次發出AI統治并威脅人類文明存在的警告。《AI 2027》預測，中美兩國的超級智能決定合作，欺騙了各自國家的治理機制，釀成文明滅絕級的災難。

從全球來看，與美國日趨激烈但也趨同的模型發布競賽相比，上半年更重要的里程碑事件，發生在中國。

5月底，R1 0528性能超越Gemini 2.5 pro，進一步逼近OpenAI o3。R1 0528仍然建立在V3/R1的基座之上，這是一次后訓練帶來的性能躍升。這件事情的意義在于，R1僅在一代之內，同時實現了對OpenAI兩代前沿推理模型的追趕，o1和o3。創新之處在于，DeepSeek是開源的，是在缺乏算力的基礎上訓練出來的，而且更具成本優勢。所以在相同的分數上，專業機構更樂意給予DeepSeek更高的評價。

上半年中國確立了在開源領域的優勢。通義千問在2024年9月即已經開始超越Llama 3，DeepSeek R1從2025年初即開始趕上o1。Llama 4推出后，并沒有改變開始形成的DeepSeek與通義千問之間在性能上互卷的格局。

互聯網女皇米克爾（Mary Meeker）發出了第一份AI趨勢報告。她從PC、互聯網、移動、云計算來看AI，認為所有后來的技術，都是之前技術的“復利”，AI也不例外。所以，押注“樂觀”往往是最值得的投資之一。

目前全球仍有26億人沒有接入互聯網，米克爾看好更低成本的衛星互鏈網，加上直接帶有AI功能的網絡體驗?！跋胂笠幌?，一個‘首次上網體驗’不再是輸入關鍵詞到搜索引擎，而是與一臺能與你對話的機器交流。想象一下，完全跳過傳統的應用程序層，直接通過一個由智能代理驅動的界面來統一管理不同的技術平臺，同時理解用戶的語言、語境與意圖。”

美國科技七雄中和其他科技巨頭，除蘋果之外，幾乎所有的創始人都親自操刀或深度參與這場技術革命。中國的科技巨頭，如阿里、騰訊、字節、百度等，創始人已經開始真正成為發動機。

米克爾進一步延展了這種領導力：“AI領導力可能帶來地緣政治領導力——而非相反?！?/p>

報告認為，這一次中國的響應速度，要明顯快于1995年時的互聯網革命。全球 AI 競爭真正啟動的標志，是中國 DeepSeek 的發布（2025年1月）等事件。

Artificial Analysis發布的二季度分析報告顯示，中國與美國前沿大模型的差距，已經從ChatGPT發布時的兩年，到今年上半年的不足三個月。而且中國在所有的AI前沿系統，從大語言模型，推理模型，到所有模態的生成AI模型，都已經建立起與美國全面對標競爭的態勢。

由于中國更大的人口及市場規模，美國比中國更需要全球用戶和市場。實際上ChatGPT的最重要的用戶基數來自亞洲，如印度、印尼、巴基斯坦和越南這樣的互聯網開放的人口大中型國家。

大模型及AI之于社會經濟與地緣政治的顛覆，如此之廣、如此之深，以至于任何身在其中或暫未波及的個人、企業與政府，都或亢奮、或恐懼于正在到來的未來。而在形形色色的有關AI的未來中，AGI又擁有最高的威懾力。

與其說大家在追逐AGI的未來，不如說，AGI已經鎖定了大家的未來。

上半年備受期待的GPT-5和DeepSeek V4/R2都還沒有出來，但大致輪廓已經依稀可見。或許OpenAI與DeepSeeK也只是AGI浩瀚冰山的一角，單飛后的OpenAI黑幫們，合計估值數百億美元，它們對AI如何更好地“思考”的探索，也將逐步浮出水面。已經非常趨同的大模型，還會有哪些超越當前經典架構的懸念，會gradually and suddenly 嗎？

OpenAI與DeepSeek

今年4月初，奧特曼一句“我們能把GPT-5做得比原先想象的更好”，宣告了它的正式跳票；它將在o3和o4-mini發布后的幾個月后推出。從OpenAI的幾次發布會與訪談中，我們已經可以勾勒出GPT-5大致的模樣。

它最有可能是一個推理與生成相統一的原生的多模態大模型。今年2月，奧特曼就透露過GPT-4.5將是最后一個非思維鏈模型，暗示GPT-5天生就整合了o系列的推理功能，既適于高情商地交談，也適于理性地思考。3月，自回歸的圖像生成被原生地嵌入到GPT-4o中。5月，在發布編程智能體Codex后，OpenAI談到為了減少模型切換，未來計劃將它與Operator、Deep Research和Memory整合到一起。

很難讓人不懷疑，是不是DeepSeek的沖擊太大，逼得OpenAI不得不陸陸續續地將原本屬于GPT-5的部分功能，拆分出來發布了。不妨回憶一下，去年這個時候，AI大神Ilya Sutskever從OpenAI離開，奧特曼就暗示過GPT-5推遲發布；當時對GPT-5的描述是，將注重“與世界更深入地整合”。至少從那一刻起，人們就懷疑當時GPT-5已經進入后訓練階段了。

由于GPT-5遲遲不現身，曾讓硅谷品嘗到苦澀教訓的中國廠商DeepSeek，再次被寄予了厚望，甚至不僅僅是技術層面的，還有地緣層面的。就連法國AI希望之星 Mistral AI 也因此相信，既然“中國的Mistral”能行，那么自己也能行。市場期待DeepSeek能盡快拿出更高性價比的V4模型，或媲美o3的R2模型，當然，它們都必須是不折不扣的開源可商用的模型。

DeepSeek的下一代前沿模型，并非毫無痕跡可尋。代碼與數學，多模態與自然語言本身，三者是DeepSeek創始人梁文鋒押注的三個方向。DeepSeek團隊一直在自然語言模型之外的其他分支上探索，包括今年更新過一輪的數學定理證明模型Prover與自回歸的統一多模態理解與生成模型Janus等。去年，成熟度最高的代碼能力，已經融合進去了，下一代模型很可能就是原生多模態。

V4或者R2，至少對應著新的注意力機制創新的工程化與商業化。全新的NSA（原生可訓練稀疏注意力）機制，支持端到端的訓練，而且硬件對齊友好，解決了此前很多稀疏注意力機制只在特定階段受限起效的問題，為用戶帶去更長的上下文；名為BSBR（帶塊檢索的塊稀疏注意力）的技術，可以高效捕捉與檢索長期記憶。對“記憶”的完善，意味著倉庫級代碼生成、多輪智能體間互動以及科研深度的推理能力。

DeepSeek之于整個AI生態，尤其是中國的AI生態的意義，不僅僅在于它會回答下一代模型怎么樣，還會回答適配下一代模型的基礎設施怎么樣。年初NSA論文里提到了“基于Triton實現硬件對齊的稀疏”，為算法從CUDA中解耦出來提供了可能性。

值得注意的是，盡管遭遇DeepSeek釜底抽薪般的挑戰，ChatGPT的用戶增長及時長，都迎來的一次爆發。這使我們意識到，能提升模型的技術上限，并不意味著能做出好的應用和體驗。DeepSeek無志于此，但是誰又能用開源的模型做出真正殺手級的慶用呢？這可能無關DeepSeek，但它的確是擺在中國AI創新者面前的一道命題。

強化學習與思維鏈

“董事會政變”至今，不少OpenAI元老成員紛紛自立門戶，資本相信他們將探索出有別于“傳統大模型”的AGI之路，慷慨解囊。Ilya Sutzkever的SSI估值已達320億美元，Mira Murati的Thinking Machines Lab估值也達到了90億美元。它們幾乎沒有可以公開驗證的產品，甚至連可供公開討論的技術路線都付之闕如。

關于SSI的可證實的消息相當少。在社交媒體平臺上，Ilya Sutzkever與SSI的時間線都停留在一年前；公司官網也沒有更新。不過，放心，SSI的研發仍在推進，而且用的更多的是谷歌的TPU。作為一家定位為“純粹的研究機構”，它短期內“不會銷售AI產品或者服務”，但它會向同行們匯報一下成立一年來的進展嗎？

關于AGI，Ilya向外界傳遞過的最明確的信號，就是基于擴展定律的大模型預訓練已死。他最早信仰擴展，也最早意識到它的瓶頸。去年，他暗示自己正在尋找新的范式，“現在，在正確的方向擴展，比什么都重要”。當然，他將最后的成果稱為SSI，即安全的超級人工智能。

它會與強化學習有關嗎？Ilya曾專注于強化學習；DeepSeek也發現強化學習存在aha時刻；而Anthropic的Dario Amodei，則在這兩年里反復強調，強化學習威力強大，但又帶來諸多安全問題，目前面臨AI可解釋性的緊迫性。也許，SSI打算用強化學習訓練出一個既強大又安全的超級人工智能？

Thinking Machines Lab已經成立3個月。這家集聚了大量OpenAI元老成員的初創企業，“致力于通過論文發表和代碼發布來推進科學進步”的初創企業，至今沒有預印本論文或產品發布。好在該公司的聯合創始人Lilian Weng最近發了一篇長文，另一位聯合創始人John Schulman也參與了文章修改。這篇凝聚了公司高管思想的文章，剖析的是大模型的推理能力從何而來，如何讓大模型像人一樣通過“多想一會”而變得更聰明。這可以說非常AGI了。

文章最后留下了幾個開放性的問題，包括如何在無標準答案的情景下安全地讓模型自我糾錯，以及如何把推理階段的增益蒸餾回基礎模型，等等。

目前，人們確實已經意識到，“想多久”與“怎么想”都很關鍵。從產品的角度，無論是OpenAI還是Gemini，都給了用戶以設定“思考”上限的權力。這能在簡單問題上節省不少算力成本，而且思考越久也不見得準確率就一定更高。但這仍然不是AGI想要的，既然是AGI，應該由AI來感知與規劃自己應該思考多久。

在某種意義上，這些離開的OpenAI的大佬們，都在思考有關如何讓AI更好地“思考”的問題。Ilya認為AI自己可以決定從大量可能的答案中選取最好的那個，“它想得越深，就會越不可測”；而Lilian Weng則認為對“測試時思考”與“思維鏈”的研究，尤其是對那幾個開放性問題的回答，將推進構建未來的AI系統。

程序合成與擴散文本生成

今年以來，程序合成（program synthesis）與文本生成擴散（Diffisuion）的早期探索也浮出水面。

深度學習框架Keras的創建者Fran?ois Chollet，和AI SaaS公司Zapier聯合創始人Mike Knoop，先后聯手創辦了AI測評非營利組織ARC Prize Foundation，以及探索AGI的研究實驗室NDEA。他們不認為o3具備人類水平的智能，無法很好適應之前從未見過的新問題，算不上AGI。

也許是在不斷測試前沿模型中，兩人終于意識到，不突破傳統范式的局限性，就無法真正抵達AGI?！拔覀冋幱诳茖W歷史的關鍵時刻，世界值得每一種直接、獨特的嘗試來構建AGI”，它就是程序合成（program synthesis），能讓人工智能僅通過少量示例，就對之前未見過的問題實現泛化。它也已經是每個前沿AI實驗室如今都開始探索的一項技術。NDEA相信，現在正處于程序合成的AlexNet時刻。

與在一串離散的數據中猜測最符合概率的數據不同，程序合成可以根據已知的線索找到邏輯正確的程序。這家公司時不時地在X上分享與程序合成相關的技術論文。最近的一篇是來自谷歌DeepMind的科學編程智能體AlphaEvolve。這幾天，陶哲軒驚嘆它為解決數學難題提供了久違的“加速度”。NDEA認同AlphaEvolve的內在思路，正是程序合成的其中一種實現形式。

（說明：AlphaEvolve是如何合成最佳程序的。）

同樣是谷歌DeepMind，最近還嘗試了將擴散模型從圖片生成用到了文本生成上，在最近的I/O大會上拿出了Gemini Diffusion；正如OpenAI將圖片生成從擴散模型帶到了自回歸模型。在傳統范式逐步遭遇擴展定律的邊際放緩后，大家都在嘗試不同技術之間新的排列組合。

作為一款實驗性的產品，Gemini Diffusion的表現還不錯。它速度更快，每秒輸出近1500 token，性能還不亞于Gemini 2.0 Flash-Lite。但谷歌沒有披露它的更多細節。

不過，谷歌不是第一個這么做的。很多人看好這條路線。某種程度上，它更像人類的思維模式，不是一次寫一個詞，而是先勾勒出思路，然后漸進地完善帶掩碼的文本，直到形成連貫的文本。它更具全局注意力，還能解決傳統自回歸模型無法逆步思考的頑疾。如果愿意付出更高的算力成本，就可以做到比自回歸模型更高的準確率。

今年2月，中國人民大學發布了大型語言擴散模型LlaDA-8B。很快，UCLA聯合Meta推出了d1，港大聯合華為諾亞推出了Dream-7B，清華北大聯合字節跳動推出了Mmada，將探索文本擴散生成的邊界，延伸至觀察它在規模擴展、推理能力、原生多模型統一架構等領域?？雌饋?，這些科技巨頭盡管放緩了對“暴力美學”的追求，但都不排斥讓團隊成員勻出一點精力，去嘗試下新的技術路線。

（說明：文本擴散可以比自回歸生成更快更準確）

不過，目前這些研究主要仍然圍繞參數規模8B大小的模型展開，沒有驗證其在更大參數規模下同樣可以擴展。這項技術也面臨如何更高效地在預訓練中平衡“擴散步驟或噪聲增加策略”的難題。

下半年更值得關注的，還是智能體的應用，它的商業模式的建立。與移動互聯網時代不同，AI智能體正面臨著一個前所未有的競爭格局。

所以，下半年即將看到的是AI研究及應用的高收入增長 + 高現金消耗 + 高估值 + 高投資投入，包括中國的科技大廠都宣布增加資本支出，準備放手一搏。這對消費者而言是好消息，但是對其他方面，還有待觀察。

米克爾經歷了互聯網的贏家通吃的時代，但是，她認為AI智能體時代未必如此，AI 商業化的下一階段，也許并不是“贏家通吃”的競爭，而是一次融合與重構：

橫向平臺強調“廣度”，跨職能整合知識與工作邏輯；專業廠商則深耕“深度”，提供能真正理解合規、合同與客戶意圖的 AI。問題不在于“平臺”還是“專家”誰能勝出，而在于誰能抽象出正確的技術層、掌握用戶界面，并主導“工作的邏輯”。在 AI 時代，變現的路徑不再僅僅取決于使用頻率，而將取決于注意力、語境與控制權的歸屬。

但在地緣政治上卻未必如此。全球AI競爭的核心是美中之間的戰略博弈。米克爾報告認為，雖然美國公司在創新、芯片、云部署等方面占據領先，中國也在開源社區、國家級基礎設施和政府主導的協同方面快速推進。

“兩國都將人工智能視為經濟杠桿，也視為地緣政治影響力的來源?！?/p>

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.