網易首頁 > 網易號 > 正文申請入駐

WAIC 2025 | 已達物理極限的大模型下一步路在何方？

2025-07-23 18:40:19　來源: 數據猿DataYuan

內蒙古舉報

分享至

“大模型下一步怎么走，讓我們走進WAIC2025找答案。

2025世界人工智能大會（WAIC）開幕在即，數據猿作為大會權威認證的受邀媒體，將以專業視角全程直擊，帶來最具深度與洞察力的大會解讀，洞見AI未來。

在大會進入倒計時之際，WAIC振聾發聵地提出了“AI三問”：數學之問、科學之問和模型之問。主辦方以此“三問”破題，旨在超越技術應用的喧囂，直擊人工智能發展的核心。希望以此來凝聚更多的智慧，探尋AI這一影響人類文明技術的演進方向。

面對這一宏大命題，我們將聚焦“模型之問”，嘗試給出我們的思考與回應。

第一問：大模型如何走向了世界中心？

大模型是怎么一步一步站在了AI舞臺的中央？

（大模型發展簡史）

大模型最早的技術雛形，我們可以追溯到詞向量。2013年Google推出的Word2vec首次證明無監督詞向量可有效捕獲語義關系，通過Word2vec單詞可以被轉化成向量形式，詞向量可以有效地捕捉單詞間的語義關系。

自此，大模型命運的齒輪開始轉動。

2018年成為大模型發展的第一個分水嶺。Google的BERT模型與OpenAI的GPT-1相繼問世，它們分別采用雙向Transformer編碼器架構和自回歸預訓練方式，不僅在小樣本學習上取得突破，更確立了“預訓練+微調”的技術范式，為后續大模型的繁榮奠定了堅實基礎。

2020年，OpenAI發布GPT-3，以1750億參數的驚人規模震撼業界，“規模即能力”的猜想得到了驗證。這一時期，涌現能力成為了關鍵詞。整個行業開始意識到，當模型規模達到某個臨界點（大約百億參數）后，就會出現文本生成、邏輯推理等突現能力，以及在處理特定任務能力上的非線性增長。

自此，大模型進入參數軍備競賽的發展階段。

據統計，2020-2022年間，頂級大模型的參數量年均增長率達到驚人的650%。

2022年OpenAI，引入人類反饋強化學習(RLHF)技術，通過三階段訓練流程使模型輸出更符合用戶需求。這標志著大模型從純粹的能力追求轉向實用化發展階段。

自此以后，大模型技術演進呈現多元化趨勢：智能體框架通過工具調用實現多步驟自主任務執行；模型輕量化技術則讓大模型得以在消費級終端運行；通過模型蒸餾，DeepSeek創造了以小博大的奇跡。

人工智能歷經60多年的沉浮，大模型最終能異軍突起，既是其技術路線的成功，也離不開時代的推波助瀾。深度學習的厚積薄發、GPU算力的性能飛躍與互聯網的數據洪流，這些力量互相碰撞和激蕩，把大模型推向了風口浪尖。

第二問：參數爆炸已達物理極限大模型下一步路在何方？

大模型一路向前的同時，模型參數在一路狂飆。

我們以GPT系列模型為參照物，看看模型參數令人咋舌的膨脹速度：

·2018年發布的GPT-1，參數為1.17億級；

·2019年發布的GPT-2，參數為10億級；

·2020年發布的GPT-3，參數暴漲至1750億；

·2023年發布的GPT-4模型參數預估5000億-一萬億之間。

短短五年間，模型參數幾乎翻了一萬倍。然而ChatGPT-4似乎成為了一道分水嶺，后續發布的新一代頂尖模型如Claude 3.5 Sonnet和Llama 3等，其參數規模反而有所下降。業界開始意識到，模型的效率和智能并非僅由參數量決定。

尤其是Deepseek的橫空出世，狠狠的擊碎了“模型越大，AI越智能”的迷思，對更大參數規模的盲目追求正在退潮。

百度CEO李彥宏認為，千億參數是通用大模型的門檻，“過了千億之后，不是萬億量級參數一定比千億效果要好。”

當前主流大模型產品幾乎都是構建在Transformer架構之上，這是一個劃時代的創新。然而，它也存在一些結構性缺陷，最核心的就是O(n2) 的自注意力復雜度的問題。可以說，這個機制催生了一系列改變世界的大模型產品，但是也為后續的發展埋下了隱患。

為什么這樣說，這得從O(n2) 的自注意力復雜度的原理說起。

我們設想一個場景，在一間教室，一群剛開學的小朋友，如果其中一個小朋友A想要認識另外一個小朋友B，這個A必須和教室里的每個人單獨握手并交談一次，才能找到小朋友B。那么問題來了，當這間教室有100個小朋友的時候，如果所有的小朋友都互相認識，總共需要握手多少次？答案是4950次——這就是Transformer處理長文本時算力爆炸的根源。

很多人意識到，想要進一步提升模型處理的效能，需要根本性創新而非漸進式改進。

☆架構革命：從Transformer到混合智能系統

很多人嘗試對Transformer架構進行優化升級，比如MoE架構（混合專家模型），架構的核心思想是將龐大模型拆分為多個“專家”子網絡，并通過智能路由機制動態激活少量相關專家處理每個輸入。它將大模型無差別暴力解題的方式，優化為專人專崗，分組分類的形式，極大的優化了效率。

MoE架構受到很多頂尖大模型公司的青睞，其中最典型的就是DeepSeek。此外，Google的Gemini 2.0也采用了這種架構。

很多企業也開始嘗試在Transformer架構之外，尋找新的方案。2024年，一種名為Mamba的新型架構作為挑戰者問世。它在保持與Transformer相當的建模能力的同時，對于序列長度具有近線性的可擴展性。Mamba架構通過狀態空間模型將計算復雜度從O(n2)降至O(n)，使長文本處理效率提升10倍。

然而Mamba架構也存在一定的技術局限性，比如上下文學習能力和上下文的信息復制能力等。

那有沒有可能將兩者進行優勢互補呢？

Transformer-Mamba混合架構是一種將Transformer模型的全局注意力機制與Mamba模型（基于狀態空間模型SSM）的高效長序列處理能力相結合的新型神經網絡架構。它能夠有效克服兩者的局限性，同時保留各自優勢。

2025年，騰訊推出了國內首個相關產品。騰訊混元 T1采用了Hybrid-Mamba-Transformer融合架構。這一架構在不犧牲準確性的基礎上，有效降低了計算復雜度，吐字速度最快可達80token/s。

計算機視覺領域，英偉達團隊研發的MambaVision，利用Mamba與Transformer的融合設計，使MambaVision在Top - 1精度和圖像吞吐量上超越同類模型。

☆訓練范式升級：從預訓練到后訓練

除了架構的創新以外，業界也嘗試從模型的訓練方法著手，尋找大模型發展的新方向。

我們知道，預訓練是大模型最具標志性的技術特色之一。預訓練的優勢在于，它能夠在海量無標注的數據中學習通用特征，為下游泛化的任務奠定基礎。但同時也帶來了數據污染、知識幻覺等問題。

人類對模型行為的調控、對齊能力成為大模型提升的關鍵，“后訓練”的模式由此登上了舞臺。

后訓練指在模型預訓練完成后的優化階段，通過量化、蒸餾、剪枝等技術直接優化已訓練模型。其主要功能在于能夠有效修正在預訓練階段的知識錯誤和事實偏差，使模型的輸出更符合人類價值觀，避免其“信口開河”。同時，通過后訓練還能強化模型的多步驟推理能力，更好的助力大模型在具體應用場景的落地。

預訓練目前主要有兩種發展路徑：一是通過在大量的“推理軌跡”上進行后訓練，直接教會模型如何思考；二是利用“搜索”技術，在推理時指導模型的思考過程，讓模型生成多個候選答案或推理路徑，再由獎勵模型來挑選出最佳結果。

包括Claude 4、GPT-4o 、Gemini2.5，以及馬斯克的xAI最新發布的Grok 4，都加大了后訓練的投入。

Gartner預測到2027年，70%的企業AI系統將采用"預訓練-微調-后訓練優化"三級流水線。全新的架構和訓練范式的變革，這些探索將為下一代基礎大模型的構建提供方向。

第三問：高質量數據枯竭大模型如何解渴？

大模型數據饑渴的問題已經迫在眉睫。

狂奔的大模型幾乎吞噬了所有的公開數據，傳統依賴數據驅動模型能力增長的路徑已難以為繼。

千禧年互聯網剛誕生時的時候，人們樂觀的認為，互聯網會讓世界變成地球村。所有的信息匯聚到一大片海洋中，供來自世界各地的輪船自由停泊。然而現實并沒有像預想的一樣，這片想象中的大海被分割成無數個大大小小的水坑。更重要的是，那些真正有質量的“礦藏”稀少且難以獲取。

據資料顯示，Deepmind每年單是在數據標注上的花費就高達10億美元。對于高質量的數據，OpenAI愿意為單條推理軌跡支付2000至3000美元。

大模型企業在數據上的“花費”有開始超過計算投入的趨勢。

雖然圍繞數據端，我們做了很多工作，比如數據治理、可信數據空間、打造高質量數據集等等，但是始終無法從根源上解決大模型的“數據焦慮”。

為此，業界提出了一個名叫SICOG的框架。SICOG的核心在于其“后訓練增強—推理優化—再預訓練強化”三位一體的協同機制。

首先，在后訓練增強階段，通過少量高質量的標注數據，提升模型的系統性認知與基礎推理能力；隨后，在大規模無標簽數據上進行自主推理，并通過自我一致性投票機制生成偽標簽，為再預訓練構建基礎；最后，將生成的偽標簽數據反饋到模型中，實現模型能力的持續進化。

這個技術路線最終走向如何，還有待觀察，它至少讓我們看到了數據問題的解題之道，正在從被動走向主動。

第四問：人類的焦慮大模型是敵人還是伙伴？

經濟學家熊彼特提出過一個著名的觀點——破壞性創新。當前，大模型“破壞性創新”的威力，正在各行各業快速擴散。大模型帶來的這場變革迅猛而劇烈，必然伴隨著一些產業的毀滅與重塑。

360董事長周鴻祎公開宣布要干掉整個市場部，挑戰一個人+AI辦一場發布會。招商銀行"小招"智能助手已替代45%的客服崗位。美國影視行業有多家公司反應，目前有20%特效鏡頭由AI生成，使得每集電視劇的制作成本大幅降低。加上具身智能、人形機器人開始走向工廠，AI正在無差別實現對藍領工作和白領工作的雙重替代。

企業層面，AI正在蠶食產業鏈條中的某些環節。比如，很多企業過去需要外包的工作，如視頻制作、業務咨詢、軟件開發等，在AI的協助下，不斷回歸到企業內部。這也就意味著提供這些服務的公司將面臨客戶流失的風險。

任何不愿經歷文化和組織變革陣痛的公司，都將面臨被淘汰的風險。

☆極簡團隊時代到來

AI給人類帶來了焦慮，焦慮背后我們觀察到AI也在幫助人類創造奇跡。

一些善用AI的極簡團隊正在創造驚人的財富效應。Midjourney用兩年時間、約40名員工的團隊，創造了約2億美元的營收；而更年輕的Cursor僅用一年時間、約20名員工，就實現了約1億美元的營收。事實上，帶來產業震撼的Deepseek，其團隊規模也只有一兩百人。

這些奇跡的背后共同指向一個事實：AI極大提升了個人和團隊能力的杠桿，尤其是隨著智能體的發展，AI正從一個只能執行瞬時指令的工具，演變為能夠處理復雜、長期任務的可靠助手，創造著前所未有的變革之力。

這種變革之力直接體現在團隊結構上，那些小而美、小而精的團隊只要找到合適的賽道，就能快速啟動，利用AI的能力杠桿，創造奇跡。

（團隊50人以下，營收500萬美元以上的“極簡公司”）

如果說蒸汽機、電動機、內燃機等技術革命，是對人類肌肉力量的延伸。那么大模型的發展無疑是對人類思維能力的一次突破。盡管看起來是人類在規劃和設計AI，但AI不同于汽車、冰箱或者任何產品。這是人類第一次與一個在智力上比肩自己的“物種”打交道。在與人和環境的不斷互動中，大模型已經從數據的“處理工具”，進化成人類可靠的合作伙伴。

雖然大模型的發展仍面臨很多困難，但是縱觀過去的歷史，在技術難題前面，總會涌現創新的能量。大模型是一個沒有使用說明，沒有指導手冊的全新領域，我們注定要在巨大的不確定中突圍。在這些不確定中，唯一能確定的是，2025年我們將接近AI的真相更近一步。WAIC2025或許會給大家帶來更多答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.