“大模型下一步怎么走, 讓我們走進WAIC2025找答案。
2025世界人工智能大會(WAIC)開幕在即,數據猿作為大會權威認證的受邀媒體,將以專業視角全程直擊,帶來最具深度與洞察力的大會解讀,洞見AI未來。
在大會進入倒計時之際,WAIC振聾發聵地提出了“AI三問”:數學之問、科學之問和模型之問。主辦方以此“三問”破題,旨在超越技術應用的喧囂,直擊人工智能發展的核心。希望以此來凝聚更多的智慧,探尋AI這一影響人類文明技術的演進方向。
面對這一宏大命題,我們將聚焦“模型之問”,嘗試給出我們的思考與回應。
第一問:大模型如何走向了世界中心?
大模型是怎么一步一步站在了AI舞臺的中央?
(大模型發展簡史)
大模型最早的技術雛形,我們可以追溯到詞向量。2013年Google推出的Word2vec首次證明無監督詞向量可有效捕獲語義關系,通過Word2vec單詞可以被轉化成向量形式,詞向量可以有效地捕捉單詞間的語義關系。
自此,大模型命運的齒輪開始轉動。
2018年成為大模型發展的第一個分水嶺。Google的BERT模型與OpenAI的GPT-1相繼問世,它們分別采用雙向Transformer編碼器架構和自回歸預訓練方式,不僅在小樣本學習上取得突破,更確立了“預訓練+微調”的技術范式,為后續大模型的繁榮奠定了堅實基礎。
2020年,OpenAI發布GPT-3,以1750億參數的驚人規模震撼業界,“規模即能力”的猜想得到了驗證。這一時期,涌現能力成為了關鍵詞。整個行業開始意識到,當模型規模達到某個臨界點(大約百億參數)后,就會出現文本生成、邏輯推理等突現能力,以及在處理特定任務能力上的非線性增長。
自此,大模型進入參數軍備競賽的發展階段。
據統計,2020-2022年間,頂級大模型的參數量年均增長率達到驚人的650%。
2022年OpenAI,引入人類反饋強化學習(RLHF)技術,通過三階段訓練流程使模型輸出更符合用戶需求。這標志著大模型從純粹的能力追求轉向實用化發展階段。
自此以后,大模型技術演進呈現多元化趨勢:智能體框架通過工具調用實現多步驟自主任務執行;模型輕量化技術則讓大模型得以在消費級終端運行;通過模型蒸餾,DeepSeek創造了以小博大的奇跡。
人工智能歷經60多年的沉浮,大模型最終能異軍突起,既是其技術路線的成功,也離不開時代的推波助瀾。深度學習的厚積薄發、GPU算力的性能飛躍與互聯網的數據洪流,這些力量互相碰撞和激蕩,把大模型推向了風口浪尖。
第二問:參數爆炸已達物理極限 大模型下一步路在何方?
大模型一路向前的同時,模型參數在一路狂飆。
我們以GPT系列模型為參照物,看看模型參數令人咋舌的膨脹速度:
·2018年發布的GPT-1,參數為1.17億級;
·2019年發布的GPT-2,參數為10億級;
·2020年發布的GPT-3,參數暴漲至1750億;
·2023年發布的GPT-4模型參數預估5000億-一萬億之間。
短短五年間,模型參數幾乎翻了一萬倍。然而ChatGPT-4似乎成為了一道分水嶺,后續發布的新一代頂尖模型如Claude 3.5 Sonnet和Llama 3等,其參數規模反而有所下降。業界開始意識到,模型的效率和智能并非僅由參數量決定。
尤其是Deepseek的橫空出世,狠狠的擊碎了“模型越大,AI越智能”的迷思,對更大參數規模的盲目追求正在退潮。
百度CEO李彥宏認為,千億參數是通用大模型的門檻,“過了千億之后,不是萬億量級參數一定比千億效果要好。”
當前主流大模型產品幾乎都是構建在Transformer架構之上,這是一個劃時代的創新。然而,它也存在一些結構性缺陷,最核心的就是O(n2) 的自注意力復雜度的問題。可以說,這個機制催生了一系列改變世界的大模型產品,但是也為后續的發展埋下了隱患。
為什么這樣說,這得從O(n2) 的自注意力復雜度的原理說起。
我們設想一個場景,在一間教室,一群剛開學的小朋友,如果其中一個小朋友A想要認識另外一個小朋友B,這個A必須和教室里的每個人單獨握手并交談一次,才能找到小朋友B。那么問題來了,當這間教室有100個小朋友的時候,如果所有的小朋友都互相認識,總共需要握手多少次?答案是4950次——這就是Transformer處理長文本時算力爆炸的根源。
很多人意識到,想要進一步提升模型處理的效能,需要根本性創新而非漸進式改進。
☆架構革命:從Transformer到混合智能系統
很多人嘗試對Transformer架構進行優化升級,比如MoE架構(混合專家模型),架構的核心思想是將龐大模型拆分為多個“專家”子網絡,并通過智能路由機制動態激活少量相關專家處理每個輸入。它將大模型無差別暴力解題的方式,優化為專人專崗,分組分類的形式,極大的優化了效率。
MoE架構受到很多頂尖大模型公司的青睞,其中最典型的就是DeepSeek。此外,Google的Gemini 2.0也采用了這種架構。
很多企業也開始嘗試在Transformer架構之外,尋找新的方案。2024年,一種名為Mamba的新型架構作為挑戰者問世。它在保持與Transformer相當的建模能力的同時,對于序列長度具有近線性的可擴展性。Mamba架構通過狀態空間模型將計算復雜度從O(n2)降至O(n),使長文本處理效率提升10倍。
然而Mamba架構也存在一定的技術局限性,比如上下文學習能力和上下文的信息復制能力等。
那有沒有可能將兩者進行優勢互補呢?
Transformer-Mamba混合架構是一種將Transformer模型的全局注意力機制與Mamba模型(基于狀態空間模型SSM)的高效長序列處理能力相結合的新型神經網絡架構。它能夠有效克服兩者的局限性,同時保留各自優勢。
2025年,騰訊推出了國內首個相關產品。騰訊混元 T1采用了Hybrid-Mamba-Transformer融合架構。這一架構在不犧牲準確性的基礎上,有效降低了計算復雜度,吐字速度最快可達80token/s。
計算機視覺領域,英偉達團隊研發的MambaVision,利用Mamba與Transformer的融合設計,使MambaVision在Top - 1精度和圖像吞吐量上超越同類模型。
☆訓練范式升級:從預訓練到后訓練
除了架構的創新以外,業界也嘗試從模型的訓練方法著手,尋找大模型發展的新方向。
我們知道,預訓練是大模型最具標志性的技術特色之一。預訓練的優勢在于,它能夠在海量無標注的數據中學習通用特征,為下游泛化的任務奠定基礎。但同時也帶來了數據污染、知識幻覺等問題。
人類對模型行為的調控、對齊能力成為大模型提升的關鍵,“后訓練”的模式由此登上了舞臺。
后訓練指在模型預訓練完成后的優化階段,通過量化、蒸餾、剪枝等技術直接優化已訓練模型。其主要功能在于能夠有效修正在預訓練階段的知識錯誤和事實偏差,使模型的輸出更符合人類價值觀,避免其“信口開河”。同時,通過后訓練還能強化模型的多步驟推理能力,更好的助力大模型在具體應用場景的落地。
預訓練目前主要有兩種發展路徑:一是通過在大量的“推理軌跡”上進行后訓練,直接教會模型如何思考;二是利用“搜索”技術,在推理時指導模型的思考過程,讓模型生成多個候選答案或推理路徑,再由獎勵模型來挑選出最佳結果。
包括Claude 4、GPT-4o 、Gemini2.5,以及馬斯克的xAI最新發布的Grok 4,都加大了后訓練的投入。
Gartner預測到2027年,70%的企業AI系統將采用"預訓練-微調-后訓練優化"三級流水線。全新的架構和訓練范式的變革,這些探索將為下一代基礎大模型的構建提供方向。
第三問:高質量數據枯竭 大模型如何解渴?
大模型數據饑渴的問題已經迫在眉睫。
狂奔的大模型幾乎吞噬了所有的公開數據,傳統依賴數據驅動模型能力增長的路徑已難以為繼。
千禧年互聯網剛誕生時的時候,人們樂觀的認為,互聯網會讓世界變成地球村。所有的信息匯聚到一大片海洋中,供來自世界各地的輪船自由停泊。然而現實并沒有像預想的一樣,這片想象中的大海被分割成無數個大大小小的水坑。更重要的是,那些真正有質量的“礦藏”稀少且難以獲取。
據資料顯示,Deepmind每年單是在數據標注上的花費就高達10億美元。對于高質量的數據,OpenAI愿意為單條推理軌跡支付2000至3000美元。
大模型企業在數據上的“花費”有開始超過計算投入的趨勢。
雖然圍繞數據端,我們做了很多工作,比如數據治理、可信數據空間、打造高質量數據集等等,但是始終無法從根源上解決大模型的“數據焦慮”。
為此,業界提出了一個名叫SICOG的框架。SICOG的核心在于其“后訓練增強—推理優化—再預訓練強化”三位一體的協同機制。
首先,在后訓練增強階段,通過少量高質量的標注數據,提升模型的系統性認知與基礎推理能力;隨后,在大規模無標簽數據上進行自主推理,并通過自我一致性投票機制生成偽標簽,為再預訓練構建基礎;最后,將生成的偽標簽數據反饋到模型中,實現模型能力的持續進化。
這個技術路線最終走向如何,還有待觀察,它至少讓我們看到了數據問題的解題之道,正在從被動走向主動。
第四問:人類的焦慮 大模型是敵人還是伙伴?
經濟學家熊彼特提出過一個著名的觀點——破壞性創新。當前,大模型“破壞性創新”的威力,正在各行各業快速擴散。大模型帶來的這場變革迅猛而劇烈,必然伴隨著一些產業的毀滅與重塑。
360董事長周鴻祎公開宣布要干掉整個市場部,挑戰一個人+AI辦一場發布會。招商銀行"小招"智能助手已替代45%的客服崗位。美國影視行業有多家公司反應,目前有20%特效鏡頭由AI生成,使得每集電視劇的制作成本大幅降低。加上具身智能、人形機器人開始走向工廠,AI正在無差別實現對藍領工作和白領工作的雙重替代。
企業層面,AI正在蠶食產業鏈條中的某些環節。比如,很多企業過去需要外包的工作,如視頻制作、業務咨詢、軟件開發等,在AI的協助下,不斷回歸到企業內部。這也就意味著提供這些服務的公司將面臨客戶流失的風險。
任何不愿經歷文化和組織變革陣痛的公司,都將面臨被淘汰的風險。
☆極簡團隊時代到來
AI給人類帶來了焦慮,焦慮背后我們觀察到AI也在幫助人類創造奇跡。
一些善用AI的極簡團隊正在創造驚人的財富效應。Midjourney用兩年時間、約40名員工的團隊,創造了約2億美元的營收;而更年輕的Cursor僅用一年時間、約20名員工,就實現了約1億美元的營收。事實上,帶來產業震撼的Deepseek,其團隊規模也只有一兩百人。
這些奇跡的背后共同指向一個事實:AI極大提升了個人和團隊能力的杠桿,尤其是隨著智能體的發展,AI正從一個只能執行瞬時指令的工具,演變為能夠處理復雜、長期任務的可靠助手,創造著前所未有的變革之力。
這種變革之力直接體現在團隊結構上,那些小而美、小而精的團隊只要找到合適的賽道,就能快速啟動,利用AI的能力杠桿,創造奇跡。
(團隊50人以下,營收500萬美元以上的“極簡公司”)
如果說蒸汽機、電動機、內燃機等技術革命,是對人類肌肉力量的延伸。那么大模型的發展無疑是對人類思維能力的一次突破。盡管看起來是人類在規劃和設計AI,但AI不同于汽車、冰箱或者任何產品。這是人類第一次與一個在智力上比肩自己的“物種”打交道。在與人和環境的不斷互動中,大模型已經從數據的“處理工具”,進化成人類可靠的合作伙伴。
雖然大模型的發展仍面臨很多困難,但是縱觀過去的歷史,在技術難題前面,總會涌現創新的能量。大模型是一個沒有使用說明,沒有指導手冊的全新領域,我們注定要在巨大的不確定中突圍。在這些不確定中,唯一能確定的是,2025年我們將接近AI的真相更近一步。WAIC2025或許會給大家帶來更多答案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.