新智元報道
編輯:KingHZ
【新智元導讀】從GPT-2到Llama 4,大模型這幾年到底「胖」了多少?從百億級密集參數到稀疏MoE架構,從閉源霸權到開源反擊,Meta、OpenAI、Mistral、DeepSeek……群雄割據,誰能稱王?
從傳統稠密架構到如今流行的稀疏專家模型(MoE),語言大模型發展突飛猛進:
最初參數量只有百億級別,而現在即便僅激活的參數,也已達數百億!
從百億到萬億,參數膨脹的背后,是AI界對Scaling Law的「信仰」。
自2019年GPT-2發布以來,大語言模型(LLM)在參數規模、訓練數據量和模型架構上不斷實現飛躍。
大模型到底有多大?從2019年到現在,大模型到底經歷了什么樣的「體重暴漲」?
Github網友rain-1手動總結了基礎模型趨勢,「不含任何AI生成成分」。他還表示:
近年來,語言模型波瀾壯闊,宏大深遠。
所記述的不過是其中一個微小片段,如同管中窺豹,可見一斑。
本文旨在客觀呈現大語言模型的規模信息。不涉及泄露信息或坊間傳聞,僅聚焦基礎模型(即原始文本續寫引擎,而非ChatBot)。
AI模型參數量呈指數級增長
大模型來時路之GPT系列
OpenAI走向「CloseAI」
主要分為2大階段:早期密集模型和中期轉型與保密期。
早期密集模型(2019-2020):
GPT-2家族:參數從137M到1.61B,訓練數據約10B tokens。
GPT-3(175B):首個真正意義上的「大模型」。
中期轉型與保密期(2022-2023):
GPT-3.5和GPT-4:未公布參數或數據規模,信息高度保密。
具體而言,GPT-2(2019年)參數規模:
GPT-2-small:1.37億參數
GPT-2-medium:3.8億參數
GPT-2-large:8.12億參數
GPT-2-xl:16.1億參數
訓練數據基于未公開的WebText數據集,約40GB互聯網文本,估計約100億token。
2020年,OpenAI發布GPT-3,代號davinci/davinci-002,參數規模為1750億(175.0B)。
鏈接:https://www.lesswrong.com/posts/3duR8CrvcHywrnhLo/how-does-gpt-3-spend-its-175b-parameters
訓練數據約4000億token,來源包括CommonCrawl、WebText2、Books1、Books2和Wikipedia。
具體數據來源信息,參考下列論文。
論文鏈接:https://arxiv.org/abs/2005.14165
GPT-3訓練耗時數月,動用了數萬塊A100GPU的數據中心算力。
2022-2023年,GPT-3.5&GPT-4官方未公開架構細節、訓練數據規模等信息。
之后。OpenAI一度成為高度保密的「黑箱」。而開源模型,特別是LLaMA家族「水漲船高」:
從7B到65B,其中65B使用1.4T tokens訓練;
LLaMA 3.1達到405B參數、3.67T tokens數據,是開源領域的一個轉折點。
大模型來時路之Llama系列
Llama初代版本規模7B、13B、33B、65B參數。
訓練數據方面,官方確認采用了Books3數據集。65B版本預訓練使用了1.4萬億(1.4T)token的數據集。
2024年,Meta開源Llama-3.1 405B,參數規模高達4050億,采用密集Transformer架構(即推理時所有參數均參與計算)。
訓練數據方面,Meta未詳細披露數據源,僅模糊表述為「來自多種知識來源的混合數據」,共消耗了約3.67萬億token:
初始預訓練:2.87萬億token
長上下文訓練:8000億token
退火訓練(Annealing):4000萬token
論文鏈接:https://arxiv.org/abs/2407.21783
他們還有項關鍵發現:
實驗表明,在核心基準測試中,對小規模高質量代碼和數學數據進行退火訓練(Annealing),可顯著提升預訓練模型的表現。
但網友本人對當前流行的「Benchmax退火預訓練」趨勢表示遺憾——
它使得基礎語言模型逐漸偏離了「初心」——純粹的文本續寫引擎定位。
這種優化本該屬于后訓練階段(即讓模型扮演「AI聊天助手」角色的過程),但企業顯然更看重benchmark分數的短期提升。
2025,Meta推出Llama-4系列,其中2萬億參數巨獸「Behemoth」,或永不面世。
Llama4系列中的旗艦大模型Behemoth,是參數總量達2萬億的稀疏專家模型(MoE),架構為A288B 16E——即具備2880億激活參數、共計16個專家模塊,但尚未公開發布
Llama4的Maverick和Scout模型都是從這款大模型中蒸餾而來。然而,圍繞這些輕量版本,卻爆發了一場丑聞——
Meta(原facebook)被曝在lmarena基準測試平臺上「作弊」:
此舉被外界視為學術不端,嚴重打擊了外界對Llama團隊的信任。此后,,至今不明這款2T模型是否還有問世的可能。
至于已經發布的Llama4小模型,盡管打著「繼承大模型精華」的旗號,但目前普遍評價是:智能水平較低,難堪大用。
大模型荒原時代
曾經,AI界一度陷入「大模型荒原」——其他模型無法與GPT-3匹敵。
大家只能反復微調LLaMA等小模型,試圖追趕GPT-3留下的龐大身影。
但這種「用AI訓練AI」的做法,也讓模型性能陷入惡性循環。
Llama 405B模型的發布堪稱轉折點。在此之前,Mistral發布了2款混合專家模型:
2023年12月,推出Mixtral 8x7B(混合專家模型)。
2024年4月,升級發布Mixtral-8x22B(總參數量141B,實際激活參數39B的稀疏混合專家模型)。
Mixtral-8x22B盡管不是GPT-3那樣的密集模型,但總參數量級已與GPT-3(175B)相當。
混合專家MoE架構的革命性在于,它讓普通研究者也能訓練和使用超大規模的模型——不再需要動用成千上萬張GPU組成的計算集群。
2023末,稀疏MoE架構的興起:Deepseek V3等接踵而來。
在參數總量遠超GPT-3的同時,MoE模型激活參數維持在幾十B級別,從而降低推理成本。
這些LLM支持多語言、多模態,并采用更大上下文窗口(32K~256K tokens)。有的新模型還采用「退火」式后訓練,提升特定基準測試上的表現。
MoE熱潮來襲
群雄并起,誰主沉浮?
2024年圣誕節次日,DeepSeek發布了震撼之作——V3 Base。官網如此描述:
V3新特性
6710億MoE參數
370億激活參數
基于14.8萬億高質量token訓練
這不僅實現了模型規模的巨大飛躍,衍生的R1推理模型更讓業界驚艷——
R1可能是首個真正達到GPT-4水平,而且可自由下載使用的模型。
稀疏的不是能力,是讓計算更精準地對焦。
此次突破掀起了MoE大模型的訓練熱潮,尤其在中國市場。值得注意的是,這些新模型普遍具備多模態、多語言能力,訓練數據維度大幅拓展。
代表性模型巡禮:
1.Databricks DBRX(2024年3月)
架構:1320億總參/360億激活/12萬億token訓練
創新點:采用16選4的細粒度專家系統(相較Mixtral-8x7B的8選2架構更精細)
2.Minimax-Text-01(2025年1月)
架構:4560億總參/459億激活
特色:創新性融合注意力機制與MoE架構
質量控制:采用前代60億參數MoE模型進行數據標注
3.Dots.llm1(2025年6月)
亮點:128選6超細粒度專家系統+2個常駐專家
成就:不使用合成數據即達到Qwen2.5-72B水平
技術:引入QK-Norm注意力層優化
4.混元(2025年6月)
突破:20萬億token訓練/256K上下文窗口
架構:8專家動態激活+1個常駐共享專家
5.文心4.5(2025年6月)
規模:4240億總參/470億激活
特點:多模態基座模型
訓練:基于「數萬億」token(具體數據未披露)
尾聲
未來在哪里?
在很長一段時間內,市面上幾乎沒有與GPT-3規模相同的LLM可供使用。
由于缺乏可下載的同等級模型,人們很難復現GPT-3的性能。
而且坦率地說,人們當時并沒有真正意識到:要想要達到GPT-3的表現,模型的規模必須接近1750億參數。
當時能拿來用的,最多也只是LLaMA系列中參數不超過700億的模型,大家也只能靠這些湊合著用。
而目前,網友rain所知的最新、最大的可用稠密基礎模型有4050億參數。在預訓練中,它使用了更近時段的數據(包括人們討論大語言模型、分享模型對話記錄的內容),而且模型本身也經過「退火」(annealing)處理。
因此相比以往那些基礎模型,它更像已經初步具備助手特性的系統。
最近一批稀疏專家模型(MoE)也有類似的問題,并且這些模型在訓練數據中還融入了一些中文文化元素。
要怎么公平地比較稀疏模型(MoE)和致密模型,目前還沒有明確標準。
也許大語言模型的一些高級能力,只有在模型足夠深、結構足夠密集時才會顯現出來。而現有的自動評測指標,可能并不能很好地捕捉這些能力。所以現在很多人索性一頭扎進了MoE模型的研發中。
一些新模型也在嘗試采用新的網絡架構(比如RWKV、byte-latent、bitnet)或者使用合成數據生成的新方法。
不過,要打造一個優秀的文本生成引擎,目前還不清楚這些新技術到底有多大幫助。
網友rain說得直接:文本生成引擎才是一切的基礎。
沒有優秀的文本續寫能力,后續的微調、角色扮演都只是空中樓閣。
在「助手化」狂潮之外,也許是時候重新思考——
我們真的理解基礎模型的本質了嗎?
參考資料:
https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.