大數據文摘編譯
從最早的GPT-2模型算起,短短六年間,模型參數數量從1億級飆升到數百億、數千億,甚至躍升至“萬億級”大關。
2019年,OpenAI發(fā)布GPT-2系列模型,參數分別為1.37億、3.8億、8.12億和16.1億,訓練數據大約為100億個token。這一系列模型奠定了大語言模型的技術基礎。
2020年,GPT-3橫空出世,以1750億參數刷新業(yè)界認知。其訓練數據多達4000億個token,數據源包括CommonCrawl、WebText2、Books和Wikipedia等。GPT-3的誕生標志著AI模型進入“超大規(guī)模”階段,也成為后續(xù)技術發(fā)展的參照系。
此后幾年,GPT-3.5和GPT-4接連問世,盡管官方未公布架構細節(jié),但它們顯然進一步擴大了參數規(guī)模和數據體量,推動了AI能力的飛躍。
Meta在2023年也參與了這場競賽,發(fā)布了LLaMA模型。LLaMA-65B使用了1.4萬億個token進行訓練,其中包括被爭議的Books3數據集。此舉在法律和倫理層面引發(fā)廣泛關注,也間接推動了對訓練數據合法性的立法討論。
到了2024年,Meta推出了Llama-3.1模型,參數規(guī)模達4050億,是當時最大的可下載密集模型。其訓練token數量高達3.67萬億,涵蓋初始訓練、長上下文訓練和“退火”階段。
所謂“退火”,指的是模型在少量高質量代碼和數學數據上進行二次訓練,用以提升在特定基準測試中的表現。這一做法引發(fā)了爭議,因為它偏離了模型作為“文本續(xù)寫引擎”的初衷,更像是將預訓練階段“助教化”。
2025年,Llama-4家族出現了一款參數規(guī)模達2萬億的模型,這是目前已知最大的模型,采用了混合專家(MoE)架構:16個專家模塊中每次激活2880億參數。然而,由于Meta在基準測試平臺lmarena上“調包”行為曝光,引發(fā)學術丑聞,團隊信任度暴跌,這款模型最終未能正式發(fā)布。
在密集模型發(fā)展暫緩的同時,MoE架構悄然登上主舞臺。
MoE(Mixture-of-Experts)架構允許模型通過選擇性激活部分參數,在保證推理效率的同時,提升總體規(guī)模。2023年底,Mistral公司發(fā)布Mixtral 8x7B模型,首次將MoE概念引入開源社區(qū)。
2024年4月,Mixtral-8x22B問世,擁有1410億總參數,每次僅激活390億參數。MoE架構的優(yōu)勢使得普通開發(fā)者也能運行超大模型,極大推動了開源生態(tài)的發(fā)展。
同年12月,DeepSeek發(fā)布V3 Base模型,參數高達6710億,每次推理啟用370億,訓練數據更是達到驚人的14.8萬億token。這一模型一經發(fā)布,其推理能力逼近GPT-4,被認為是首個真正可媲美GPT-4的開源模型。
更令人震驚的是,這款模型的發(fā)布居然一度導致英偉達(NVDA)股價短暫下跌,資本市場顯然已意識到其潛在沖擊。
DeepSeek之后,一批大型MoE模型接連問世,特別是在中國。
2024年3月,Databricks發(fā)布DBRX模型,總參數1320億,激活參數360億,采用16個專家中選4的精細MoE策略。其性能在多項基準測試上得分高于Mixtral 8x7B和Grok-1。
2025年1月,MiniMax發(fā)布4560億參數模型MiniMax-Text-01,激活參數為459億,并使用前代模型進行獎勵標注,體現出對訓練流程的持續(xù)優(yōu)化。
2025年6月,三家公司——小紅書、騰訊、百度——分別發(fā)布了Dots、混元、ERNIE系列模型,構成最新一波“國產大模型潮”。
Dots模型總參數1430億,激活參數140億,訓練數據為11.2萬億token,采用“精細MoE+共享專家”架構,推理效果已可對標Qwen2.5-72B。
騰訊的混元模型擁有800億總參數,激活130億,支持長達25.6萬token的上下文處理,訓練數據高達20萬億token。它采用了GQA(Grouped Query Attention)機制,并在MoE中引入了始終活躍的“共享專家”。
而最近,百度ERNIE 4.5模型則達到了4240億總參數,激活470億,并進入了多模態(tài)階段,支持圖文輸入。盡管訓練token總量未公開,但據稱達到“萬億級”。
這些開源MoE模型的相繼發(fā)布,徹底改變了模型可得性的格局。從幾年前的“幾乎沒有公開可用的GPT-3級模型”,到如今多個超400B參數的模型可以自由下載,產業(yè)門檻被迅速拉低。
曾經開發(fā)者不得不拿70B的LLaMA模型“湊合”,通過GPT-3生成的數據進行微調。但這種“AI訓練AI”的循環(huán),常常導致模型退化,形成“生成病變”。
405B密集模型的發(fā)布,是一次技術斷裂點。而隨后的MoE潮流,則徹底改變了格局。
值得注意的是,MoE模型雖然擁有超大參數量,但每次推理僅使用一小部分參數,其“密度”遠不及密集模型。這引發(fā)了關于“深度是否決定智能”的討論。
一些研究者認為,只有具備足夠密度的神經網絡,才能孕育出真正意義上的推理能力。但目前的自動化基準測試無法捕捉這種“結構智能”,因而廠商更傾向于堆疊參數、刷分取勝。
與此同時,新的架構和訓練策略也在不斷嘗試。
RWKV、Byte-latent、BitNet等新型結構正悄然出現,一些團隊甚至開始用合成數據替代真實文本,以規(guī)避版權問題。
然而這些手段的效果仍存疑。真正決定AI能力的,可能仍是最原始的“文本續(xù)寫能力”——這也是所有語言模型的本質所在。
via https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e
作者長期關注 AI 產業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.