99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型參數簡史

0
分享至


來源:大數據文摘編譯

從最早的GPT-2模型算起,短短六年間,模型參數數量從1億級飆升到數百億、數千億,甚至躍升至“萬億級”大關。

2019年,OpenAI發布GPT-2系列模型,參數分別為1.37億、3.8億、8.12億和16.1億,訓練數據大約為100億個token。這一系列模型奠定了大語言模型的技術基礎。

2020年,GPT-3橫空出世,以1750億參數刷新業界認知。其訓練數據多達4000億個token,數據源包括CommonCrawl、WebText2、Books和Wikipedia等。GPT-3的誕生標志著AI模型進入“超大規模”階段,也成為后續技術發展的參照系。

此后幾年,GPT-3.5和GPT-4接連問世,盡管官方未公布架構細節,但它們顯然進一步擴大了參數規模和數據體量,推動了AI能力的飛躍。

Meta在2023年也參與了這場競賽,發布了LLaMA模型。LLaMA-65B使用了1.4萬億個token進行訓練,其中包括被爭議的Books3數據集。此舉在法律和倫理層面引發廣泛關注,也間接推動了對訓練數據合法性的立法討論。

到了2024年,Meta推出了Llama-3.1模型,參數規模達4050億,是當時最大的可下載密集模型。其訓練token數量高達3.67萬億,涵蓋初始訓練、長上下文訓練和“退火”階段。

所謂“退火”,指的是模型在少量高質量代碼和數學數據上進行二次訓練,用以提升在特定基準測試中的表現。這一做法引發了爭議,因為它偏離了模型作為“文本續寫引擎”的初衷,更像是將預訓練階段“助教化”。

2025年,Llama-4家族出現了一款參數規模達2萬億的模型,這是目前已知最大的模型,采用了混合專家(MoE)架構:16個專家模塊中每次激活2880億參數。然而,由于Meta在基準測試平臺lmarena上“調包”行為曝光,引發學術丑聞,團隊信任度暴跌,這款模型最終未能正式發布。

在密集模型發展暫緩的同時,MoE架構悄然登上主舞臺。

MoE(Mixture-of-Experts)架構允許模型通過選擇性激活部分參數,在保證推理效率的同時,提升總體規模。2023年底,Mistral公司發布Mixtral 8x7B模型,首次將MoE概念引入開源社區。

2024年4月,Mixtral-8x22B問世,擁有1410億總參數,每次僅激活390億參數。MoE架構的優勢使得普通開發者也能運行超大模型,極大推動了開源生態的發展。

同年12月,DeepSeek發布V3 Base模型,參數高達6710億,每次推理啟用370億,訓練數據更是達到驚人的14.8萬億token。這一模型一經發布,其推理能力逼近GPT-4,被認為是首個真正可媲美GPT-4的開源模型。

更令人震驚的是,這款模型的發布居然一度導致英偉達(NVDA)股價短暫下跌,資本市場顯然已意識到其潛在沖擊。

DeepSeek之后,一批大型MoE模型接連問世,特別是在中國。

2024年3月,Databricks發布DBRX模型,總參數1320億,激活參數360億,采用16個專家中選4的精細MoE策略。其性能在多項基準測試上得分高于Mixtral 8x7B和Grok-1。

2025年1月,MiniMax發布4560億參數模型MiniMax-Text-01,激活參數為459億,并使用前代模型進行獎勵標注,體現出對訓練流程的持續優化。

2025年6月,三家公司——小紅書、騰訊、百度——分別發布了Dots、混元、ERNIE系列模型,構成最新一波“國產大模型潮”。

Dots模型總參數1430億,激活參數140億,訓練數據為11.2萬億token,采用“精細MoE+共享專家”架構,推理效果已可對標Qwen2.5-72B。

騰訊的混元模型擁有800億總參數,激活130億,支持長達25.6萬token的上下文處理,訓練數據高達20萬億token。它采用了GQA(Grouped Query Attention)機制,并在MoE中引入了始終活躍的“共享專家”。

而最近,百度ERNIE 4.5模型則達到了4240億總參數,激活470億,并進入了多模態階段,支持圖文輸入。盡管訓練token總量未公開,但據稱達到“萬億級”。

這些開源MoE模型的相繼發布,徹底改變了模型可得性的格局。從幾年前的“幾乎沒有公開可用的GPT-3級模型”,到如今多個超400B參數的模型可以自由下載,產業門檻被迅速拉低。

曾經開發者不得不拿70B的LLaMA模型“湊合”,通過GPT-3生成的數據進行微調。但這種“AI訓練AI”的循環,常常導致模型退化,形成“生成病變”。

405B密集模型的發布,是一次技術斷裂點。而隨后的MoE潮流,則徹底改變了格局。

值得注意的是,MoE模型雖然擁有超大參數量,但每次推理僅使用一小部分參數,其“密度”遠不及密集模型。這引發了關于“深度是否決定智能”的討論。

一些研究者認為,只有具備足夠密度的神經網絡,才能孕育出真正意義上的推理能力。但目前的自動化基準測試無法捕捉這種“結構智能”,因而廠商更傾向于堆疊參數、刷分取勝。

與此同時,新的架構和訓練策略也在不斷嘗試。

RWKV、Byte-latent、BitNet等新型結構正悄然出現,一些團隊甚至開始用合成數據替代真實文本,以規避版權問題。

然而這些手段的效果仍存疑。真正決定AI能力的,可能仍是最原始的“文本續寫能力”——這也是所有語言模型的本質所在。

via https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

林子說事
2025-07-25 19:26:25
原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

侃球熊弟
2025-07-25 23:44:26
知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

藍鯨新聞
2025-07-25 16:03:22
36款熱門車高危智駕場景測試,“團滅”!

36款熱門車高危智駕場景測試,“團滅”!

第一財經資訊
2025-07-25 13:35:25
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

普覽
2025-07-17 19:04:48
考生稱被“廈大馬來分校”誤錄取,考609分最后選擇復讀

考生稱被“廈大馬來分校”誤錄取,考609分最后選擇復讀

大象新聞
2025-07-24 20:01:22
涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

南方都市報
2025-07-25 14:44:29
微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

農村情感故事
2025-07-16 13:33:48
克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

趣文說娛
2025-07-24 17:22:53
布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

懂球帝
2025-07-26 00:55:07
馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

雪靈谷
2025-07-24 10:58:07
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

駕仕派
2025-07-23 13:35:15
火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

埃文凱爾
2025-07-26 00:34:47
陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

狼叔評論
2025-07-26 00:13:10
開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

80后體育大蜀黍
2025-07-25 23:55:26
丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

南海浪花
2025-07-25 08:29:37
大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

奧字侃娛
2025-07-24 15:30:13
2025-07-26 01:51:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

旅游
數碼
手機
藝術
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 凤山县| 虹口区| 镇江市| 汉寿县| 巧家县| 鹿泉市| 南城县| 衡山县| 砚山县| 将乐县| 海阳市| 弥渡县| 道孚县| 衡山县| 霍林郭勒市| 灵寿县| 荔波县| 垣曲县| 太仆寺旗| 武隆县| 泰和县| 晋江市| 晋中市| 长阳| 城市| 独山县| 全南县| 千阳县| 梅州市| 梨树县| 彭水| 夏津县| 卓尼县| 香格里拉县| 尚义县| 西林县| 宝应县| 同德县| 天峨县| 任丘市| 河池市|