99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI圈水太深:OpenAI保密、Meta作弊!國產MoE卻異軍突起

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】從GPT-2到Llama 4,大模型這幾年到底「胖」了多少?從百億級密集參數到稀疏MoE架構,從閉源霸權到開源反擊,Meta、OpenAI、Mistral、DeepSeek……群雄割據,誰能稱王?

從傳統稠密架構到如今流行的稀疏專家模型(MoE),語言大模型發展突飛猛進:

最初參數量只有百億級別,而現在即便僅激活的參數,也已達數百億!

從百億到萬億,參數膨脹的背后,是AI界對Scaling Law的「信仰」。


自2019年GPT-2發布以來,大語言模型(LLM)在參數規模、訓練數據量和模型架構上不斷實現飛躍。

大模型到底有多大?從2019年到現在,大模型到底經歷了什么樣的「體重暴漲」?

Github網友rain-1手動總結了基礎模型趨勢,「不含任何AI生成成分」。他還表示:

近年來,語言模型波瀾壯闊,宏大深遠。

所記述的不過是其中一個微小片段,如同管中窺豹,可見一斑。


本文旨在客觀呈現大語言模型的規模信息。不涉及泄露信息或坊間傳聞,僅聚焦基礎模型(即原始文本續寫引擎,而非ChatBot)。


AI模型參數量呈指數級增長

大模型來時路之GPT系列

OpenAI走向「CloseAI」

主要分為2大階段:早期密集模型和中期轉型與保密期。

早期密集模型(2019-2020):

GPT-2家族:參數從137M到1.61B,訓練數據約10B tokens。

GPT-3(175B):首個真正意義上的「大模型」。

中期轉型與保密期(2022-2023):

GPT-3.5和GPT-4:未公布參數或數據規模,信息高度保密。

具體而言,GPT-2(2019年)參數規模:

GPT-2-small:1.37億參數

GPT-2-medium:3.8億參數

GPT-2-large:8.12億參數

GPT-2-xl:16.1億參數

訓練數據基于未公開的WebText數據集,約40GB互聯網文本,估計約100億token。

2020年,OpenAI發布GPT-3,代號davinci/davinci-002,參數規模為1750億(175.0B)。


鏈接:https://www.lesswrong.com/posts/3duR8CrvcHywrnhLo/how-does-gpt-3-spend-its-175b-parameters

訓練數據約4000億token,來源包括CommonCrawl、WebText2、Books1、Books2和Wikipedia。

具體數據來源信息,參考下列論文。


論文鏈接:https://arxiv.org/abs/2005.14165

GPT-3訓練耗時數月,動用了數萬塊A100GPU的數據中心算力。

2022-2023年,GPT-3.5&GPT-4官方未公開架構細節、訓練數據規模等信息。

之后。OpenAI一度成為高度保密的「黑箱」。而開源模型,特別是LLaMA家族「水漲船高」:

從7B到65B,其中65B使用1.4T tokens訓練;

LLaMA 3.1達到405B參數、3.67T tokens數據,是開源領域的一個轉折點。

大模型來時路之Llama系列

Llama初代版本規模7B、13B、33B、65B參數。

訓練數據方面,官方確認采用了Books3數據集。65B版本預訓練使用了1.4萬億(1.4T)token的數據集。


2024年,Meta開源Llama-3.1 405B,參數規模高達4050億,采用密集Transformer架構(即推理時所有參數均參與計算)。

訓練數據方面,Meta未詳細披露數據源,僅模糊表述為「來自多種知識來源的混合數據」,共消耗了3.67萬億token

初始預訓練:2.87萬億token

長上下文訓練:8000億token

退火訓練(Annealing):4000萬token


論文鏈接:https://arxiv.org/abs/2407.21783

他們還有項關鍵發現:

實驗表明,在核心基準測試中,對小規模高質量代碼和數學數據進行退火訓練(Annealing),可顯著提升預訓練模型的表現。

但網友本人對當前流行的「Benchmax退火預訓練」趨勢表示遺憾——

它使得基礎語言模型逐漸偏離了「初心」——純粹的文本續寫引擎定位。

這種優化本該屬于后訓練階段(即讓模型扮演「AI聊天助手」角色的過程),但企業顯然更看重benchmark分數的短期提升。

2025,Meta推出Llama-4系列,其中2萬億參數巨獸「Behemoth」,或永不面世。


Llama4系列中的旗艦大模型Behemoth,是參數總量達2萬億的稀疏專家模型(MoE),架構為A288B 16E——即具備2880億激活參數、共計16個專家模塊,但尚未公開發布

Llama4的Maverick和Scout模型都是從這款大模型中蒸餾而來。然而,圍繞這些輕量版本,卻爆發了一場丑聞——

Meta(原facebook)被曝在lmarena基準測試平臺上「作弊」


此舉被外界視為學術不端,嚴重打擊了外界對Llama團隊的信任。此后,,至今不明這款2T模型是否還有問世的可能。

至于已經發布的Llama4小模型,盡管打著「繼承大模型精華」的旗號,但目前普遍評價是:智能水平較低,難堪大用。

大模型荒原時代

曾經,AI界一度陷入「大模型荒原」——其他模型無法與GPT-3匹敵。

大家只能反復微調LLaMA等小模型,試圖追趕GPT-3留下的龐大身影。

但這種「用AI訓練AI」的做法,也讓模型性能陷入惡性循環。

Llama 405B模型的發布堪稱轉折點。在此之前,Mistral發布了2款混合專家模型:

2023年12月,推出Mixtral 8x7B(混合專家模型)。

2024年4月,升級發布Mixtral-8x22B(總參數量141B,實際激活參數39B的稀疏混合專家模型)。

Mixtral-8x22B盡管不是GPT-3那樣的密集模型,但總參數量級已與GPT-3(175B)相當。


混合專家MoE架構的革命性在于,它讓普通研究者也能訓練和使用超大規模的模型——不再需要動用成千上萬張GPU組成的計算集群。

2023末,稀疏MoE架構的興起:Deepseek V3等接踵而來。

在參數總量遠超GPT-3的同時,MoE模型激活參數維持在幾十B級別,從而降低推理成本。

這些LLM支持多語言、多模態,并采用更大上下文窗口(32K~256K tokens)。有的新模型還采用「退火」式后訓練,提升特定基準測試上的表現。

MoE熱潮來襲

群雄并起,誰主沉浮?

2024年圣誕節次日,DeepSeek發布了震撼之作——V3 Base。官網如此描述:

V3新特性

6710億MoE參數

370億激活參數

基于14.8萬億高質量token訓練


這不僅實現了模型規模的巨大飛躍,衍生的R1推理模型更讓業界驚艷——

R1可能是首個真正達到GPT-4水平,而且可自由下載使用的模型。

稀疏的不是能力,是讓計算更精準地對焦。

此次突破掀起了MoE大模型的訓練熱潮,尤其在中國市場。值得注意的是,這些新模型普遍具備多模態、多語言能力,訓練數據維度大幅拓展。

代表性模型巡禮

1.Databricks DBRX(2024年3月)

  • 架構:1320億總參/360億激活/12萬億token訓練

  • 創新點:采用16選4的細粒度專家系統(相較Mixtral-8x7B的8選2架構更精細)


2.Minimax-Text-01(2025年1月)

  • 架構:4560億總參/459億激活

  • 特色:創新性融合注意力機制與MoE架構

  • 質量控制:采用前代60億參數MoE模型進行數據標注

3.Dots.llm1(2025年6月)

  • 亮點:128選6超細粒度專家系統+2個常駐專家

  • 成就:不使用合成數據即達到Qwen2.5-72B水平

  • 技術:引入QK-Norm注意力層優化

4.混元(2025年6月)

  • 突破:20萬億token訓練/256K上下文窗口

  • 架構:8專家動態激活+1個常駐共享專家

5.文心4.5(2025年6月)

  • 規模:4240億總參/470億激活

  • 特點:多模態基座模型

  • 訓練:基于「數萬億」token(具體數據未披露)


尾聲

未來在哪里?

在很長一段時間內,市面上幾乎沒有與GPT-3規模相同的LLM可供使用。

由于缺乏可下載的同等級模型,人們很難復現GPT-3的性能。

而且坦率地說,人們當時并沒有真正意識到:要想要達到GPT-3的表現,模型的規模必須接近1750億參數。

當時能拿來用的,最多也只是LLaMA系列中參數不超過700億的模型,大家也只能靠這些湊合著用。

而目前,網友rain所知的最新、最大的可用稠密基礎模型有4050億參數。在預訓練中,它使用了更近時段的數據(包括人們討論大語言模型、分享模型對話記錄的內容),而且模型本身也經過「退火」(annealing)處理。

因此相比以往那些基礎模型,它更像已經初步具備助手特性的系統。

最近一批稀疏專家模型(MoE)也有類似的問題,并且這些模型在訓練數據中還融入了一些中文文化元素。

要怎么公平地比較稀疏模型(MoE)和致密模型,目前還沒有明確標準。


也許大語言模型的一些高級能力,只有在模型足夠深、結構足夠密集時才會顯現出來。而現有的自動評測指標,可能并不能很好地捕捉這些能力。所以現在很多人索性一頭扎進了MoE模型的研發中。

一些新模型也在嘗試采用新的網絡架構(比如RWKV、byte-latent、bitnet)或者使用合成數據生成的新方法。

不過,要打造一個優秀的文本生成引擎,目前還不清楚這些新技術到底有多大幫助。

網友rain說得直接:文本生成引擎才是一切的基礎。

沒有優秀的文本續寫能力,后續的微調、角色扮演都只是空中樓閣。

在「助手化」狂潮之外,也許是時候重新思考——

我們真的理解基礎模型的本質了嗎?

參考資料:

https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
票房會破12億!看完大鵬《長安的荔枝》,我敢說:內娛票房變天了

票房會破12億!看完大鵬《長安的荔枝》,我敢說:內娛票房變天了

小吖娛樂圈
2025-07-16 09:23:14
美國電臺主持人確認:楊瀚森原本會在首輪17順位被選中!

美國電臺主持人確認:楊瀚森原本會在首輪17順位被選中!

愛體育
2025-07-15 23:30:18
熱死的人越來越多?醫生勸告:天熱寧可看電視,也別做這5件事

熱死的人越來越多?醫生勸告:天熱寧可看電視,也別做這5件事

今日養生之道
2025-07-14 13:27:46
老家拆遷890萬都給哥哥,父親70大壽六姐妹都沒回,5個月后哥哥哭了

老家拆遷890萬都給哥哥,父親70大壽六姐妹都沒回,5個月后哥哥哭了

紅豆講堂
2025-07-14 14:46:57
海口美蘭機場一航班起飛前,16歲獨行女孩產下嬰兒,機場:情況屬實;醫院:產婦帶孩子已出院

海口美蘭機場一航班起飛前,16歲獨行女孩產下嬰兒,機場:情況屬實;醫院:產婦帶孩子已出院

三湘都市報
2025-07-16 13:28:57
李莉同志簡歷,因多次預判到美軍動作,被美國列入制裁黑名單

李莉同志簡歷,因多次預判到美軍動作,被美國列入制裁黑名單

東吳小喬Q
2025-07-15 15:55:01
河南通報:熊開程被查

河南通報:熊開程被查

新京報政事兒
2025-07-16 10:26:53
王思聰砸2億未追到的女人近照曝光,網友直呼:真人間清醒!

王思聰砸2億未追到的女人近照曝光,網友直呼:真人間清醒!

策略剖析
2025-07-14 16:24:09
30國將派兵基輔,局勢變成3對30,普京終于想通了,派人來京交底

30國將派兵基輔,局勢變成3對30,普京終于想通了,派人來京交底

Ck的蜜糖
2025-07-15 14:29:29
時隔兩年還想復出!當年拒絕4年8000萬,如今只求上場

時隔兩年還想復出!當年拒絕4年8000萬,如今只求上場

德譯洋洋
2025-07-16 15:19:42
女籃亞洲杯小組賽收官戰!中國女籃能否沖擊三連勝直通半決賽?

女籃亞洲杯小組賽收官戰!中國女籃能否沖擊三連勝直通半決賽?

雷速體育
2025-07-16 17:45:16
約70%區域未放票網傳蘇超南通賣票綁定旅游套餐,球迷難搶票

約70%區域未放票網傳蘇超南通賣票綁定旅游套餐,球迷難搶票

直播吧
2025-07-16 09:31:05
2025年養老金調整2%!山東省調整方案預測:定額降低、掛鉤下降

2025年養老金調整2%!山東省調整方案預測:定額降低、掛鉤下降

興史興談
2025-07-16 08:52:41
楊瀚森:三分慶祝動作是賽前與隊友一起約定,我做了他要請我吃飯

楊瀚森:三分慶祝動作是賽前與隊友一起約定,我做了他要請我吃飯

雷速體育
2025-07-16 13:44:13
每體:若巴薩未能簽下左邊鋒,一線隊&青年隊中有10人可客串

每體:若巴薩未能簽下左邊鋒,一線隊&青年隊中有10人可客串

懂球帝
2025-07-16 18:45:23
宗馥莉叔叔評價她:從小自私,六親不認!應了《知否》里的一句話

宗馥莉叔叔評價她:從小自私,六親不認!應了《知否》里的一句話

老吳教育課堂
2025-07-16 15:12:58
彭總視察哈軍工,晚飯看到一學員,質問陳賡:他有什么資格坐這

彭總視察哈軍工,晚飯看到一學員,質問陳賡:他有什么資格坐這

老謝談史
2025-07-03 18:03:20
江蘇省錄取分最高的20所大學:南航第3,蘇大僅居第10位?

江蘇省錄取分最高的20所大學:南航第3,蘇大僅居第10位?

戶外阿毽
2025-07-16 07:12:53
頂級陽謀!宗慶后在宗馥莉給他打造的人設中,愣是不敢爆料私生子

頂級陽謀!宗慶后在宗馥莉給他打造的人設中,愣是不敢爆料私生子

聯友說娛
2025-07-15 18:02:43
陜西一女子選擇安樂死,自己喝下藥,從清醒到離開僅90秒

陜西一女子選擇安樂死,自己喝下藥,從清醒到離開僅90秒

星宇共鳴
2025-07-16 16:45:51
2025-07-16 19:23:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13075文章數 66094關注度
往期回顧 全部

科技要聞

黃仁勛:輕視華為和中國制造的人非常天真

頭條要聞

老人名下有房卻租房20年:小兒子剛搬走大兒子就住進去

頭條要聞

老人名下有房卻租房20年:小兒子剛搬走大兒子就住進去

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

時尚
本地
房產
健康
數碼

小黑裙,讓人從夏美到秋!

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

呼吸科專家破解呼吸道九大謠言!

數碼要聞

迎接PCIe 6.0!慧榮科技:SSD主控日益復雜 我自有妙招應對

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大渡口区| 凉山| 广河县| 玉屏| 铜梁县| 崇阳县| 吴江市| 上饶县| 定兴县| 白水县| 南丹县| 隆林| 福建省| 牙克石市| 武宁县| 拉萨市| 凌源市| 山东| 辽宁省| 兰考县| 江达县| 神农架林区| 东宁县| 依兰县| 富民县| 德令哈市| 唐海县| 兰坪| 甘孜县| 南平市| 枣强县| 密云县| 塔河县| 涡阳县| 蒲城县| 安庆市| 富平县| 湖州市| 武威市| 太仓市| 新和县|