99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大,就聰明嗎?論模型的“尺寸虛胖”

0
分享至

你可能刷過(guò)這樣的新聞:

一個(gè)只有 27B Gemma-3 參數(shù)的小模型,竟和 671B 參數(shù) DeepSeek V3 不相上下。世界又要變天了

后面,可能還帶個(gè)圖,像這樣:


Gemma:我 27B

這種“技術(shù)奇跡” ,總被媒體反復(fù)包裝成“一夜變天”,但其實(shí)并不新鮮:

  • ? 大模型說(shuō):我參數(shù)更大、上限更高。

  • ? 小模型說(shuō):我表現(xiàn)差不多,推理還便宜。

  • ? 廠商都在說(shuō)自己贏了,讀者卻越來(lái)越搞不懂這到底在比什么。

細(xì)究起來(lái),這表面是在做模型對(duì)比,實(shí)則是兩種語(yǔ)言體系在雞同鴨講,而參數(shù)恰成了“最容易理解、但最容易誤導(dǎo)”的數(shù)字,如同:用人口數(shù)量,來(lái)判斷足球水平。

我想借著這個(gè)話題,來(lái)聊聊幾個(gè)核心問(wèn)題:

  • ? 為什么參數(shù)量大 ≠ 實(shí)際效果強(qiáng)?

  • ? Dense 和 MoE 到底是怎么一回事?

  • ? “看起來(lái)很大”的模型,到底動(dòng)用了多少能力?

  • ? 在大模型持續(xù)擴(kuò)張的趨勢(shì)下,小模型還有哪些“后發(fā)機(jī)制”?

大,不一定“聰明”

我們說(shuō)“參數(shù)量大 ≠ 實(shí)際效果強(qiáng)”,不是在否定參數(shù)的意義,而是在拆一個(gè)經(jīng)常被誤用的判斷標(biāo)準(zhǔn)。最常見(jiàn)的誤區(qū),就是把不同類型的模型,拉到同一個(gè)坐標(biāo)軸上用參數(shù)量做對(duì)比:而它們,本就沒(méi)有可比性。

Gemma-3 是 Dense 架構(gòu),也就是稠密模型,它的全部 27B 參數(shù)在使用中都會(huì)被激活,全部參與計(jì)算,屬于“全員出戰(zhàn)”的結(jié)構(gòu)。

DeepSeek V3 是 MoE 架構(gòu)(Mixture of Experts),也就是混合專家模型。它的總參數(shù)量高達(dá) 671B,但每次推理只會(huì)激活其中一小部分專家網(wǎng)絡(luò),實(shí)際參與計(jì)算的大約是 37B。剩下的大多數(shù)參數(shù)處于“待命狀態(tài)”。


Dense VS MoE

你看到的是 671B vs 27B,但模型實(shí)際調(diào)用的是 37B vs 27B:這看上去體量懸殊,實(shí)則差別不大。所以說(shuō),參數(shù)比較本身沒(méi)問(wèn)題,問(wèn)題在于不能混著比

當(dāng)然了,在同一架構(gòu)內(nèi)(比如 Dense 對(duì) Dense),參數(shù)依然是判斷能力上限的重要指標(biāo);但跨架構(gòu)直接對(duì)比參數(shù)數(shù)量,得出的“誰(shuí)強(qiáng)誰(shuí)弱”往往是錯(cuò)位的。

MoE 的由來(lái)

接著回來(lái)說(shuō)說(shuō)參數(shù):參數(shù)的增加能帶來(lái)“規(guī)模效應(yīng)”——也就是能力的非線性躍遷。因此,各家模型才持續(xù)堆大,從 GPT-2 到 GPT-3,再到 PaLM、Gemini、Qwen,每一代都在沖上限。

只不過(guò),Dense 架構(gòu)的增長(zhǎng)曲線實(shí)在太“正經(jīng)”了。隨著參數(shù)規(guī)模增大,算力成本也得不斷翻翻,幾乎沒(méi)有優(yōu)化空間。當(dāng)參數(shù)飆升到幾千億、上萬(wàn)億時(shí),一輪訓(xùn)練就要燒掉上千萬(wàn)美元,硬件和能源的門(mén)檻也迅速被拉高。模型越大,訓(xùn)練成本越高,硬件要求越嚴(yán),能做的人越來(lái)越少。

MoE 的到來(lái),正是為了在不炸成本的前提下,繼續(xù)擴(kuò)容。

MoE 并不是哪個(gè)廠商的獨(dú)門(mén)絕技,而是淵源已久。早在1991年, Michael I. Jordan 和 Geoffrey E. Hinton 就提出這個(gè)思想。只不過(guò)當(dāng)時(shí)受限于工程能力,難以真正落地。直到2017年,Google 的 Jeff Dean 團(tuán)隊(duì)將 MoE 應(yīng)用于 LSTM 架構(gòu),訓(xùn)練出了一個(gè) 137B 參數(shù)的模型,參數(shù)規(guī)模巨大,但計(jì)算開(kāi)銷卻沒(méi)有爆表,這一嘗試也正式為大模型擴(kuò)容打開(kāi)了新路。


Adaptive Mixtures of Local Experts

2020年,Google 推出結(jié)合 Transformer 架構(gòu)的 Switch Transformer,參數(shù)量飆升至 1.6 萬(wàn)億。這并不是為了炫數(shù)字,而是為了驗(yàn)證一個(gè)核心概念:參數(shù)可以很多,但不需要每次都全部激活。只要調(diào)度得當(dāng),就能在控制計(jì)算成本的同時(shí),獲得更高的模型容量。這也徹底改變了大模型的設(shè)計(jì)邏輯,從“每個(gè)參數(shù)都得上場(chǎng)”,變?yōu)椤白寣?duì)的專家在對(duì)的時(shí)刻出場(chǎng)”。

國(guó)內(nèi)最早大規(guī)模落地 MoE 架構(gòu)的,是“悟道”團(tuán)隊(duì)(北京智源研究院),2021年,他們訓(xùn)練了一個(gè) 1.75 萬(wàn)億參數(shù)的模型,并自研了 FastMoE 框架,重寫(xiě)了底層調(diào)度邏輯,才支撐起這種超大規(guī)模的訓(xùn)練任務(wù)。自此,MoE 架構(gòu)逐漸成為工業(yè)級(jí)大模型的主流形態(tài)之一,Google PaLM、Mistral-8x22B、阿里的 Qwen-MoE 等也陸續(xù)采用類似方案。


2021年,悟道2.0發(fā)布

DeepSeek 則做出了一些「本土創(chuàng)新」,比如引入“細(xì)粒度專家”機(jī)制,把原本的大模塊進(jìn)一步細(xì)分,提升了專家的專業(yè)性;同時(shí)設(shè)計(jì)了“共享專家”組件,用于捕捉底層通用知識(shí),減少冗余,也提升了多任務(wù)之間的表現(xiàn)一致性。這些改進(jìn)一方面減輕了算力壓力,另一方面也有效緩解了傳統(tǒng) MoE 常見(jiàn)的問(wèn)題,比如:路由不穩(wěn)定、風(fēng)格漂移、知識(shí)碎片化等。


DeepSeek MoE

但也正是 DeepSeek 的出色表現(xiàn),帶來(lái)了一些新的誤解。比如,不少人將“MoE”簡(jiǎn)單等同于“更聰明”“更先進(jìn)”,反過(guò)來(lái)認(rèn)為 Dense 模型因?yàn)轶w積小就一定弱。這其實(shí)是一個(gè)需要澄清的觀念偏差。MoE 和 Dense,本質(zhì)上只是兩種不同的資源調(diào)度策略,是否采用 MoE,并不能決定一個(gè)模型是不是“聰明”。真正決定智能水平的,仍然是模型的訓(xùn)練質(zhì)量、架構(gòu)合理性、任務(wù)適配能力。

有關(guān) MoE 的另一個(gè)誤解是“用不到的專家,不占資源”。正相反,在 MoE 架構(gòu)中,雖然每次只激活少數(shù)專家,但所有參數(shù)依然必須常駐顯存,真正部署起來(lái)的硬件負(fù)擔(dān)一點(diǎn)都不輕。因此,對(duì)于私有部署同性能模型來(lái)說(shuō),MoE 顯卡成本會(huì)高出很多。

小,也可以“聰明”

聰明,不一定靠“大”。

人可以靠后天努力提升能力,小模型也能成長(zhǎng),比如通過(guò)知識(shí)蒸餾(Knowledge Distillation):讓小模型參考大模型的答案,并模仿它處理任務(wù)的方式。它的本質(zhì)仍然是“看答案”,但不是死記答案,而是學(xué)會(huì)答題的思路和節(jié)奏


模型蒸餾

整個(gè)過(guò)程通常是這樣的:

  1. 1. 大模型先跑一輪任務(wù),生成高質(zhì)量參考輸出,比如說(shuō)「五年急轉(zhuǎn)彎,三年弱智吧」;

  2. 2. 小模型拿這些答案來(lái)學(xué)習(xí),但重點(diǎn)不在“復(fù)制結(jié)果”,而是在模仿—— 學(xué)它怎么理解問(wèn)題、怎么組織信息、怎么一步步得出結(jié)論。

需知:蒸餾并不是“把大模型壓縮成小模型”,而是把聰明的部分提煉出來(lái)、遷移過(guò)去,保留了方法論(而不是復(fù)制粘貼參數(shù))

比如 DeepSeek-R1 的蒸餾版 ——DeepSeek-R1-Distill-Qwen-32B,就是一個(gè)很典型的例子:雖然參數(shù)縮小了一個(gè)數(shù)量級(jí),但在多個(gè)任務(wù)上的表現(xiàn)依然接近,甚至在一些結(jié)構(gòu)化輸出上更穩(wěn)定。

可見(jiàn),聰明不是大模型的特權(quán),是訓(xùn)練出來(lái)的本事。

模型的對(duì)比,不是參數(shù)拉踩,不是看誰(shuí)的數(shù)字更大、名字更響。

MoE 架構(gòu)的出現(xiàn),是為了讓大模型在成本可控的前提下繼續(xù)擴(kuò)容;而知識(shí)蒸餾,則讓小模型有機(jī)會(huì)承接大模型的能力,用更輕的體積完成更多的任務(wù)。它們分別指向兩個(gè)方向,但都在回答同一個(gè)問(wèn)題:如何更高效地使用資源

所以,真正值得關(guān)注的,不是模型有多大,而是它能不能把事辦好、辦穩(wěn)、辦漂亮。

畢竟,“大”不一定代表聰明。

當(dāng)然,如果名字就叫“大聰明”,那另說(shuō)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
緊急暫停!女演員突然從高空墜落

緊急暫停!女演員突然從高空墜落

魯中晨報(bào)
2025-07-23 07:20:09
保羅將成為第七個(gè)!美媒列前六位球員第21個(gè)賽季數(shù)據(jù):老詹25+7+8

保羅將成為第七個(gè)!美媒列前六位球員第21個(gè)賽季數(shù)據(jù):老詹25+7+8

直播吧
2025-07-22 22:52:11
美國(guó)務(wù)院已確認(rèn)!2名美官員觸碰中國(guó)法律,現(xiàn)已被限制離開(kāi)中國(guó)

美國(guó)務(wù)院已確認(rèn)!2名美官員觸碰中國(guó)法律,現(xiàn)已被限制離開(kāi)中國(guó)

現(xiàn)代小青青慕慕
2025-07-23 00:02:36
河南研究生賣“軍火燒餅”走紅,1元1個(gè)專賣小學(xué)生,網(wǎng)友:膽真大

河南研究生賣“軍火燒餅”走紅,1元1個(gè)專賣小學(xué)生,網(wǎng)友:膽真大

明月聊史
2025-07-23 15:31:21
2025上半年燃油車銷量TOP20出爐:國(guó)產(chǎn)最高排第五

2025上半年燃油車銷量TOP20出爐:國(guó)產(chǎn)最高排第五

智車情報(bào)局
2025-07-23 14:18:35
船記總結(jié):保羅當(dāng)年去火箭換來(lái)的籌碼,如今變成了哈登科林斯

船記總結(jié):保羅當(dāng)年去火箭換來(lái)的籌碼,如今變成了哈登科林斯

雷速體育
2025-07-23 17:15:41
小叔在我家住了8年,如今他身居高位,母親找他幫忙,他卻拒絕了

小叔在我家住了8年,如今他身居高位,母親找他幫忙,他卻拒絕了

少女說(shuō)籃球
2025-07-23 15:58:03
東風(fēng)導(dǎo)彈泄密案:間諜郭萬(wàn)鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案:間諜郭萬(wàn)鈞一家三口,全部被處以死刑

冰點(diǎn)歷史
2025-07-15 09:33:13
俄烏戰(zhàn)爭(zhēng)打這么久俄的經(jīng)濟(jì)為何沒(méi)有崩盤(pán)你是根本不知道我接多少單

俄烏戰(zhàn)爭(zhēng)打這么久俄的經(jīng)濟(jì)為何沒(méi)有崩盤(pán)你是根本不知道我接多少單

侃神評(píng)故事
2025-07-17 20:21:26
中國(guó)需準(zhǔn)備應(yīng)對(duì)俄羅斯解體,確保700萬(wàn)土地安全

中國(guó)需準(zhǔn)備應(yīng)對(duì)俄羅斯解體,確保700萬(wàn)土地安全

阿釗是個(gè)小小評(píng)論員
2025-07-09 17:34:00
奧科吉底薪加盟!火箭拉滿鋒線和防守 14人輪換是下季最強(qiáng)戰(zhàn)隊(duì)?

奧科吉底薪加盟!火箭拉滿鋒線和防守 14人輪換是下季最強(qiáng)戰(zhàn)隊(duì)?

直播吧
2025-07-23 09:18:09
臺(tái)灣黑幫大佬陳啟禮:我寧可被共產(chǎn)黨管著,也不讓臺(tái)灣被外人拿走

臺(tái)灣黑幫大佬陳啟禮:我寧可被共產(chǎn)黨管著,也不讓臺(tái)灣被外人拿走

愛(ài)史紀(jì)
2025-07-21 16:30:26
演員劉歡:長(zhǎng)相被嫌,被朋友騙光積蓄,終于憑借《掃毒風(fēng)暴》走紅

演員劉歡:長(zhǎng)相被嫌,被朋友騙光積蓄,終于憑借《掃毒風(fēng)暴》走紅

新語(yǔ)愛(ài)八卦
2025-07-23 15:02:41
烏軍證實(shí):俄軍進(jìn)入紅軍城

烏軍證實(shí):俄軍進(jìn)入紅軍城

觀察者網(wǎng)
2025-07-23 13:04:11
你們是不是對(duì)“下一盤(pán)大棋”有什么誤會(huì)?

你們是不是對(duì)“下一盤(pán)大棋”有什么誤會(huì)?

邏輯與常識(shí)
2025-07-18 06:58:00
暴發(fā)戶舅舅93年買(mǎi)下京城5套四合院后坐牢,出獄去那一看,當(dāng)場(chǎng)跪下

暴發(fā)戶舅舅93年買(mǎi)下京城5套四合院后坐牢,出獄去那一看,當(dāng)場(chǎng)跪下

紅豆講堂
2025-07-21 16:30:58
1950年才得知妹妹尚有女兒在世,毛主席急問(wèn)毛岸英:她現(xiàn)在在哪兒

1950年才得知妹妹尚有女兒在世,毛主席急問(wèn)毛岸英:她現(xiàn)在在哪兒

小莜讀史
2025-07-22 20:29:58
陰法唐同志逝世

陰法唐同志逝世

上觀新聞
2025-07-04 12:15:02
交警提醒:無(wú)證酒駕、隔夜酒駕,全部取締!喝酒不開(kāi)車

交警提醒:無(wú)證酒駕、隔夜酒駕,全部取締!喝酒不開(kāi)車

聯(lián)友說(shuō)娛
2025-07-22 13:41:07
重慶雙胞胎兄弟分別被清華、北大錄取

重慶雙胞胎兄弟分別被清華、北大錄取

封面新聞
2025-07-23 14:55:04
2025-07-23 20:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
64文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

體育要聞

英格蘭最紅球星 也是加勒比島國(guó)驕傲

娛樂(lè)要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財(cái)經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

汽車要聞

德系大招放盡 場(chǎng)地極限測(cè)試全新奧迪A5L

態(tài)度原創(chuàng)

本地
家居
手機(jī)
公開(kāi)課
軍事航空

本地新聞

這雙丑鞋“泰”辣眼,跪求內(nèi)娛不要抄作業(yè)

家居要聞

晨曦生活 明媚而放松

手機(jī)要聞

主流安卓品牌中,誰(shuí)兼容蘋(píng)果生態(tài)最好?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)核彈頭重回英國(guó)牽動(dòng)全球神經(jīng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吉木萨尔县| 崇礼县| 清涧县| 滨州市| 阳城县| 张家川| 颍上县| 璧山县| 连山| 东阳市| 武胜县| 梁平县| 石门县| 乐山市| 竹北市| 密云县| 七台河市| 平邑县| 常山县| 阿尔山市| 乡宁县| 井陉县| 伽师县| 临潭县| 资阳市| 黄梅县| 乌拉特后旗| 乐亭县| 西平县| 准格尔旗| 石楼县| 绥宁县| 辛集市| 彝良县| 宁陵县| 顺昌县| 探索| 麻江县| 南康市| 台北县| 磐安县|