99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<xmp id="yynqz"><tfoot id="yynqz"><li id="yynqz"></li></tfoot></xmp>

<blockquote id="yynqz"><p id="yynqz"></p></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

漫畫趣解：一口氣搞懂模型蒸餾！

2025-02-13 17:42:29　來源: AI全球總部

北京舉報

0

分享至

最近，伴隨著DeepSeek的火爆，「模型蒸餾」這個專業名詞，也頻繁出現在大眾視野。

什么是模型蒸餾呢？

“模型蒸餾”就是把大模型學到的本領，用“濃縮”的方式教給小模型的過程，在保證一定精度的同時，大幅降低運算成本和硬件要求。

大模型：像一位見多識廣、知識儲備龐大的“大教授”，無所不知，但是“供養”他很貴。

不僅培養他的過程很耗時耗力（訓練成本高），請他過來講課成本也很高，要有很大一筆安家費（部署模型的硬件基礎設施，甚至數據中心），還要支付超高的課時費（推理成本高）。

小模型：相當于一枚小學生，知識面非常有限，但是勝在沒教授那么大譜，給個板凳坐著就夠了（部署成本低，推理成本低）。

小模型想要擁有跟大模型完全一樣的能力是不現實的，畢竟一分錢一分貨。

但是我們可以讓大模型教小模型一些基本的解題思路，讓學生和老師一樣思考問題。

教授會100種解題思路，挑兩三種不錯的教給小學生，讓小學生照葫蘆畫瓢。

這個解題思路轉移的過程，其實就是模型蒸餾。

以DeepSeek發布的六個蒸餾模型為例，滿血版671B參數量的DeepSeek R1就是“教授模型”。

而教授模型針對不同尺寸的學生模型進行知識蒸餾，這些學生模型包括↓

看，前幾天讓大家本地安裝的那些模型，其實就是從DeepSeek R1這個老師蒸餾得到的，每個學生都從老師身上學到了些“三腳貓”功夫。

因為學生模型的初始資質不同，所以得到的蒸餾模型能力也不同。

總之，腦容量越大（權重數/參數量），能力就越強，就越接近老師的水平。

那么，模型蒸餾具體是怎么干的呢？

簡單說，就是老師做一遍，學生跟著學。

但針對每個輸入的問題，老師不會直接給出確定答案，而是給出解題思路（俗稱軟標簽）。

比如，輸入一張貓的照片給老師模型，老師不會直接給出答案：這是貓，而是給出一組概率分布，告訴學生，這張圖可能是什么。

老師這么干，就是為了讓學生具備舉一反三、觸類旁通的能力，用概率分布來對應各種類別的相似程度。

如果只告訴學生這是貓，學生就不知道它和老虎有多少差別。通過這種有概率分布的軟標簽，學生就知道了老師是如何判斷、如何區分。

接下來，需要建立小模型的學習標準（綜合損失函數）。

老師雖然NB，但小模型在學習的時候，并不會完全照搬老師的思路。

它會結合自己原有數據集中的硬標簽（貓就是貓、狗就是狗），再參考老師的答案，最終給出自己的判斷。

所以，學生模型既要參考“教授給的學習筆記”（軟標簽），又要結合“媽媽給的判斷”（原有監督學習中的硬標簽）。

實操中，用“蒸餾損失”來衡量學生模型與教授模型輸出結果的差異。用“真實監督損失”來衡量學生模型對基本是非問題的判斷。

然后，再設定一個平衡系數（α）來調節這兩種損失，達到一個最優效果。

說白了，學生模型要盡量模仿教授模型的行為，蒸餾損失越小越好，但是又不能學傻了，基本的是非問題都答不對。

標準確定后，就可以進入正式的蒸餾訓練了。

?把同一批訓練樣本分別輸入到學生模型和教授模型；
?根據硬標簽和軟標簽，對比結果，結合權重，得到學生模型最終的損失值；
?對學生模型進行參數更新，以得到更小的損失值。

不斷重復這個過程?→?→?，就相當于反復刷題，每刷一輪，就找找學生答案和老師答案的差距，及時糾正。

經過多輪以后，學生的知識就會越來越扎實。

最終，蒸餾得到的小模型，盡量復制大模型的智慧，同時保持自己身輕如燕的優勢。

這樣，學生模型就可以作為課代表，獨立帶班，不需要教授坐鎮了。

擴展閱讀

一、關于不同的蒸餾路線

前面講的這種模型蒸餾，只是最常見、最通用的一種方式，叫做知識蒸餾，也叫輸出層蒸餾。

相當于老師直接告訴你最后的答案，學生只需要抄作業，模仿老師的答案就行。

這種方式操作起來最簡單，即便教師模型不開源，你拿不到教師模型，只要能調用他的API，看到老師的知識輸出，就可以模仿他，蒸餾出自己的小模型。

所以，有些模型比如GPT4，是明確聲明不允許知識蒸餾的，但只要你能被調用，就沒法避免別人偷師。

坊間傳聞，業界大模型廠商之間，都存在互相蒸餾的操作，正所謂“互相模仿、共同進步”。

除了輸出層蒸餾，還有中間層蒸餾（也叫特征層蒸餾），不僅學到最終判斷的結論，還學習老師對圖像/文本的內部理解，更深入地繼承老師的“知識結構”。

相當于學生不光看老師的最終答案，還要看老師的解題過程或中間步驟，從而更全面地學到思考方法。

但這種蒸餾方案，操作難度較高，通常需要教師模型允許，甚至主動配合，適用定制化的項目合作。

不過現在也可以通過一些手段來獲取教師模型的推理軌跡（Reasoning Traces），比如使用特殊構造的提示詞來誘導老師逐步返回推理，得到推理軌跡。

同時隨著各種推理模型的推出，有些推理模型的API本身就支持返回推理軌跡，比如Google Gemini2.0 Flash，DeepSeek等等。

二、關于蒸餾、微調和RAG

這三種方法，都是優化的大模型的手段，但是實現路徑和應用場景不同。

蒸餾：是學生通過模仿老師的解題思路，達到和老師相似的知識水平。

適用于將大模型的能力遷移到小模型上，以適配更低端的算力環境。（比如在企業私有云、個人電腦甚至手機、邊緣終端上）

微調：又叫精調，相當于學生意識到自己某門課有短板，然后自己找參考書惡補了一下，從而補上短板。

適用于特定場景下，用特定數據集對通用模型進行小規模訓練。比如通用基礎模型對醫療不大懂，就用醫療數據集給它開小灶，讓他變身醫療專家模型。

RAG：直譯過來叫做“檢索增強生成”。相當于這題我不會，但是我有“小抄”，我回答的時候，就看一眼小抄，然后再綜合我腦子里的已有知識，進行回答。

RAG，不是訓練，不改變大模型的“腦回路”，但可以作為外掛，提升大模型回答問題的精準性。適用于企業自身積累了大量知識庫文檔，通過RAG的方式，與大模型關聯。

這樣，大模型在回答問題的時候，會先檢索知識庫，進行精準回答。

三、舉兩個現實的例子

舉個例子，現在特大號公眾號后臺的自動回復，其實就是騰訊混元大模型，通過RAG的方式，連接了特大號所有的歷史文章，作為知識庫使用。

當你提問的時候，它就會檢索這些歷史文章，然后再回答問題。

再舉個例子，前幾天被熱傳的李飛飛團隊僅花費50美元，就訓練出一個比肩ChatGPT o1和DeepSeek R1的模型，其實是一種誤讀。

李飛飛團隊的s1模型，其實是基于通義的開源模型Qwen2.5-32B進行的微調，而微調所用的數據集，其中一部分蒸餾自Google Gemini 2.0 Flash Thinking。

所以，這個模型的誕生，是先通過知識蒸餾，從Gemini API獲取推理軌跡和答案，輔助篩選出1000個高質量的數據樣本。

然后，再用這個數據集，對通義Qwen2.5-32B進行微調，最終得到性能表現不錯的s1模型。

這個微調過程，消耗了50美元的算力費用，但這背后，卻是Gemini和Qwen兩大模型無法估量的隱形成本。

這就好比，你“偷了”一位名師解題思路，給了一個學霸看，學霸本來就很NB，現在看完“思路”，變得更NB了。

嚴格來講，Gemini 2.0作為閉源商業模型，雖然支持獲得推理軌跡，但原則上是不允許用作蒸餾的，即便蒸餾出來也不能商用。不過如果僅是發發論文、做做學術研究、博博眼球，倒也無可厚非。

當然，不得不說，李的團隊為我們打開了一種思路：我們可以站在巨人的肩膀上，用四兩撥千斤的方法，去做一些創新。

比如，DeepSeek是MIT開源授權，代碼和權重全開放，而且允許蒸餾（且支持獲取推理軌跡）。

那么對于很多中小企業來講，無異于巨大福利，大家可以輕松通過蒸餾和微調，獲得自己的專屬模型，還能商用。

GenAI的普惠革命時代，恐怕真的來了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

海賊王1155話：洛克斯挑釁伊姆大人，他要成為世界之王

山治談動漫 2025-07-17 21:21:02
1 跟貼 1
海賊王1155話：王直的形象首度揭曉，不過這形象有點不堪入目啊

二次元那些事 2025-07-17 23:25:58
0 跟貼 0

追光動畫盯上名著改編？這部“志怪”合集不止有副好皮囊

野草的透寫臺 2025-07-17 22:38:20
0 跟貼 0

港中文&華為聯合提出首個大模型推理可靠性評估基準

機器之心Pro 2025-07-16 18:13:44
0 跟貼 0
家長因女兒患惡性腫瘤致電動物園希望退年卡

澎湃新聞 2025-07-17 07:30:25
1158 跟貼 1158

1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

量子位 2025-07-17 14:34:39
4 跟貼 4

印度官宣對華重大勝利：他們有意贈送五架陣風，卻換來殲10參數

幽棠的趣式 2025-07-16 04:07:37
0 跟貼 0
全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

以前沒有計算機人們用什么算賬？看農村老人講述與操作，長知識了

程傳農村小生活 2025-07-16 17:56:04
0 跟貼 0
高寒命運能改變知識

描容娛樂 2025-07-14 12:00:16
2 跟貼 2
VLA 推理新范式！一致性模型 CEED-VLA 實現四倍加速！

機器之心Pro 2025-07-16 18:31:44
0 跟貼 0
科學家撰文：AI能使用人類語言模擬思考，監控AI推理僅剩短暫窗口

DeepTech深科技 2025-07-16 18:46:51
1 跟貼 1
7月16日，上海網友發視頻稱，一群老人在麥當勞打牌。網友：用餐的人都沒地方坐。（編輯：琳琳）#麥當勞

中安在線 2025-07-17 11:55:36
8469 跟貼 8469
500美元刷新SOTA！訓練成本砍到1/200，華人團隊重構視頻生成范式

量子位 2025-07-17 14:45:03
0 跟貼 0
趨勢是由實態的計算與虛態的算計共同完形出來的

白駒談人機 2025-07-17 06:38:36
0 跟貼 0
商湯絕影端側多模態大模型亮相鏈博會|聚焦鏈博會

北青網-北京青年報 2025-07-17 21:34:02
0 跟貼 0
IDC評測9家座艙大模型，斑馬智行全面領跑

甲子光年 2025-07-17 18:17:13
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0
2300 萬、信息化軟件大單：華北理工大學附屬醫院花海院區

云頭條 2025-07-17 13:16:13
0 跟貼 0
手搓第一個AI程序后，這位95后決定“反共識”創業｜AI原生100

虎嗅APP 2025-07-16 19:19:12
0 跟貼 0
印度宣布重大戰果，殲10C等核心參數共享給盟友

琴琴有氧運動 2025-07-16 00:27:44
0 跟貼 0
高中數學求2025項函數值的和，仔細觀察題干很重要！

三樂大掌柜 2025-07-15 08:58:41
1 跟貼 1
女特工精通數理化危機時刻利用知識成功脫身

浪嫂剪輯 2025-07-16 16:51:41
1 跟貼 1
蔡正元對我們的新款殲20S性能參數真是如數家珍，滿滿的自豪感！

爆笑星空 2025-07-15 05:10:32
0 跟貼 0
高一數學學霸進階之路：函數不等式解法大公開，秒變解題高手！

六維坐標系 2025-07-15 18:01:44
1 跟貼 1
SR-72速度驚人，解放軍擔憂中國衛星追蹤其模型進展

蕭鮖記錄風土人情 2025-07-16 00:17:30
0 跟貼 0
沒有動力來源的模型飛機居然奇跡的載人飛了起來

酷啵追影 2025-07-16 17:27:56
1 跟貼 1
開門，二次元自由貿易

星球商業評論 2025-07-17 22:28:58
0 跟貼 0
經濟大省半年報：廣東為何越來越好？

新快報新聞 2025-07-17 10:20:46
338 跟貼 338
浙江省政府印發通知：設立杭州職業技術大學和寧波職業技術大學

浙江發布 2025-07-17 16:26:58
107 跟貼 107
伊朗外長：感謝中方

環球時報 2025-07-17 10:34:38
100 跟貼 100
追求概率質量的帕累托最優：廣義α-β散度引導知識蒸餾框架ABKD

機器之心Pro 2025-06-09 19:34:04
0 跟貼 0
云計算一哥，剛剛重新定義了AI Agent的玩法

量子位 2025-07-17 15:26:31
0 跟貼 0
輕武器之王，波波沙沖鋒槍內部構造

深度紀實錄 2025-07-13 08:47:24
1 跟貼 1
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
928 跟貼 928
4600萬元的村企，被“明星書記”搞垮了

中國新聞周刊 2025-07-17 18:50:40
558 跟貼 558
莊建球當選鄭州市市長

澎湃新聞 2025-07-17 17:05:35
43 跟貼 43
免費參與模型盛會！展覽+比賽+集市+體驗，互動體驗玩法多多

上海體育 2025-07-17 19:58:12
0 跟貼 0
高考數學真簡單！同構構造常數列，高三數學高中總復習不再頭疼！

六維坐標系 2025-07-15 17:48:47
3 跟貼 3

明天起至22日，四川山東河北遼寧等局地有大暴雨！青海遼寧等地致災氣象風險高

明天起至22日，四川山東河北遼寧等局地有大暴雨！青海遼寧等地致災氣象風險高

魯中晨報

2025-07-17 16:28:57

不再慣著！菲船3次撞擊中方海警船，052D出擊強行駛入菲巡航編隊

不再慣著！菲船3次撞擊中方海警船，052D出擊強行駛入菲巡航編隊

宮機長筆記

2025-07-17 12:00:11

格力24年老大地位被終結，擊敗它的是國內最大空調集團，日收10億

格力24年老大地位被終結，擊敗它的是國內最大空調集團，日收10億

小樾說歷史

2025-06-12 16:38:56

16歲女孩飛機上分娩，?？谛l健委獨家回應

16歲女孩飛機上分娩，海口衛健委獨家回應

中國新聞周刊

2025-07-16 20:57:58

浙江男籃官方：我俱樂部與達米安·瓊斯已正式完成續約

浙江男籃官方：我俱樂部與達米安·瓊斯已正式完成續約

雷速體育

2025-07-17 14:56:45

宗氏家族爭產案，一個細節讓人反感

宗氏家族爭產案，一個細節讓人反感

Yuki女人故事

2025-07-17 15:20:31

吳堅勇任上海大學黨委書記

澎湃新聞

2025-07-17 20:05:02

東莞終于扛不住了又恢復了以前的娛樂模式實行“應批盡批”...

東莞終于扛不住了又恢復了以前的娛樂模式實行“應批盡批”...

林子說事

2025-07-16 13:52:53

西媒：曼城出價上億歐元求購皇馬中場大將

西媒：曼城出價上億歐元求購皇馬中場大將

星耀國際足壇

2025-07-17 12:46:02

那個3歲識三千字、6歲奪央視冠軍的神童王恒屹，如今過得怎樣？

那個3歲識三千字、6歲奪央視冠軍的神童王恒屹，如今過得怎樣？

同知

2025-02-17 18:24:44

北大在廣東再次遭遇斷檔！名校崇拜不敵實用主義，深層次揭秘

北大在廣東再次遭遇斷檔！名校崇拜不敵實用主義，深層次揭秘

史海流年號

2025-07-16 22:02:32

打破歷史紀錄！重慶電網最大負荷達2852萬千瓦

打破歷史紀錄！重慶電網最大負荷達2852萬千瓦

上游新聞

2025-07-17 20:29:19

“多處咬痕、身體被老虎鉗夾爛”，被凌辱致死的女人為何一言不發

“多處咬痕、身體被老虎鉗夾爛”，被凌辱致死的女人為何一言不發

大案九處

2025-07-17 14:30:40

男孩被塞后備箱后續！繼母惡行被扒，生父不道歉惡心一幕出現

男孩被塞后備箱后續！繼母惡行被扒，生父不道歉惡心一幕出現

游古史

2025-07-17 13:20:40

荷蘭發達到什么程度了？人口僅1700萬，卻擁有12個世界五百強！

荷蘭發達到什么程度了？人口僅1700萬，卻擁有12個世界五百強！

風到腰彎

2025-04-15 09:32:58

對黃楊鈿甜耳環的通報，我有理有據地提出質疑

對黃楊鈿甜耳環的通報，我有理有據地提出質疑

虬髯客好忙

2025-07-17 18:13:36

WTT歐洲大滿貫8月14日至24日賽程，林詩棟等15人出戰

WTT歐洲大滿貫8月14日至24日賽程，林詩棟等15人出戰

乒乓球球

2025-07-17 21:03:54

打起來了！炸完伊朗后，中東兩強代理人戰爭已打響，車臣軍團猛攻

打起來了！炸完伊朗后，中東兩強代理人戰爭已打響，車臣軍團猛攻

書中自有顏如玉

2025-07-16 15:43:55

一個被窩睡不出兩種人！演唱會擺爛的鄭伊健，和蒙嘉慧是一類人

一個被窩睡不出兩種人！演唱會擺爛的鄭伊健，和蒙嘉慧是一類人

白面書誏

2025-07-12 14:56:18

天價耳環大反轉！央視通報：貪污、別墅只是幌子，兩項違法才是真

天價耳環大反轉！央視通報：貪污、別墅只是幌子，兩項違法才是真

冷紫葉

2025-07-17 22:59:01

全球最新、最酷AI解決方案

1029文章數 716關注度

往期回顧全部

頭條要聞

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予，是姐妹，也是戰友

娛樂要聞

又相信愛情了，董璇二婚現場照曝光！

財經要聞

杭州成立專班介入宗慶后遺產糾紛

科技要聞

沒有老黃不夸的中國公司了吧？？

汽車要聞

有望年內上市奧迪A6L e-tron申報信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

親子

房產

公開課

呼吸科專家破解呼吸道九大謠言！

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

親子要聞

老媽請我們下館子

房產要聞

突發！海航陳峰被判12年，罰2.2億！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：长葛市| 大竹县| 娱乐| 库伦旗| 即墨市| 岳池县| 云南省| 永清县| 睢宁县| 尤溪县| 绥宁县| 阳谷县| 万宁市| 共和县| 赤峰市| 松桃| 墨竹工卡县| 温州市| 永新县| 嘉荫县| 昆山市| 湾仔区| 花莲县| 旬阳县| 麻栗坡县| 龙门县| 平阳县| 叶城县| 元谋县| 峡江县| 花莲市| 乐昌市| 柳河县| 加查县| 浦城县| 陈巴尔虎旗| 革吉县| 崇义县| 读书| 南江县| 长治市|

<sup id="bq83l"></sup>

<legend id="bq83l"><track id="bq83l"></track></legend>

<sub id="bq83l"></sub>

<sub id="bq83l"><s id="bq83l"></s></sub>