網易首頁 > 網易號 > 正文申請入駐

突破單token預測局限！南洋理工首次將多token預測引入微調

2025-07-24 18:27:46　來源: 量子位

北京舉報

分享至

CAFT團隊投稿
量子位 | 公眾號 QbitAI

告別Next-token，現在模型微調階段就能直接多token預測！

從GPT到Claude，當前主流LLM都依賴next-token prediction（下一token預測）進行訓練，但它卻讓AI很難真正理解跨越多token的完整概念。

于是南洋理工大學最近提出了一項新技術——概念感知微調（CAFT），首次實現將multi-token prediction（多token預測）引入微調階段，讓模型能夠像人類一樣理解和學習完整概念。

原來LLM只能碎片化理解每個token，現在CAFT可以為模型添加額外的輔助頭，在主模型學習下一個詞的同時，幫助學習后續token，并通過動態調整權重，確保模型始終優先優化主要任務的損失。

最終LLM可以兼顧多token概念學習，形成更為完整的認知，在推理和生成能力增強的同時，既不會影響模型本身，也不會額外增加多余成本。

另外研究人員通過實驗發現，CAFT在編程、數學、生物醫學等多個領域都能顯著提升模型性能，或許未來將會讓AI訓練范式迎來根本性轉變。

下面是有關CAFT的更多詳細內容。

Next-token預測：AI的“基因密碼”

首先，next-token prediction的基本思想是在已知上下文的基礎上，預測最有可能的下一個token。

舉個例子，針對句子“人工智能將改變_”，你可能會直接預測出“世界”、“未來”或“社會”，但是next-token prediction的預測流程則分為以下三步：

分詞：例如將“人工智能”拆分為“人工”和“智能”。
序列建模：讓模型逐個學習每個token與其前文的關系。
概率預測：為所有候選token分配概率，并選擇最高者作為輸出。

Next-token將會在預訓練里的大規模語料上學習語言統計規律與通識知識，然后在微調中通過特定任務數據學習具體行為模式，決定模型實際表現。

但無論是預訓練還是微調，next-token prediction都只會在每一步中只預測下一個token，再依次進行。

與此同時，這也帶來了一個根本性缺陷，即它將完整概念拆解為碎片，阻礙模型形成整體認知。

例如“ribonucleic acid”（核糖核酸），Llama 3分詞器就會將其拆解為：“rib”→“on”→“ucle”→“ic”→“acid”，當模型預測“rib”時，無法預見“onucleic acid”，因此無法理解這是一個生物學分子概念。

又比如說將“北京大學”拆成“北”、“京”、“大”、“學”分開記憶，這嚴重破壞了語義完整性。

所以next-token prediction存在前瞻能力差、不擅長處理跨概念的復雜推理、學習效率低、結果高度依賴具體分詞器等問題。

Meta等機構對此提出可以在預訓練階段嘗試multi-token prediction，但同樣也面臨以下限制：

預訓練成本過大，是微調階段的上千倍。
僅能提升通用語言能力，對具體概念理解幫助有限。
直接應用于微調時會造成分布偏移，從而導致性能下降。

這讓multi-token prediction只適用于預訓練階段，難以普及，所以研究團隊提出了新技術CAFT，將multi-token prediction引入微調。

CAFT：打破瓶頸的概念感知微調方法

CAFT在架構上主要包括輔助頭、損失函數兩部分，輔助頭含獨立隱藏層，且共享輸出層，以降低參數成本，損失函數為：

其中L?指原始next-token損失，β是控制輔助損失的權重（設為0.01，確保主任務優先），γ是反射正弦動態調整因子，訓練初期高，后期低，α是幾何衰減因子，越遠的token權重越小，t指token位置。

在微調結束后，還可以直接丟棄輔助頭，讓推理開銷為零。

CAFT采取分階段訓練策略，可分為兩個階段：

輔助頭預訓練

在原模型上添加n-1個輔助預測頭，然后使用通用指令數據集訓練輔助頭，分別預測第2、3、4…個未來token。

其中需要使用原模型自己生成的回答作為“偽標簽”，避免分布偏移，且輔助頭訓練一次即可，多任務可通用復用。

概念感知微調

在特定任務上同時優化原始預測頭和輔助頭，然后用特殊設計的損失函數確保主目標仍是第一個token。

利用動態權重調整策略，訓練初期關注多token概念學習，后期聚焦任務表現。

最終CAFT可實現極低的使用門檻，只需要幾行代碼，就能結合任意預訓練模型，在成本上遠低于重新預訓練，只略高于傳統微調。

CAFT的全面驗證：從代碼到生命科學

研究團隊在五個不同領域任務上測試了CAFT，將其與傳統的next-token微調（包括全量微調與LoRA微調）進行對比。

所有結果均為5次獨立評估的平均值及95%置信區間，部分任務在微調前會對輔助頭進行1個epoch的預訓練。

在編程任務中，由于存在大量跨token的語義單元，例如Python中的“_name_”會被分為“_”、“name”、“_”三個token，但需整體理解，所以借助HumanEval數據集，判斷CAFT能否讓模型能夠整體理解這類編程概念。

實驗結果表明，LoRA CAFT在準確率上從40.9%提升至45.1%，Full CAFT則從40.5%提升到49.3%。

然后將題目按概念密度分類，發現CAFT在高概念密集題目上提升更顯著（+11.67%vs+7.59%），證實了概念學習的有效性。

在數學推理上，LoRA CAFT在MATH-500數據集里性能提升了1.7%（22.9%到24.6%），Full CAFT則是1.5%（23.7%到25.2%）。

而當CAFT置于臨床文本中，由于醫學文本充滿復雜專業術語，被拆分后往往失去意義，此時讓CAFT完成醫學術語整體理解極具挑戰性。

但CAFT仍然在MIMIC-IV-BHC數據集上表現良好，在ROUGE等指標上全面優于傳統方法，其中ROUGE-1從44.57提高到45.93，ROUGE-2從22.94提高到24.44，ROUGE-L從32.17提高到33.76，說明其能更好地捕捉長文本中的概念。

在官能團結構理解上，由于化學分子包含功能性“官能團”，如苯環、酰胺基團等，而SMILES序列中的官能團是典型的多token概念，傳統方法很難整體學習。

CAFT可以很好地彌補這一點，準確匹配率從原來的0.14%，提升了4倍，到0.54%，有效分子比例從92.38%改進到97.14%，結構相似性也得到了顯著改善。

進一步進行官能團學習驗證，發現苯環識別中F1分數大幅提升、酰胺識別中準確率和召回率雙重改善、羧酸識別中復雜分子的識別能力增強。

另外為考驗CAFT泛化能力，讓CAFT根據功能設計蛋白質序列，由于蛋白質使用氨基酸編碼，與自然語言差異極大，測試環境相當極限。

實驗結果顯示，序列同一性從20.32%提升到22.14%，序列對比分數也從原來的負值（-16.01）提升到正值(3.18)，結構置信度從52.60變為54.30，結構相似性從33.07%變為35.12%。

其中，25.0%的生成序列具有高結構置信度(>70)，比傳統方法的20.0%有了顯著提升。

最終，研究團隊通過在廣泛領域中實驗，驗證了CAFT實現multi-token prediction在微調階段的可行性，其易用性和低成本也展示了其可能替代現有next-token prediction的巨大潛力，為理解模型內部機制提供了新視角。

論文鏈接：https://www.arxiv.org/abs/2506.07833
項目鏈接： https://github.com/michaelchen-lab/caft-llm

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

五倍推理加速，激發自回歸潛能，蘋果新工作讓LLM預測未來

機器之心Pro 2025-07-24 16:15:03
2 跟貼 2
無懼封禁！Cursor最佳國產平替誕生，徹底告別代碼泄露風險

新智元 2025-07-25 09:29:21
57 跟貼 57

阿里AI三連發，釋放了哪些關鍵信號？

每日經濟新聞 2025-07-25 21:06:11
3 跟貼 3

太坑了！外賣平臺AI商家泛濫，4招教你識破“幽靈外賣”真身

雷科技 2025-07-25 23:18:30
6 跟貼 6
上交校友發現AI思考越久輸出越差，挑戰推理越多輸出更好傳統觀點

DeepTech深科技 2025-07-25 18:24:38
0 跟貼 0

經驗池讓Agents互相學習！GAIA新開源SOTA，Pass@1性能提升6.66

機器之心Pro 2025-07-25 16:14:22
0 跟貼 0

超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
2023年社會現象預測，不容錯過！

硬核老高 2025-07-24 09:55:26
0 跟貼 0

俄羅斯回應31國三項策略：收回圖瓦、退出外蒙、歸還遠東

戰武科普 2025-07-25 11:56:02
1 跟貼 1
印度恢復向中國公民簽證！謝寒冰：老是玩兩手策略#國際局勢

金日中天 2025-07-24 20:32:22
0 跟貼 0
Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
4 跟貼 4
美國預測2050年世界，將誕生三個超級大國，看到最后都沉默了

生活趣事會 2025-07-24 08:45:15
1 跟貼 1
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1
徐志勝又有新梗！脫口秀吐槽回家過年，文本太強無人能敵

點點說娛 2025-07-25 09:52:50
0 跟貼 0
10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6
河南幫扶人員68張白條2.8萬元餐館欠款已結清，縣糧食局簽字人：深表歉意，自己先墊的錢

極目新聞 2025-07-25 11:40:21
27435 跟貼 27435
CMU華人團隊研發LegoGPT，打造包含47000個樂高結構數據集

DeepTech深科技 2025-05-10 17:44:13
0 跟貼 0
首個多模態工業信號基座模型FISHER，權重已開源，來自清華&上交

機器之心Pro 2025-07-24 11:36:25
0 跟貼 0
笑岔氣了！何廣智文本無敵，笑點太密集了，聽了一遍又一遍

騎著蝸牛追導彈85 2025-07-25 09:40:00
9 跟貼 9
女子為過戶奶奶名下手機號，辦“奶奶是爸爸的媽媽、爸爸是我的爸爸”證明后，得到回復：派出所公章不清晰

大風新聞 2025-07-25 12:32:20
15829 跟貼 15829
愚者序列趙云！第八序列小丑，趙云不是一天就吸收完了？

山鬼年少 2025-07-25 11:21:34
1 跟貼 1
1801高中數學：求函數f(x)的解析式。好多人因為定義域搞錯被扣分

我服子佩 2025-07-24 14:45:38
1 跟貼 1
單日發起40次沖鋒，紅軍村正式被俄軍占領，俄烏戰爭結束近在眼前

南宮一二 2025-07-25 02:38:17
4999 跟貼 4999
初中數學解根式方程，不需要平方也能解題！

三樂大掌柜 2025-07-22 07:48:58
1 跟貼 1
西安開啟頜骨“精準微調”新時代，門診就能重塑完美輪廓！

態度城市 2025-07-24 10:01:51
1 跟貼 1
輕松一刻：連寫5天，我實在太想進步了

輕松一刻 2025-07-25 17:31:27
1148 跟貼 1148
河南平頂山初中數學題解方程，想到配湊完全平方式是解題關鍵！

三樂大掌柜 2025-07-23 08:35:57
1 跟貼 1
劉邦與朱由校：用人策略如何決定領導成敗

大黑愛旅游 2025-07-25 06:21:26
0 跟貼 0
博主吐槽潿洲島亂收費，除了呼吸都要錢，島上民宿老板炸鍋了

凡知 2025-07-25 12:13:22
1265 跟貼 1265
泰軍重裝甲師抵達泰柬邊境集結大量裝甲車陸續進場

臺海青年 2025-07-25 19:13:59
3191 跟貼 3191
2025年最難學的專業榜單出爐！別被“光環專業”騙了！

艾薇橋 2025-07-25 21:44:20
0 跟貼 0
初中數學代數式求值題，想到用整體思維很簡單！

三樂大掌柜 2025-07-24 08:15:34
2 跟貼 2
完蛋！涿州又被洪水包圍了

瑪麗姬絲 2025-07-25 22:44:08
4638 跟貼 4638
物美、美團爭當“中國奧樂齊” 線下“硬折扣”新賽季開打

每日經濟新聞 2025-07-25 23:37:10
0 跟貼 0
什么是消失模鑄造？鐵水倒進去模型消失了，發生了有趣的現象

繪生繪攝 2025-07-25 20:40:00
0 跟貼 0
官宣！2025年鄭州市區公辦普通高中錄取分數線來

魯中晨報 2025-07-25 10:22:02
249 跟貼 249
6名大學生溺亡事件更多細節披露車間主任：校企都沒做過專項安全檢查

上游新聞 2025-07-25 14:32:26
2816 跟貼 2816
甘肅一景區收取300元“天價過路費”？當地文旅局：實際為深度游產品費用

三湘都市報 2025-07-23 21:53:47
2196 跟貼 2196
特朗普自曝：曾考慮拆分英偉達但發現沒那么容易實現

財聯社 2025-07-24 15:44:40
0 跟貼 0
冰帝人形曝光，藍金鎧甲美翻，與天夢很般配，不敢在帝天面前露面

進擊的新次元 2025-07-25 16:28:42
20 跟貼 20

量子位

追蹤人工智能動態

10927文章數 176196關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

健康

時尚

游戲

手機 / 數碼

房產 / 家居

突破單token預測局限！南洋理工首次將多token預測引入微調

Next-token預測：AI的“基因密碼”

CAFT：打破瓶頸的概念感知微調方法

CAFT的全面驗證：從代碼到生命科學

36款熱門車高危智駕場景測試，“團滅”！

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

3年過去了，她還是歐洲杯上最酷的姐

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

劉煜輝:當下重要不是找確定性而是轉折點

李斌一口氣講了近3個小時樂道L90 原因是為啥？

態度原創

分數線集體飆漲！海中867分！2025海南中招格局大變！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言！

今年夏天一定要有這件衣服，好看又復古！

《無主之地4》已開發完畢進廠壓盤

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入