99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破單token預測局限!南洋理工首次將多token預測引入微調

0
分享至

CAFT團隊 投稿
量子位 | 公眾號 QbitAI

告別Next-token,現在模型微調階段就能直接多token預測!

從GPT到Claude,當前主流LLM都依賴next-token prediction(下一token預測)進行訓練,但它卻讓AI很難真正理解跨越多token的完整概念。

于是南洋理工大學最近提出了一項新技術——概念感知微調(CAFT),首次實現將multi-token prediction(多token預測)引入微調階段,讓模型能夠像人類一樣理解和學習完整概念。



原來LLM只能碎片化理解每個token,現在CAFT可以為模型添加額外的輔助頭,在主模型學習下一個詞的同時,幫助學習后續token,并通過動態調整權重,確保模型始終優先優化主要任務的損失。

最終LLM可以兼顧多token概念學習,形成更為完整的認知,在推理和生成能力增強的同時,既不會影響模型本身,也不會額外增加多余成本。



另外研究人員通過實驗發現,CAFT在編程、數學、生物醫學等多個領域都能顯著提升模型性能,或許未來將會讓AI訓練范式迎來根本性轉變。

下面是有關CAFT的更多詳細內容。

Next-token預測:AI的“基因密碼”

首先,next-token prediction的基本思想是在已知上下文的基礎上,預測最有可能的下一個token。

舉個例子,針對句子“人工智能將改變_”,你可能會直接預測出“世界”、“未來”或“社會”,但是next-token prediction的預測流程則分為以下三步:

  1. 分詞:例如將“人工智能”拆分為“人工”和“智能”。
  2. 序列建模:讓模型逐個學習每個token與其前文的關系。
  3. 概率預測:為所有候選token分配概率,并選擇最高者作為輸出。

Next-token將會在預訓練里的大規模語料上學習語言統計規律與通識知識,然后在微調中通過特定任務數據學習具體行為模式,決定模型實際表現。

但無論是預訓練還是微調,next-token prediction都只會在每一步中只預測下一個token,再依次進行。

與此同時,這也帶來了一個根本性缺陷,即它將完整概念拆解為碎片,阻礙模型形成整體認知

例如“ribonucleic acid”(核糖核酸),Llama 3分詞器就會將其拆解為:“rib”→“on”→“ucle”→“ic”→“acid”,當模型預測“rib”時,無法預見“onucleic acid”,因此無法理解這是一個生物學分子概念。

又比如說將“北京大學”拆成“北”、“京”、“大”、“學”分開記憶,這嚴重破壞了語義完整性。

所以next-token prediction存在前瞻能力差、不擅長處理跨概念的復雜推理、學習效率低、結果高度依賴具體分詞器等問題。



Meta等機構對此提出可以在預訓練階段嘗試multi-token prediction,但同樣也面臨以下限制:

  1. 預訓練成本過大,是微調階段的上千倍。
  2. 僅能提升通用語言能力,對具體概念理解幫助有限。
  3. 直接應用于微調時會造成分布偏移,從而導致性能下降。

這讓multi-token prediction只適用于預訓練階段,難以普及,所以研究團隊提出了新技術CAFT,將multi-token prediction引入微調。

CAFT:打破瓶頸的概念感知微調方法

CAFT在架構上主要包括輔助頭損失函數兩部分,輔助頭含獨立隱藏層,且共享輸出層,以降低參數成本,損失函數為:



其中L?指原始next-token損失,β是控制輔助損失的權重(設為0.01,確保主任務優先),γ是反射正弦動態調整因子,訓練初期高,后期低,α是幾何衰減因子,越遠的token權重越小,t指token位置。

在微調結束后,還可以直接丟棄輔助頭,讓推理開銷為零。



CAFT采取分階段訓練策略,可分為兩個階段:

  • 輔助頭預訓練

在原模型上添加n-1個輔助預測頭,然后使用通用指令數據集訓練輔助頭,分別預測第2、3、4…個未來token。

其中需要使用原模型自己生成的回答作為“偽標簽”,避免分布偏移,且輔助頭訓練一次即可,多任務可通用復用。

  • 概念感知微調

在特定任務上同時優化原始預測頭和輔助頭,然后用特殊設計的損失函數確保主目標仍是第一個token。

利用動態權重調整策略,訓練初期關注多token概念學習,后期聚焦任務表現。



最終CAFT可實現極低的使用門檻,只需要幾行代碼,就能結合任意預訓練模型,在成本上遠低于重新預訓練,只略高于傳統微調。

CAFT的全面驗證:從代碼到生命科學

研究團隊在五個不同領域任務上測試了CAFT,將其與傳統的next-token微調(包括全量微調與LoRA微調)進行對比。

所有結果均為5次獨立評估的平均值及95%置信區間,部分任務在微調前會對輔助頭進行1個epoch的預訓練。



編程任務中,由于存在大量跨token的語義單元,例如Python中的“_name_”會被分為“_”、“name”、“_”三個token,但需整體理解,所以借助HumanEval數據集,判斷CAFT能否讓模型能夠整體理解這類編程概念。



實驗結果表明,LoRA CAFT在準確率上從40.9%提升至45.1%,Full CAFT則從40.5%提升到49.3%。



然后將題目按概念密度分類,發現CAFT在高概念密集題目上提升更顯著(+11.67%vs+7.59%),證實了概念學習的有效性。

數學推理上,LoRA CAFT在MATH-500數據集里性能提升了1.7%(22.9%到24.6%),Full CAFT則是1.5%(23.7%到25.2%)



而當CAFT置于臨床文本中,由于醫學文本充滿復雜專業術語,被拆分后往往失去意義,此時讓CAFT完成醫學術語整體理解極具挑戰性。

但CAFT仍然在MIMIC-IV-BHC數據集上表現良好,在ROUGE等指標上全面優于傳統方法,其中ROUGE-1從44.57提高到45.93,ROUGE-2從22.94提高到24.44,ROUGE-L從32.17提高到33.76,說明其能更好地捕捉長文本中的概念。



官能團結構理解上,由于化學分子包含功能性“官能團”,如苯環、酰胺基團等,而SMILES序列中的官能團是典型的多token概念,傳統方法很難整體學習。

CAFT可以很好地彌補這一點,準確匹配率從原來的0.14%,提升了4倍,到0.54%,有效分子比例從92.38%改進到97.14%,結構相似性也得到了顯著改善。



進一步進行官能團學習驗證,發現苯環識別中F1分數大幅提升、酰胺識別中準確率和召回率雙重改善、羧酸識別中復雜分子的識別能力增強。



另外為考驗CAFT泛化能力,讓CAFT根據功能設計蛋白質序列,由于蛋白質使用氨基酸編碼,與自然語言差異極大,測試環境相當極限。

實驗結果顯示,序列同一性從20.32%提升到22.14%,序列對比分數也從原來的負值(-16.01)提升到正值(3.18),結構置信度從52.60變為54.30,結構相似性從33.07%變為35.12%。



其中,25.0%的生成序列具有高結構置信度(>70),比傳統方法的20.0%有了顯著提升。

最終,研究團隊通過在廣泛領域中實驗,驗證了CAFT實現multi-token prediction在微調階段的可行性,其易用性和低成本也展示了其可能替代現有next-token prediction的巨大潛力,為理解模型內部機制提供了新視角。

論文鏈接:https://www.arxiv.org/abs/2506.07833
項目鏈接: https://github.com/michaelchen-lab/caft-llm

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2025年中國公開賽:金元昊/徐承宰被淘汰出局

2025年中國公開賽:金元昊/徐承宰被淘汰出局

BWF世界羽聯
2025-07-25 23:49:16
中央巡視組剛進駐,趙忠發被查

中央巡視組剛進駐,趙忠發被查

新京報政事兒
2025-07-25 16:45:15
“旺仔小喬”方發聲明:已報案!曾堅稱《年輪》原唱不是汪蘇瀧惹爭議

“旺仔小喬”方發聲明:已報案!曾堅稱《年輪》原唱不是汪蘇瀧惹爭議

魯中晨報
2025-07-24 10:06:06
笑死!馬頔婚房裝修網友讓《五哈》過去錄制一期:得知道錢花哪了

笑死!馬頔婚房裝修網友讓《五哈》過去錄制一期:得知道錢花哪了

書咚咚
2025-07-25 23:38:06
2012年三對高校教師夫妻玩“換妻”游戲,內容不堪入目,結局如何

2012年三對高校教師夫妻玩“換妻”游戲,內容不堪入目,結局如何

阿胡
2024-06-19 14:36:12
里子面子都輸了!同是唱別人寫的歌,王菲給張碧晨好好上了一課

里子面子都輸了!同是唱別人寫的歌,王菲給張碧晨好好上了一課

悠閑歷史
2025-07-25 15:33:41
確認!臺風影響江蘇!大暴雨、雷雨 即將抵達

確認!臺風影響江蘇!大暴雨、雷雨 即將抵達

無錫eTV全媒體
2025-07-26 02:06:08
6名大學生參觀企業時意外墜落溺亡,中國黃金、中金黃金官網已變黑白

6名大學生參觀企業時意外墜落溺亡,中國黃金、中金黃金官網已變黑白

界面新聞
2025-07-25 18:38:57
證監會定調七大任務,吳清最新發聲!

證監會定調七大任務,吳清最新發聲!

21世紀經濟報道
2025-07-25 20:04:17
24歲女外賣員已找到!死狀太慘烈,家中孩子才2歲,知情人曝死因

24歲女外賣員已找到!死狀太慘烈,家中孩子才2歲,知情人曝死因

振華觀史
2025-07-25 16:11:38
鴻蒙智行回應輔助駕駛測試爭議 曬出2025上半年成績單

鴻蒙智行回應輔助駕駛測試爭議 曬出2025上半年成績單

手機中國
2025-07-25 15:36:47
侮辱性極強,美商務部長公開承認:賣給中國的都是四流垃圾芯片

侮辱性極強,美商務部長公開承認:賣給中國的都是四流垃圾芯片

星辰夜語
2025-07-25 10:48:14
兩大司令部被炸毀,柬軍敗局已定?中方及時開金口,送泰柬一句話

兩大司令部被炸毀,柬軍敗局已定?中方及時開金口,送泰柬一句話

奧字侃娛
2025-07-25 16:53:35
妻子晉升后提出離婚,我收拾行李接受調任,再見面她懊悔我暢快

妻子晉升后提出離婚,我收拾行李接受調任,再見面她懊悔我暢快

紅豆講堂
2025-07-23 08:20:09
巴拿馬運河港口被“中字頭”國企拿下了,李嘉誠被踢出核心集團

巴拿馬運河港口被“中字頭”國企拿下了,李嘉誠被踢出核心集團

現代春秋
2025-07-25 20:27:46
中國首位博物院女院長,一生未婚,跳塔身亡,死前給司機留下紙條

中國首位博物院女院長,一生未婚,跳塔身亡,死前給司機留下紙條

鬼谷子思維
2025-07-24 20:15:03
再勝委內瑞拉!男籃僅5人表現理想 王俊杰程帥澎驚艷,徐杰不合格

再勝委內瑞拉!男籃僅5人表現理想 王俊杰程帥澎驚艷,徐杰不合格

后仰大風車
2025-07-25 21:37:37
山姆超市會員:山姆經典紙面巾每年減重,隱形降成本讓消費者買單!客服回應:供退貨退款,會反饋到相關部門

山姆超市會員:山姆經典紙面巾每年減重,隱形降成本讓消費者買單!客服回應:供退貨退款,會反饋到相關部門

和訊網
2025-07-25 10:06:15
易建聯成功背后的女人,身價40億,后背有紋身

易建聯成功背后的女人,身價40億,后背有紋身

老謝談史
2025-07-25 20:45:17
81-69逆轉奪第4冠!中國女籃打服美國隊,宮魯鳴該學的不只是戰術

81-69逆轉奪第4冠!中國女籃打服美國隊,宮魯鳴該學的不只是戰術

海闊山遙YAO
2025-07-26 06:07:35
2025-07-26 07:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10927文章數 176196關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

房產
藝術
健康
時尚
游戲

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

今年夏天一定要有這件衣服,好看又復古!

《無主之地4》已開發完畢進廠壓盤

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 靖江市| 普兰店市| 和政县| 民乐县| 迭部县| 大厂| 万年县| 镇安县| 衡东县| 安乡县| 乐都县| 共和县| 板桥市| 大庆市| 龙南县| 苍溪县| 和林格尔县| 宝坻区| 阳泉市| 虹口区| 宁海县| 芜湖市| 沂南县| 深圳市| 南川市| 独山县| 黄大仙区| 辛集市| 美姑县| 中江县| 利川市| 方城县| 平顶山市| 洮南市| 平顺县| 陆丰市| 西藏| 赫章县| 嘉鱼县| 五常市| 平和县|