網易首頁 > 網易號 > 正文申請入駐

科學家拆掉大模型融合三堵墻，可基于任何開源模型打造更強模型

2025-06-12 13:37:02　來源: DeepTech深科技

北京舉報

分享至

在過去一年間，香港理工大學計算機與數學科學學院副院長楊紅霞教授和團隊先后做出 InfiFusion、InfiGFusion 和 InfiFPO 等三項大模型成果，并把它們拆成三篇連續的論文，彌補了大模型融合領域的幾塊空白。

（來源：https://www.polyu.edu.hk/comp/people/academic-staff）

其中：

InfiFusion 證明“只要抓住 logits 的最有概率質量的 K 個通道，并把它們做標準化，跨詞表蒸餾就能于 160 H800 小時中完成，還能比原始 Phi-4 平均再高 4.84 分”。InfiFusion 的論文被頂會初審委員稱為“讓 cross-tokenizer 蒸餾真正進入生產力階段的第一步”，因為它把一堆理論優雅卻難落地的技巧變成了可復現的工程范式。

圖 | InfiFusion 的相關論文配圖（來源：arXiv）

InfiGFusion 把這種對齊從“概率分布”提升到“語義結構”，讓不同“老師模型”的推理鏈路彼此兼容，像是給蒸餾過程裝了一張骨骼圖。InfiGFusion 論文中的“logits-graph”概念則得到圖學習同行的青睞，同行認為這打破了“蒸餾只對齊軟標簽”的思維定勢。

圖 | InfiGFusion 的相關論文配圖（來源：arXiv）

InfiFPO 則把多個“老師模型”的偏好揉進同一個概率空間，這樣一來既能保留各自判斷，又能使用三重穩態機制把輸出收攏到安全區間。對于 InfiFPO 論文，幾位專做大模型安全的評審給出了“偏好融合里的里程碑”這樣的評價，原因是它第一次把“多老師意見”使用序列概率方式加以系統整合，而不是靠經驗進行權重硬拼。

圖 | InfiFPO 的相關論文配圖（來源：arXiv）

圖 | 三位論文作者（來源：資料圖）

拆掉大模型融合的“三堵墻”

該團隊表示，業界早期對大模型融合的想象大多停留在“把幾個模型的參數拼到一起”，這條路線在實踐中很快就撞到了“三堵墻”：一是不同詞表導致的蒸餾失配，二是多教師風格沖突帶來的語義噪聲，三是做完能力蒸餾之后模型的價值觀和安全性依舊懸而未決。

為此，他們先用 InfiFusion 把第一堵“墻”拆掉，即在 Universal Logit Distillation 框架里加入 Top-K 選取與 Logits 標準化，用極低算力就把跨詞表蒸餾這件事做得既穩又狠。

接著他們發現，光對齊概率分布還不夠，多老師各自的“句法骨架”仍然會互相打架，于是他們便打造了 InfiGFusion，即把 logits 看成一張圖，用 Gromov-Wasserstein 距離做結構級對齊，由此解決了第二堵“墻”。

等到能力與結構都已得到良好平衡，最后剩下的“靈魂工程”便是偏好對齊，他們將其交給 InfiFPO，InfiFPO 在基于人類反饋的強化學習（RLHF，Reinforcement Learning from Human Feedback）框架里改用多源概率融合，再配合長度歸一化與概率截斷，讓安全性能真正地實現落地。

“可以說，三篇論文一氣呵成，就是想把‘能力、結構、價值’這三根支柱一次性打牢。”研究團隊說。

從“鞏固地基”到“修正航向”

有人好奇，為什么要按照“蒸餾-結構-偏好”這個順序來發布論文，而不是一次性打包？對此，該團隊表示，這其實關乎“鞏固地基”和“修正航向”的節奏。

最開始楊紅霞團隊只有一個目標：即把 Qwen-Coder、Qwen-Instruct、Mistral-Small 這三位風格各異的“老師模型”的優點塞進 Phi-4 這個樞紐模型里。

但是，在開展第一次實驗時就暴露出了詞表沖突問題：“老師模型”們經常把同一個中文成語拆成截然不同的 token，還動不動用上各自的罕見詞尾。

于是他們決定先專注打造“地基”，把跨詞表蒸餾做深做透。

在 InfiFusion 里，他們把 Top-K 選取的 K 掃了一整遍，發現 K = 10 時能夠捕獲幾乎全部概率質量，同時能把梯度噪聲壓到最低。

又因為需要的最佳蒸餾溫度，于是他們在蒸餾前針對 logits 做 Z-Score 標準化，讓“學生模型”只看相對排序，從而不會受到絕對幅度干擾。“這些技術細節聽起來很瑣碎，卻能讓蒸餾從‘跑得通’進化到‘跑得穩’。”該團隊表示。

當能力“地基”夯實之后，他們馬上遇到第二個問題：“老師模型”們在結構層面仍然各走各路。比如在一道多跳推理題上，某個“老師模型”先做集合篩選再算數值，另一個“老師模型”卻反過來先算數再過濾。概率分布雖然對齊了，可是解題軌跡卻在彼此打架。這時，單純地對齊 logits 已經不起作用，于是他們將 InfiGFusion 把 logits 掛在圖結構上，使用 Gromov-Wasserstein 距離去匹配“誰先誰后、誰依賴誰”，讓“學生模型”在思維鏈上，而不是在單點概率上學會折中。

當能力與結構都已被整合好，他們嘗試將模型進行進一步訓練。但是，目前偏好對齊階段的模型融合技術存在空白，不論是 RLHF 或是 DPO，都只聚焦于利用偏好數據優化模型輸出，而忽略了與此同時融合多個“教師模型”的可能性。

為了解決這一問題，他們在 InfiFPO 之中引入多源概率融合，讓不同“老師模型”在概率空間里先做充分辯論，再由長度歸一化和最大間隔穩態把輸出拉回到安全地帶，最終把 Phi-4 的綜合分從 79.95 提到 83.33。

“換句話說，我們并不是把三篇論文拆給評審看熱鬧，而是每一階段都在解決上一階段暴露的新瓶頸。期間，不僅順序沒有亂，而且也無需一次打包，因為每一步的實戰反饋都會反哺下一個工作。”該團隊表示。

另據他們回憶，在敲定蒸餾損失函數那一晚，為了找到一條既強大又落地的路線，他們前后試了 20 多種方案：從帶溫度系數的 KL 散度（KL，Kullback-Leibler divergence），到各種融合 Optimal Transport 的 Wasserstein-KL 組合等等。這些“花哨”方法在小模型實驗里確實漂亮，可是一旦放到 14B 乃至更大的真實場景，就立刻暴露出顯存與時間的雙重瓶頸，比如顯存飆升以及訓練速度普遍下降三成以上。

反復權衡之后，楊紅霞團隊回到看似樸素的 logits 蒸餾損失（ULD loss，Universal Logit Distillation loss）方法。它不像 OT-based 方法那樣華麗，但卻能在不額外占用顯存的前提下保持梯度穩定。和傳統 KL 相比，ULD loss 的收斂更快，并能讓整體訓練速度提升了將近三成。

那天凌晨，當最后一條實驗曲線穩穩壓在基線上，他們才真正確信：這才是能夠擴展到 14B 級別，并且能夠經得起工程實踐檢驗的融合方案。

僅用 20 小時把 Phi-4 打造成“融合版”，能讓中小企業也能快速復制大模型能力

談及實際收益，該團隊表示在他們的內部復現實驗里，同一臺英偉達 8×H800 服務器上，只用 20 小時就能把 Phi-4 打造成“融合版”。

在 GSM8K 與 MATH 這兩個數學任務的平均正確率上，相比單跑 InfiFusion，“融合版”Phi-4 的正確率還能繼續往上提高獎近三個百分點；在代碼生成上，“融合版”Phi-4 的通過率高出大約兩個百分點；在多步指令跟隨里，“融合版”Phi-4 的拒答率從原來的將近一半跌到不到十分之一。

更重要的是，算力成本從動輒上百萬 GPU 時長降到百級別 GPU 時長。“這讓我們這樣的中小團隊第一次有機會把‘專家團’塞進一張 80GB 顯存里直接推理。”該團隊表示。

談及落地場景，該團隊表示他們目前看到兩條呼聲最高的路線。第一條路線來自金融、醫療、法律等高門檻行業，這些行業有著由保密數據訓練的專長模型，但又迫切需要一個能夠“全科應答”的統一接口。而此次三個工作的“三步融合”剛好把能力、結構和價值做了打包，無需共享私有權重就能合成強大模型。第二條路線來自中小企業，這類企業的算力資源和標注資源有限，但也希望能夠快速復制大模型能力。而使用該團隊的流水線，只需把想要的開源“老師模型”和少量自有標注數據喂進來，就能拿到一個“定制專家團”。

如果說目前的“工作三部曲”解決了“把多路文本老師模型揉成一個通才模型”，那么下一步楊紅霞團隊想拓展到圖像和語音，讓不同模態的專家模型也能走同樣的流水線。與此同時，他們正在嘗試把蒸餾過程進一步壓縮到張量級別的“即插即融”，把推理成本做到原模型的七成以下，讓手機端也能吃得下融合后的輕量版模型。

那么，該團隊會不會把“融合”本身做成產品？這一問題的答案是肯定的。目前，楊紅霞團隊已經孵化了一套“Fuse-as-a-Service”云端中間件，用戶只需要上傳模型和少量域內數據，系統就能自動跑完三步流水并返回融合后的輕量模型。“眼下，我們在和三家垂直行業伙伴做 PoC，希望在明年把 PI 公測上線。”其對 DeepTech 表示。

展望未來，他們表示大模型的發展愿景或許并不是訓練出一個無所不能的“巨無霸”，而是如何把成千上萬個專才模型“握成一個拳頭”。“我們的 InfiFusion 這一系列工作只是抬起了第一塊磚，而真正的無限融合還在前方。”該團隊說。

參考資料：

1.InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion https://arxiv.org/abs/2501.02795

2.InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion https://arxiv.org/abs/2505.13893

3.InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models https://arxiv.org/abs/2505.13878

https://www.polyu.edu.hk/comp/people/academic-staff/prof-yang-hongxia/

運營/排版：劉雅坤、何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.