99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家拆掉大模型融合三堵墻,可基于任何開源模型打造更強模型

0
分享至

在過去一年間,香港理工大學計算機與數學科學學院副院長楊紅霞教授和團隊先后做出 InfiFusion、InfiGFusion 和 InfiFPO 等三項大模型成果,并把它們拆成三篇連續的論文,彌補了大模型融合領域的幾塊空白。


(來源:https://www.polyu.edu.hk/comp/people/academic-staff)

其中:

InfiFusion 證明“只要抓住 logits 的最有概率質量的 K 個通道,并把它們做標準化,跨詞表蒸餾就能于 160 H800 小時中完成,還能比原始 Phi-4 平均再高 4.84 分”。InfiFusion 的論文被頂會初審委員稱為“讓 cross-tokenizer 蒸餾真正進入生產力階段的第一步”,因為它把一堆理論優雅卻難落地的技巧變成了可復現的工程范式。


圖 | InfiFusion 的相關論文配圖(來源:arXiv)

InfiGFusion 把這種對齊從“概率分布”提升到“語義結構”,讓不同“老師模型”的推理鏈路彼此兼容,像是給蒸餾過程裝了一張骨骼圖。InfiGFusion 論文中的“logits-graph”概念則得到圖學習同行的青睞,同行認為這打破了“蒸餾只對齊軟標簽”的思維定勢。

圖 | InfiGFusion 的相關論文配圖(來源:arXiv)



InfiFPO 則把多個“老師模型”的偏好揉進同一個概率空間,這樣一來既能保留各自判斷,又能使用三重穩態機制把輸出收攏到安全區間。對于 InfiFPO 論文,幾位專做大模型安全的評審給出了“偏好融合里的里程碑”這樣的評價,原因是它第一次把“多老師意見”使用序列概率方式加以系統整合,而不是靠經驗進行權重硬拼。


圖 | InfiFPO 的相關論文配圖(來源:arXiv)


圖 | 三位論文作者(來源:資料圖)



拆掉大模型融合的“三堵墻”

該團隊表示,業界早期對大模型融合的想象大多停留在“把幾個模型的參數拼到一起”,這條路線在實踐中很快就撞到了“三堵墻”:一是不同詞表導致的蒸餾失配,二是多教師風格沖突帶來的語義噪聲,三是做完能力蒸餾之后模型的價值觀和安全性依舊懸而未決。

為此,他們先用 InfiFusion 把第一堵“墻”拆掉,即在 Universal Logit Distillation 框架里加入 Top-K 選取與 Logits 標準化,用極低算力就把跨詞表蒸餾這件事做得既穩又狠。

接著他們發現,光對齊概率分布還不夠,多老師各自的“句法骨架”仍然會互相打架,于是他們便打造了 InfiGFusion,即把 logits 看成一張圖,用 Gromov-Wasserstein 距離做結構級對齊,由此解決了第二堵“墻”。

等到能力與結構都已得到良好平衡,最后剩下的“靈魂工程”便是偏好對齊,他們將其交給 InfiFPO,InfiFPO 在基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)框架里改用多源概率融合,再配合長度歸一化與概率截斷,讓安全性能真正地實現落地。

“可以說,三篇論文一氣呵成,就是想把‘能力、結構、價值’這三根支柱一次性打牢。”研究團隊說。



從“鞏固地基”到“修正航向”

有人好奇,為什么要按照“蒸餾-結構-偏好”這個順序來發布論文,而不是一次性打包?對此,該團隊表示,這其實關乎“鞏固地基”和“修正航向”的節奏。

最開始楊紅霞團隊只有一個目標:即把 Qwen-Coder、Qwen-Instruct、Mistral-Small 這三位風格各異的“老師模型”的優點塞進 Phi-4 這個樞紐模型里。

但是,在開展第一次實驗時就暴露出了詞表沖突問題:“老師模型”們經常把同一個中文成語拆成截然不同的 token,還動不動用上各自的罕見詞尾。

于是他們決定先專注打造“地基”,把跨詞表蒸餾做深做透。

在 InfiFusion 里,他們把 Top-K 選取 的 K 掃了一整遍,發現 K = 10 時能夠捕獲幾乎全部概率質量,同時能把梯度噪聲壓到最低。

又因為需要的最佳蒸餾溫度,于是他們在蒸餾前針對 logits 做 Z-Score 標準化,讓“學生模型”只看相對排序,從而不會受到絕對幅度干擾。“這些技術細節聽起來很瑣碎,卻能讓蒸餾從‘跑得通’進化到‘跑得穩’。”該團隊表示。

當能力“地基”夯實之后,他們馬上遇到第二個問題:“老師模型”們在結構層面仍然各走各路。比如在一道多跳推理題上,某個“老師模型”先做集合篩選再算數值,另一個“老師模型”卻反過來先算數再過濾。概率分布雖然對齊了,可是解題軌跡卻在彼此打架。這時,單純地對齊 logits 已經不起作用,于是他們將 InfiGFusion 把 logits 掛在圖結構上,使用 Gromov-Wasserstein 距離去匹配“誰先誰后、誰依賴誰”,讓“學生模型”在思維鏈上,而不是在單點概率上學會折中。

當能力與結構都已被整合好,他們嘗試將模型進行進一步訓練。但是,目前偏好對齊階段的模型融合技術存在空白,不論是 RLHF 或是 DPO,都只聚焦于利用偏好數據優化模型輸出,而忽略了與此同時融合多個“教師模型”的可能性。

為了解決這一問題,他們在 InfiFPO 之中引入多源概率融合,讓不同“老師模型”在概率空間里先做充分辯論,再由長度歸一化和最大間隔穩態把輸出拉回到安全地帶,最終把 Phi-4 的綜合分從 79.95 提到 83.33。

“換句話說,我們并不是把三篇論文拆給評審看熱鬧,而是每一階段都在解決上一階段暴露的新瓶頸。期間,不僅順序沒有亂,而且也無需一次打包,因為每一步的實戰反饋都會反哺下一個工作。”該團隊表示。

另據他們回憶,在敲定蒸餾損失函數那一晚,為了找到一條既強大又落地的路線,他們前后試了 20 多種方案:從帶溫度系數的 KL 散度(KL,Kullback-Leibler divergence),到各種融合 Optimal Transport 的 Wasserstein-KL 組合等等。這些“花哨”方法在小模型實驗里確實漂亮,可是一旦放到 14B 乃至更大的真實場景,就立刻暴露出顯存與時間的雙重瓶頸,比如顯存飆升以及訓練速度普遍下降三成以上。

反復權衡之后,楊紅霞團隊回到看似樸素的 logits 蒸餾損失(ULD loss,Universal Logit Distillation loss)方法。它不像 OT-based 方法那樣華麗,但卻能在不額外占用顯存的前提下保持梯度穩定。和傳統 KL 相比,ULD loss 的收斂更快,并能讓整體訓練速度提升了將近三成。

那天凌晨,當最后一條實驗曲線穩穩壓在基線上,他們才真正確信:這才是能夠擴展到 14B 級別,并且能夠經得起工程實踐檢驗的融合方案。



僅用 20 小時把 Phi-4 打造成“融合版”,能讓中小企業也能快速復制大模型能力

談及實際收益,該團隊表示在他們的內部復現實驗里,同一臺英偉達 8×H800 服務器上,只用 20 小時就能把 Phi-4 打造成“融合版”。

在 GSM8K 與 MATH 這兩個數學任務的平均正確率上,相比單跑 InfiFusion,“融合版”Phi-4 的正確率還能繼續往上提高獎近三個百分點;在代碼生成上,“融合版”Phi-4 的通過率高出大約兩個百分點;在多步指令跟隨里,“融合版”Phi-4 的拒答率從原來的將近一半跌到不到十分之一。

更重要的是,算力成本從動輒上百萬 GPU 時長降到百級別 GPU 時長。“這讓我們這樣的中小團隊第一次有機會把‘專家團’塞進一張 80GB 顯存里直接推理。”該團隊表示。

談及落地場景,該團隊表示他們目前看到兩條呼聲最高的路線。第一條路線來自金融、醫療、法律等高門檻行業,這些行業有著由保密數據訓練的專長模型,但又迫切需要一個能夠“全科應答”的統一接口。而此次三個工作的“三步融合”剛好把能力、結構和價值做了打包,無需共享私有權重就能合成強大模型。第二條路線來自中小企業,這類企業的算力資源和標注資源有限,但也希望能夠快速復制大模型能力。而使用該團隊的流水線,只需把想要的開源“老師模型”和少量自有標注數據喂進來,就能拿到一個“定制專家團”。

如果說目前的“工作三部曲”解決了“把多路文本老師模型揉成一個通才模型”,那么下一步楊紅霞團隊想拓展到圖像和語音,讓不同模態的專家模型也能走同樣的流水線。與此同時,他們正在嘗試把蒸餾過程進一步壓縮到張量級別的“即插即融”,把推理成本做到原模型的七成以下,讓手機端也能吃得下融合后的輕量版模型。

那么,該團隊會不會把“融合”本身做成產品?這一問題的答案是肯定的。目前,楊紅霞團隊已經孵化了一套“Fuse-as-a-Service”云端中間件,用戶只需要上傳模型和少量域內數據,系統就能自動跑完三步流水并返回融合后的輕量模型。“眼下,我們在和三家垂直行業伙伴做 PoC,希望在明年把 PI 公測上線。”其對 DeepTech 表示。

展望未來,他們表示大模型的發展愿景或許并不是訓練出一個無所不能的“巨無霸”,而是如何把成千上萬個專才模型“握成一個拳頭”。“我們的 InfiFusion 這一系列工作只是抬起了第一塊磚,而真正的無限融合還在前方。”該團隊說。

參考資料:

1.InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion https://arxiv.org/abs/2501.02795

2.InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion https://arxiv.org/abs/2505.13893

3.InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models https://arxiv.org/abs/2505.13878

https://www.polyu.edu.hk/comp/people/academic-staff/prof-yang-hongxia/

運營/排版:劉雅坤、何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
津媒:盡管未宣布伊萬下課,但足協已收到經紀公司推薦的新帥人選

津媒:盡管未宣布伊萬下課,但足協已收到經紀公司推薦的新帥人選

直播吧
2025-06-13 09:12:13
特朗普宣布中美“協議已完成”,55%關稅框架引關注

特朗普宣布中美“協議已完成”,55%關稅框架引關注

中外概覽
2025-06-12 16:25:57
天壤之別!SGA季后賽罰球不高于8次時勝率僅50%,反之高達72.7%

天壤之別!SGA季后賽罰球不高于8次時勝率僅50%,反之高達72.7%

運籌帷幄的籃球
2025-06-13 15:45:44
揭秘:為何男人都不喜歡“戴套”?四大深層原因,女性值得一讀?

揭秘:為何男人都不喜歡“戴套”?四大深層原因,女性值得一讀?

伊人河畔
2025-06-12 10:23:05
毛主席追悼會前10分鐘發生了一件事,華國鋒面色鐵青:不要搗亂!

毛主席追悼會前10分鐘發生了一件事,華國鋒面色鐵青:不要搗亂!

燕小姐說歷史
2023-08-08 08:54:32
李在明救不了韓國

李在明救不了韓國

求實處
2025-06-04 20:30:03
張怡寧帶一家參加婚禮,她越來越美,64歲老公很帥,兒子也上鏡

張怡寧帶一家參加婚禮,她越來越美,64歲老公很帥,兒子也上鏡

大西體育
2025-06-12 22:45:27
英超購買力 布萊頓3700萬歐簽非五大聯賽18歲前鋒 7球1助

英超購買力 布萊頓3700萬歐簽非五大聯賽18歲前鋒 7球1助

智道足球
2025-06-13 10:05:34
張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

南南說娛
2025-06-12 11:00:35
全都是毛時代的極品圖片,很少見!

全都是毛時代的極品圖片,很少見!

深度報
2025-05-23 15:01:48
兩新援選號不佳引發球迷擔心,聊一聊近十年國米糟糕的8號

兩新援選號不佳引發球迷擔心,聊一聊近十年國米糟糕的8號

狗哥是一名三十年內拉
2025-06-13 14:16:53
廣東養老金調整將開始,歷年傾斜標準,工齡40年能漲120元嗎?

廣東養老金調整將開始,歷年傾斜標準,工齡40年能漲120元嗎?

君說輿情
2025-06-13 09:53:32
我退休7年退休金3千,根本無法體面享受退休生活,只能退而不休

我退休7年退休金3千,根本無法體面享受退休生活,只能退而不休

蟬吟槐蕊
2025-06-12 12:19:53
章子怡回復趙麗穎,網友:“楊冪情商確實比趙麗穎高”

章子怡回復趙麗穎,網友:“楊冪情商確實比趙麗穎高”

阿廢冷眼觀察所
2025-06-13 11:09:55
據說,這是一個排名世界第一的“笑話”!

據說,這是一個排名世界第一的“笑話”!

霹靂炮
2025-06-10 10:49:04
杭州一農場賣100多元含8至10種蔬菜的盲盒,創始人回應

杭州一農場賣100多元含8至10種蔬菜的盲盒,創始人回應

極目新聞
2025-06-13 15:26:23
85年我在新疆救了個女人,退伍返鄉之際,領導突然叫我去辦公室

85年我在新疆救了個女人,退伍返鄉之際,領導突然叫我去辦公室

球場的看客
2025-06-09 20:43:08
審判老杜的法官,終于被制裁,莎拉已拿到王牌,國際刑事法院變天

審判老杜的法官,終于被制裁,莎拉已拿到王牌,國際刑事法院變天

朗威游戲說
2025-06-13 14:55:44
外交部:中方一向本著相互尊重、和平共處、合作共贏的精神,看待和處理中美關系

外交部:中方一向本著相互尊重、和平共處、合作共贏的精神,看待和處理中美關系

環球網資訊
2025-06-12 14:55:06
去了趟武漢和長沙,實話實說:武漢人和長沙人氣質截然不同!

去了趟武漢和長沙,實話實說:武漢人和長沙人氣質截然不同!

生活魔術專家
2025-06-13 03:18:05
2025-06-13 16:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15286文章數 513777關注度
往期回顧 全部

科技要聞

AMD發下一代AI芯片,OpenAI掌門人當場驚呼

頭條要聞

哈梅內伊證實多人遇難稱他們為"烈士":將嚴厲懲罰以

頭條要聞

哈梅內伊證實多人遇難稱他們為"烈士":將嚴厲懲罰以

體育要聞

世界第一和他背后的智囊

娛樂要聞

那爾那茜母女訂制位 疑用親爹權力鋪路

財經要聞

以色列對伊朗襲擊后,金、油應聲大漲

汽車要聞

10年外觀一筆沒動 新Model S/X在美約售60.99萬起

態度原創

家居
房產
數碼
公開課
軍事航空

家居要聞

森林幾何 極簡灰調原木風

房產要聞

18位頂級買家瘋搶!凱旋新世界,憑何成為廣州頂豪終極價值錨點?

數碼要聞

一臺OMEN暗影精靈11游戲筆記本,滿足你的所有使用場景!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 铅山县| 三台县| 威远县| 枣强县| 凤阳县| 丰镇市| 上杭县| 鸡泽县| 蒲城县| 兴城市| 浏阳市| 昌平区| 长岭县| 招远市| 佛冈县| 眉山市| 稻城县| 泸水县| 华阴市| 墨竹工卡县| 囊谦县| 木里| 彭水| 屏东县| 金平| 台北县| 城固县| 中卫市| 梁河县| 牟定县| 团风县| 巩义市| 广昌县| 巨鹿县| 甘德县| 达州市| 台山市| 介休市| 嘉定区| 宝山区| 昭平县|