網易首頁 > 網易號 > 正文申請入駐

手術刀式去噪突破LLM能力上限，從頭預訓練模型下游任務提高7.2%

2025-07-21 15:31:27　來源: 量子位

北京舉報

分享至

RefineX團隊投稿
量子位 | 公眾號 QbitAI

在噪聲污染嚴重影響預訓練數據的質量時，如何能夠高效且精細地精煉數據？

中科院計算所與阿里Qwen等團隊聯合提出RefineX，一個通過程序化編輯任務實現大規模、精準預訓練數據精煉的新框架。

其核心優勢在于：將專家指導的高質量端到端優化結果，蒸餾為極簡的基于編輯操作的刪除程序。

通過這一高精度蒸餾流程，可以訓練出高效可靠的優化模型（refine model），系統地優化語料中的每個實例。

在高效精煉數據的同時，可靠地保留原始文本的多樣性和自然性。

用RefineX凈化后的20B token數據訓練750M模型時，其在常識推理、科學問答等10項任務的平均得分達到44.7，較原始數據提升7.2%。

大模型的預訓練數據

預訓練數據的質量直接決定了模型的知識深度與推理能力上限。

當互聯網成為海量訓練數據的來源，噪聲污染也隨之而來——植入的廣告、破碎的HTML標簽、無意義的亂碼等，不僅降低數據效用，更可能引發模型幻覺。

然而，大規模的去除這些噪聲來提升預訓練數據的質量是十分困難的，因為同時要兼顧兩個要素：

高效：由于數據規模龐大，精煉必須能夠高效低成本的進行
可靠：精煉應該最大化的保留有價值信息，并不引入額外的模型或人工偏好而破壞原始數據的本質。

傳統數據精煉方案主要集中于規則過濾和端到端重寫。但是，規則過濾（如C4/Gopher）只能文檔級粗篩選擇，誤傷高價值內容，且無法做到字符級的精準修正；端到端重寫盡管重寫質量高，但推理成本極高，無法應用于大規模數據。

更危險的是，端到端重寫過程常擅自修改術語與句式從而引入模型偏好的不可控性，如：

原始： “Climate change[廣告] impacts theenvironment”
重寫： “Climate change impactsecosystems” # 篡改關鍵術語

而RefineX框架受ProX等新興工作的啟發，選擇了一條新的去噪路徑：

上圖展示了基于程序的精煉流程，以及ProX和RefineX中精煉模型的訓練數據構建比較。

ProX的限制在于直接訓練來自專家輸出的噪聲精煉程序，復雜的prompt組合極大增加了這項任務的生成難度，從而降低蒸餾數據質量。

而RefineX在蒸餾數據的處理上進行了創新，將蒸餾數據的構建結構分為兩個明確的階段：首先執行端到端精煉，然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監督程序。

這個兩階段過程產生了顯著更可靠的監督，有效消除了生成過程中引入的過度編輯風險，最終生成一個更有效且更魯棒的精煉模型。

高效可靠的規?；珶?/p>

上圖展示了RefineX的核心工作流程。

RefineX的目標是降低專家模型直接生成用于蒸餾的精煉程序難度，同時盡可能保留端到端輸出中的有效精煉操作。

為實現這兩個目標，RefineX首先在精心設計的指令下提示專家模型生成高質量的精煉文本。然后，將精煉文本與原始輸入進行比較，基于最小編輯距離提取可靠的刪除操作序列。

這些操作被轉換為預定義的程序函數集，作為可信的監督信息來訓練緊湊的精煉模型。

訓練完成后，模型通過推理生成可靠的精煉程序，隨后執行這些程序以高效地在語料庫中執行細粒度精煉。

為徹底規避模型偏好帶來的新增內容或者過度修改的風險，僅保留精煉過程中的刪除操作，RefineX限制程序函數為刪行、刪字符、保留全部。上面是具體的函數定義。

“只刪不改”可以很好得保護原始文本，使拼寫偏差等非關鍵缺陷得以保留——它們將在預訓練中被數十萬億token自然中和，而不會污染數據的多樣性本質。

另外，RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異，并過濾非法的插入和替換操作以及低質量數據，將可靠的刪除操作與預定義好的函數對齊，和原文本組成文本-程序對用于優化模型的訓練。

RefineX使用動態分塊機制來保持長上下文的內容捕獲，提升模型的長上下文處理能力。

論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉，消耗萬卡小時來處理得到大約200萬個高質量蒸餾樣本，用于訓練0.6B的Qwen-3-Base模型作為優化模型。

較小的參數量可以實現較高的推理速度保證精煉的高效性，嚴謹的蒸餾數據處理方法保證了優化模型的可靠性。

從頭預訓練實驗

為了評估優化數據對模型性能的影響，RefinX團隊使用每種方法優化后的語料庫，從頭開始預訓練不同規模的LLMs，并在下游任務中評估它們。

結果顯示，盡管在不同任務中表現最佳的變體可能來自不同的數據源，RefineX在每個單獨的任務上都取得了最佳結果。

當用RefineX凈化后的20Btoken數據訓練750M模型時，其在常識推理、科學問答等10項任務的平均得分達到44.7，比原始數據提高了+7.2%，比Comb提高了+5.9%，甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。

在數據效率的改善上，模型使用10B凈化token的表現超越其使用20B傳統過濾數據的性能，表明RefineX可以有效地通過刪除垃圾文本降低訓練單文本的token開銷，從而在訓練token總數限制下讓模型預訓練考慮更加多樣的文本。

無論是對原始數據進行改進還是對先前過濾的數據集進行改進，使用RefineX訓練的模型始終在平均得分上獲得最高分，并贏得最多任務。

有效提升文本質量

論文使用文本質量打分器DataMan來對收集的混亂的文本數據進行預分類，并觀察精煉前后的質量變化。

可以看到，在文本質量層面，RefineX對低質內容的改善率高達42.2%，且嚴格保持“零新增詞匯”，杜絕了任何幻覺風險。而端到端方案雖提升率更高，卻以每千token新增15個外部詞匯為代價，埋下了語義篡改的隱患。

RefineX提供了一個可靠又高效的大規模預訓練數據細化的新范式。真正的數據凈化不是重塑文本，而是以最小干預剝離噪聲，讓知識的原初脈絡自由呼吸。

arxiv：https://arxiv.org/abs/2507.03253
huggingface：https://huggingface.co/papers/2507.03253
github：https://github.com/byronBBL/RefineX

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

科學家將R1技術遷移到多模態領域，只需10條數據就能提升模型性能

DeepTech深科技 2025-03-05 18:08:03
6 跟貼 6
AI打假AI，拿下SOTA丨廈大&騰訊優圖

量子位 2025-07-20 15:00:58
0 跟貼 0

幾月前的傷心事，ChatGPT突然翻出來提醒我？網友當場破防：太會捅刀子了！

新智元 2025-07-22 09:43:39
0 跟貼 0

多模態大模型存在「內心預警」，無需訓練，就能識別越獄攻擊

機器之心Pro 2025-07-21 18:39:52
0 跟貼 0
OpenAI會殺死Manus們嗎？

虎嗅APP 2025-07-20 17:47:23
4 跟貼 4

Agent RL與智能體進化關鍵一步：TaskCraft實現復雜任務自動生成

機器之心Pro 2025-07-04 13:05:41
0 跟貼 0

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
當Claude說：我先睡8小時，你們自己忙

機器之心Pro 2025-07-21 15:07:34
1 跟貼 1

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
早報｜黃仁勛：中國 AI 無論有無英偉達都會進步/攝影師回應小米撞圖特斯拉/特斯拉首家餐廳開業

愛范兒 2025-07-22 09:54:19
0 跟貼 0
摩爾線程王華：算力需求千倍增長，大集群和FP8成為強需求

智東西 2025-07-21 20:54:36
0 跟貼 0
TRAE推出SOLO模式，業內首個「Context Engineer」來了

量子位 2025-07-22 11:57:15
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
俄2個動作想擠入亞太框架，想讓中國背書一邊又在算計，遭到婉拒

閆樹軍論評 2025-07-21 07:00:00
1 跟貼 1
CMU華人團隊研發LegoGPT，打造包含47000個樂高結構數據集

DeepTech深科技 2025-05-10 17:44:13
0 跟貼 0
提速63%！中科院生成式渲染器突破效率瓶頸，一致性提升20%

量子位 2025-07-20 14:53:21
0 跟貼 0
95后人大博士，拿到海外頂尖高校教職

智東西 2025-07-21 21:42:09
14 跟貼 14
法國對X平臺算法"操縱"指控展開刑事調查

龍劍秀南 2025-07-21 23:20:35
0 跟貼 0
25國發聯合聲明呼吁立即結束加沙戰爭以色列嚴正拒絕

魯中晨報 2025-07-22 07:40:35
12646 跟貼 12646
天水第二人民醫院被托管后表態，市疾控中心主任擔任院黨委書記

澎湃新聞 2025-07-21 23:06:30
1 跟貼 1
馬龍收到列車模型禮物，看著模型陷入沉思，簽名環節忙不過來了！

愛搞笑的皮皮 2025-07-20 14:03:08
1 跟貼 1
就因為姓“空”，他們生活中處處BUG！干啥都能讓電腦宕機，簡直電子柯南

英國那些事兒 2025-02-24 23:18:08
73 跟貼 73
國外一小哥只有上半張臉，通過脖子上的管子呼吸，省了幾道程序

生活就是如此 2025-07-21 15:11:59
0 跟貼 0
“蘇超最大的腕”進球了：39歲踢出驚人世界波

極目新聞 2025-07-21 15:41:33
786 跟貼 786
谷歌AlphaFold得了諾獎，但DeepMind根本沒引用前人論文？

新智元 2025-07-20 12:57:53
2 跟貼 2
16位中央巡視組組長，已全部確定

新京報政事兒 2025-07-21 18:52:49
954 跟貼 954
高僧的打坐方式，看得人眼花繚亂，沒想到程序這么復雜

心心笑笑 2025-07-19 15:57:33
1 跟貼 1
支氣管炎引起的并發癥和處理方法

醫學補給站 2025-07-20 22:27:42
0 跟貼 0
1759研究生入學考試數學一的第1題，選擇題，函數的奇偶性

我服子佩 2025-07-20 20:21:49
1 跟貼 1
俄烏沖突持續美國時隔十多年再次將核武器部署至英國

環球網資訊 2025-07-21 20:48:52
3431 跟貼 3431
中朝邊界藏著心酸：天池割掉一半，圖們江被掐斷，鴨綠江出不了海

大道微言 2025-07-21 16:05:56
8 跟貼 8
沒有瓦良格號，中國航母框架，4萬噸平臺，到底可能有多大？

大道至萬里 2025-07-22 03:43:16
0 跟貼 0
《住房租賃條例》：陽臺過道等不得單獨出租用于居住

新華社 2025-07-21 19:03:04
703 跟貼 703
中國激光武器新突破“擊落”F-35模型引全球關注

占領了思想 2025-07-21 00:42:58
0 跟貼 0
4天新增確診1395例，佛山順德“基孔熱”疫情態勢如何？

新京報 2025-07-21 16:02:55
2026 跟貼 2026
并行革命，32倍吞吐量躍升！英偉達Helix架構突破百萬Token推理瓶頸

新智元 2025-07-21 16:20:39
0 跟貼 0
初中數學代數式求值題，如何構造零零模型是關鍵！

三樂大掌柜 2025-07-18 08:08:23
2 跟貼 2
余杭污水事件，怎么能這么輕描淡寫？

深藍夜讀 2025-07-21 10:34:11
219 跟貼 219
“白天載客晚上拉貨”？鄭州公交集團：網傳圖片為假，但這事兒確實要做

每日經濟新聞 2025-07-21 19:44:13
651 跟貼 651

量子位

追蹤人工智能動態

10899文章數 176192關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

藝術

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

手術刀式去噪突破LLM能力上限，從頭預訓練模型下游任務提高7.2%

洋老板"認慫"放權，合資電車終于能打了？

母親在泰國游玩被大樹砸中身亡 同行女兒崩潰發帖求助

母親在泰國游玩被大樹砸中身亡 同行女兒崩潰發帖求助

兩度身患癌癥，她完成了一次不可能的撲救

甜馨點贊賈乃亮不是好丈夫評論?

白宮力推的5000億美元AI計劃陷僵局

看著像保時捷？賓利首款純電動車諜照曝光

態度原創

其樂融融 重構溫馨狀態

臨床醫學也開始沒落了？

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

美客機空中險與美軍B-52轟炸機相撞

手術刀式去噪突破LLM能力上限，從頭預訓練模型下游任務提高7.2%

洋老板"認慫"放權，合資電車終于能打了？

母親在泰國游玩被大樹砸中身亡同行女兒崩潰發帖求助

母親在泰國游玩被大樹砸中身亡同行女兒崩潰發帖求助

兩度身患癌癥，她完成了一次不可能的撲救

看著像保時捷？賓利首款純電動車諜照曝光

其樂融融重構溫馨狀態

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法