RefineX團隊 投稿
量子位 | 公眾號 QbitAI
在噪聲污染嚴重影響預訓練數據的質量時,如何能夠高效且精細地精煉數據?
中科院計算所與阿里Qwen等團隊聯合提出RefineX,一個通過程序化編輯任務實現大規模、精準預訓練數據精煉的新框架。
其核心優勢在于:將專家指導的高質量端到端優化結果,蒸餾為極簡的基于編輯操作的刪除程序。
通過這一高精度蒸餾流程,可以訓練出高效可靠的優化模型(refine model),系統地優化語料中的每個實例。
在高效精煉數據的同時,可靠地保留原始文本的多樣性和自然性。
用RefineX凈化后的20B token數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,較原始數據提升7.2%。
大模型的預訓練數據
預訓練數據的質量直接決定了模型的知識深度與推理能力上限。
當互聯網成為海量訓練數據的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標簽、無意義的亂碼等,不僅降低數據效用,更可能引發模型幻覺。
然而,大規模的去除這些噪聲來提升預訓練數據的質量是十分困難的,因為同時要兼顧兩個要素:
- 高效:由于數據規模龐大,精煉必須能夠高效低成本的進行
- 可靠:精煉應該最大化的保留有價值信息,并不引入額外的模型或人工偏好而破壞原始數據的本質。
傳統數據精煉方案主要集中于規則過濾和端到端重寫。但是,規則過濾(如C4/Gopher)只能文檔級粗篩選擇,誤傷高價值內容,且無法做到字符級的精準修正;端到端重寫盡管重寫質量高,但推理成本極高,無法應用于大規模數據。
更危險的是,端到端重寫過程常擅自修改術語與句式從而引入模型偏好的不可控性,如:
- 原始: “Climate change[廣告] impacts theenvironment”
重寫: “Climate change impactsecosystems” # 篡改關鍵術語
而RefineX框架受ProX等新興工作的啟發,選擇了一條新的去噪路徑:
上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓練數據構建比較。
ProX的限制在于直接訓練來自專家輸出的噪聲精煉程序,復雜的prompt組合極大增加了這項任務的生成難度,從而降低蒸餾數據質量。
而RefineX在蒸餾數據的處理上進行了創新,將蒸餾數據的構建結構分為兩個明確的階段:首先執行端到端精煉,然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監督程序。
這個兩階段過程產生了顯著更可靠的監督,有效消除了生成過程中引入的過度編輯風險,最終生成一個更有效且更魯棒的精煉模型。
高效可靠的規?;珶?/p>
上圖展示了RefineX的核心工作流程。
RefineX的目標是降低專家模型直接生成用于蒸餾的精煉程序難度,同時盡可能保留端到端輸出中的有效精煉操作。
為實現這兩個目標,RefineX首先在精心設計的指令下提示專家模型生成高質量的精煉文本。然后,將精煉文本與原始輸入進行比較,基于最小編輯距離提取可靠的刪除操作序列。
這些操作被轉換為預定義的程序函數集,作為可信的監督信息來訓練緊湊的精煉模型。
訓練完成后,模型通過推理生成可靠的精煉程序,隨后執行這些程序以高效地在語料庫中執行細粒度精煉。
為徹底規避模型偏好帶來的新增內容或者過度修改的風險,僅保留精煉過程中的刪除操作,RefineX限制程序函數為刪行、刪字符、保留全部。上面是具體的函數定義。
“只刪不改”可以很好得保護原始文本,使拼寫偏差等非關鍵缺陷得以保留——它們將在預訓練中被數十萬億token自然中和,而不會污染數據的多樣性本質。
另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質量數據,將可靠的刪除操作與預定義好的函數對齊,和原文本組成文本-程序對用于優化模型的訓練。
RefineX使用動態分塊機制來保持長上下文的內容捕獲,提升模型的長上下文處理能力。
論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉,消耗萬卡小時來處理得到大約200萬個高質量蒸餾樣本,用于訓練0.6B的Qwen-3-Base模型作為優化模型。
較小的參數量可以實現較高的推理速度保證精煉的高效性,嚴謹的蒸餾數據處理方法保證了優化模型的可靠性。
從頭預訓練實驗
為了評估優化數據對模型性能的影響,RefinX團隊使用每種方法優化后的語料庫,從頭開始預訓練不同規模的LLMs,并在下游任務中評估它們。
結果顯示,盡管在不同任務中表現最佳的變體可能來自不同的數據源,RefineX在每個單獨的任務上都取得了最佳結果。
當用RefineX凈化后的20Btoken數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,比原始數據提高了+7.2%,比Comb提高了+5.9%,甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。
在數據效率的改善上,模型使用10B凈化token的表現超越其使用20B傳統過濾數據的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓練單文本的token開銷,從而在訓練token總數限制下讓模型預訓練考慮更加多樣的文本。
無論是對原始數據進行改進還是對先前過濾的數據集進行改進,使用RefineX訓練的模型始終在平均得分上獲得最高分,并贏得最多任務。
有效提升文本質量
論文使用文本質量打分器DataMan來對收集的混亂的文本數據進行預分類,并觀察精煉前后的質量變化。
可以看到,在文本質量層面,RefineX對低質內容的改善率高達42.2%,且嚴格保持“零新增詞匯”,杜絕了任何幻覺風險。而端到端方案雖提升率更高,卻以每千token新增15個外部詞匯為代價,埋下了語義篡改的隱患。
RefineX提供了一個可靠又高效的大規模預訓練數據細化的新范式。真正的數據凈化不是重塑文本,而是以最小干預剝離噪聲,讓知識的原初脈絡自由呼吸。
arxiv:https://arxiv.org/abs/2507.03253
huggingface:https://huggingface.co/papers/2507.03253
github:https://github.com/byronBBL/RefineX
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.