網易首頁 > 網易號 > 正文申請入駐

全新數據篩選方案，數據效率提升10倍！配置僅需fastText評分器

2025-05-16 12:18:17　來源: 量子位

北京舉報

分享至

PreSelect團隊投稿
量子位 | 公眾號 QbitAI

vivo自研大模型用的數據篩選方法，公開了。

香港科技大學和vivo AI Lab聯名提出PreSelect，目前已被ICML 2025接收。

這是一種輕量級且高效的數據選擇方法：只需要訓練和部署一個基于fastText的評分器，就可以減少10倍的計算需求。

該方法提出數據的預測強度(Predictive Strength) 的概念和計算公式，利用在不同模型上Loss有序性表征數據對特定能力的貢獻，通過獲取特定能力的有效樣本訓練fastText分類器對全量訓練數據進行篩選。

△論文標題：Predictive Data Selection: The Data That Predicts Is the Data That Teaches

PreSelect：更客觀、更輕量

現有的數據篩選方法主要分為兩類：基于規則的篩選和基于模型的篩選。

基于規則的篩選依賴人工構建的先驗規則，如C4 pipeline、Gopher rules，以及RefinedWeb和FineWeb的數據篩選流程。此類方法雖然實現簡單，但容易受到人工經驗的限制，存在泛化能力弱或規則主觀性強的問題。

基于模型的篩選則通過訓練模型對數據分類或打分以篩選樣本，如CC Net采用困惑度（Perplexity）打分，FineWeb-Edu利用Bert分類器評估教育價值，DsDm和MATES計算樣本的influence score，DCLM利用 fastText打分器評估樣本與SFT數據的相似性。這類方法常面臨計算成本高或者引入主觀偏見等問題。

而PreSelect方法具有以下優勢：

客觀性
將傳統的主觀性的數據質量評估轉化為對模型能力的貢獻大小，通過“預測強度”指標，量化評估數據在不同能力上的價值；
泛化性
篩選的正樣本不僅覆蓋高質量內容來源，同時具備良好的多樣性，避免過度集中于某一領域、來源或風格；
輕量級
通過fastText分類器近似打分，大幅降低計算成本，使得該方法可以高效應用于大規模數據篩選任務中；
高細粒度
支持樣本級別的篩選
支持特定細分能力維度的數據篩選

△PreSelect方法與現有SOTA方法的對比，數據效率提升10倍

PreSelect：壓縮即智能

“壓縮即智能”（compression represents intelligence）這一觀點揭示了一個核心現象：大模型對數據的壓縮能力（例如BPC, bits per character）與其在該數據上的歸一化Loss存在等價關系，且與模型在下游任務中的表現高度相關。

換言之，模型越能高效壓縮數據，模型能力或智能水平越高。

核心思想

PreSelect團隊提出以數據預測強度（Predictive Strength）作為衡量模型loss與下游任務（benchmark）表現一致性的指標，其計算公式如下：

N代表模型數量，這些模型在benchmark的得分 {S1 < S2 < … < SN}
C代表模型在數據集d上的歸一化loss，即BPC
Z為歸一化因子
I{}為指示函數
S取值范圍 [0,1]

當S=1 時，表示不同模型在benchmark上的得分排序與其在該數據上的loss排序完全一致，說明該數據具有很高的預測強度；相反，當S=0時，說明兩種排序之間沒有相關性，該數據對下游任務的作用弱，預測強度很低。

根據預測強度的高低對數據進行篩選，優先保留那些使得不同模型在benchmark上的得分排序與在數據上的loss排序更一致的數據。

這類數據對模型能力的貢獻更加顯著，能夠更有效地提升模型效果。

與現有方法相比，該方法具有更堅實的理論基礎，減少了對人工啟發規則的依賴，篩選過程更客觀、更具有泛化性。

系統框架

計算預測強度需要多個模型分別對數據樣本計算loss，全量數據計算的成本將非常高。

為解決這一問題，使用fastText打分器作為代理模型近似預測強度，從而顯著降低計算成本。

整體流程如下：

訓練效果

PreSelect團隊從RefinedWeb數據集中隨機抽取80B、300B和1T tokens作為基礎數據，評估不同篩選方法的效果。篩選比例設置為10%和30%，篩選后的數據量級包括8B、30B、90B和100B。所訓練模型的參數規模包括400M、1B和3B。

實驗對比的篩選方法包括Random、Perplexity Filter、Perplexity Correlation（DD）、Perplexity Correlation（DP）、FineWeb-Edu、DCLM。

在下游17個任務上的實驗結果表明，PreSelect方法篩選出的數據在訓練的模型效果上顯著優于其他方法，對比baseline平均提升了3%，驗證了其有效性。

在C4數據集上，進一步對比多種主流篩選方法，包括Random、DSIR、DsDm、QuRating和MATES，所訓練的模型為Pythia。

實驗結果顯示，PreSelect方法篩選的數據訓練出的模型在多項指標上均優于其他方法。

從已通過人工規則集和多種質量評分模型篩選，并經過不同粒度的文本級和語義級去重的vivo自有Web數據集中，隨機抽取5T tokens作為基礎數據，分別采用PreSelect與Random方法各自篩選10%（即500B tokens），訓練參數規模3B的模型并評估下游任務效果。

實驗結果表明，即使在自有的經過優化處理的數據集上，PreSelect方法依然有顯著的性能提升，展現出其在高質量數據基礎上的增益能力。

經過對不同數據篩選方法所選擇的樣本進行分析，結果表明PreSelect篩選的domain數據更多地采樣了知識、問答和文學領域，更廣泛地覆蓋了高質量來源內容，能夠顯著提升模型在各個領域的效果。

通過對不同數據篩選方法所篩選出的數據長度進行比較，可以看到DCLM 和FineWeb-Edu顯示出明顯的短數據向量和長數據向量趨勢，而PreSelect篩選的數據在長度分布上更接近原始長度分布。表明其在篩選出高質量樣本的同時，有效減少了樣本長度偏差（length bias），具備更好的代表性與覆蓋性。

論文鏈接：https://arxiv.org/abs/2503.00808

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.