PreSelect團隊 投稿
量子位 | 公眾號 QbitAI
vivo自研大模型用的數據篩選方法,公開了。
香港科技大學和vivo AI Lab聯名提出PreSelect,目前已被ICML 2025接收。
這是一種輕量級且高效的數據選擇方法:只需要訓練和部署一個基于fastText的評分器,就可以減少10倍的計算需求。
該方法提出數據的預測強度(Predictive Strength) 的概念和計算公式,利用在不同模型上Loss有序性表征數據對特定能力的貢獻,通過獲取特定能力的有效樣本訓練fastText分類器對全量訓練數據進行篩選。
△論文標題:Predictive Data Selection: The Data That Predicts Is the Data That Teaches
PreSelect:更客觀、更輕量
現有的數據篩選方法主要分為兩類:基于規則的篩選和基于模型的篩選。
基于規則的篩選依賴人工構建的先驗規則,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的數據篩選流程。此類方法雖然實現簡單,但容易受到人工經驗的限制,存在泛化能力弱或規則主觀性強的問題。
基于模型的篩選則通過訓練模型對數據分類或打分以篩選樣本,如CC Net采用困惑度(Perplexity)打分,FineWeb-Edu利用Bert分類器評估教育價值,DsDm和MATES計算樣本的influence score,DCLM利用 fastText打分器評估樣本與SFT數據的相似性。這類方法常面臨計算成本高或者引入主觀偏見等問題。
而PreSelect方法具有以下優勢:
- 客觀性
- 將傳統的主觀性的數據質量評估轉化為對模型能力的貢獻大小,通過“預測強度”指標,量化評估數據在不同能力上的價值;
- 泛化性
- 篩選的正樣本不僅覆蓋高質量內容來源,同時具備良好的多樣性,避免過度集中于某一領域、來源或風格;
- 輕量級
- 通過fastText分類器近似打分,大幅降低計算成本,使得該方法可以高效應用于大規模數據篩選任務中;
- 高細粒度
- 支持樣本級別的篩選
- 支持特定細分能力維度的數據篩選
△PreSelect方法與現有SOTA方法的對比,數據效率提升10倍
PreSelect:壓縮即智能
“壓縮即智能”(compression represents intelligence)這一觀點揭示了一個核心現象:大模型對數據的壓縮能力(例如BPC, bits per character)與其在該數據上的歸一化Loss存在等價關系,且與模型在下游任務中的表現高度相關。
換言之,模型越能高效壓縮數據,模型能力或智能水平越高。
核心思想
PreSelect團隊提出以數據預測強度(Predictive Strength)作為衡量模型loss與下游任務(benchmark)表現一致性的指標,其計算公式如下:
- N代表模型數量,這些模型在benchmark的得分 {S1 < S2 < … < SN}
- C代表模型在數據集d上的歸一化loss,即BPC
- Z為歸一化因子
- I{}為指示函數
- S取值范圍 [0,1]
當S=1 時,表示不同模型在benchmark上的得分排序與其在該數據上的loss排序完全一致,說明該數據具有很高的預測強度;相反,當S=0時,說明兩種排序之間沒有相關性,該數據對下游任務的作用弱,預測強度很低。
根據預測強度的高低對數據進行篩選,優先保留那些使得不同模型在benchmark上的得分排序與在數據上的loss排序更一致的數據。
這類數據對模型能力的貢獻更加顯著,能夠更有效地提升模型效果。
與現有方法相比,該方法具有更堅實的理論基礎,減少了對人工啟發規則的依賴,篩選過程更客觀、更具有泛化性。
系統框架
計算預測強度需要多個模型分別對數據樣本計算loss,全量數據計算的成本將非常高。
為解決這一問題,使用fastText打分器作為代理模型近似預測強度,從而顯著降低計算成本。
整體流程如下:
訓練效果
PreSelect團隊從RefinedWeb數據集中隨機抽取80B、300B和1T tokens作為基礎數據,評估不同篩選方法的效果。篩選比例設置為10%和30%,篩選后的數據量級包括8B、30B、90B和100B。所訓練模型的參數規模包括400M、1B和3B。
實驗對比的篩選方法包括Random、Perplexity Filter、Perplexity Correlation(DD)、Perplexity Correlation(DP)、FineWeb-Edu、DCLM。
在下游17個任務上的實驗結果表明,PreSelect方法篩選出的數據在訓練的模型效果上顯著優于其他方法,對比baseline平均提升了3%,驗證了其有效性。
在C4數據集上,進一步對比多種主流篩選方法,包括Random、DSIR、DsDm、QuRating和MATES,所訓練的模型為Pythia。
實驗結果顯示,PreSelect方法篩選的數據訓練出的模型在多項指標上均優于其他方法。
從已通過人工規則集和多種質量評分模型篩選,并經過不同粒度的文本級和語義級去重的vivo自有Web數據集中,隨機抽取5T tokens作為基礎數據,分別采用PreSelect與Random方法各自篩選10%(即500B tokens),訓練參數規模3B的模型并評估下游任務效果。
實驗結果表明,即使在自有的經過優化處理的數據集上,PreSelect方法依然有顯著的性能提升,展現出其在高質量數據基礎上的增益能力。
經過對不同數據篩選方法所選擇的樣本進行分析,結果表明PreSelect篩選的domain數據更多地采樣了知識、問答和文學領域,更廣泛地覆蓋了高質量來源內容,能夠顯著提升模型在各個領域的效果。
通過對不同數據篩選方法所篩選出的數據長度進行比較,可以看到DCLM 和FineWeb-Edu顯示出明顯的短數據向量和長數據向量趨勢,而PreSelect篩選的數據在長度分布上更接近原始長度分布。表明其在篩選出高質量樣本的同時,有效減少了樣本長度偏差(length bias),具備更好的代表性與覆蓋性。
論文鏈接:https://arxiv.org/abs/2503.00808
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.