99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全新數據篩選方案,數據效率提升10倍!配置僅需fastText評分器

0
分享至

PreSelect團隊 投稿
量子位 | 公眾號 QbitAI

vivo自研大模型用的數據篩選方法,公開了。

香港科技大學和vivo AI Lab聯名提出PreSelect,目前已被ICML 2025接收。

這是一種輕量級且高效的數據選擇方法:只需要訓練和部署一個基于fastText的評分器,就可以減少10倍的計算需求。

該方法提出數據的預測強度(Predictive Strength) 的概念和計算公式,利用在不同模型上Loss有序性表征數據對特定能力的貢獻,通過獲取特定能力的有效樣本訓練fastText分類器對全量訓練數據進行篩選。

△論文標題:Predictive Data Selection: The Data That Predicts Is the Data That Teaches

PreSelect:更客觀、更輕量

現有的數據篩選方法主要分為兩類:基于規則的篩選和基于模型的篩選。

基于規則的篩選依賴人工構建的先驗規則,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的數據篩選流程。此類方法雖然實現簡單,但容易受到人工經驗的限制,存在泛化能力弱或規則主觀性強的問題。

基于模型的篩選則通過訓練模型對數據分類或打分以篩選樣本,如CC Net采用困惑度(Perplexity)打分,FineWeb-Edu利用Bert分類器評估教育價值,DsDm和MATES計算樣本的influence score,DCLM利用 fastText打分器評估樣本與SFT數據的相似性。這類方法常面臨計算成本高或者引入主觀偏見等問題。

而PreSelect方法具有以下優勢:

  • 客觀性
  • 將傳統的主觀性的數據質量評估轉化為對模型能力的貢獻大小,通過“預測強度”指標,量化評估數據在不同能力上的價值;
  • 泛化性
  • 篩選的正樣本不僅覆蓋高質量內容來源,同時具備良好的多樣性,避免過度集中于某一領域、來源或風格;
  • 輕量級
  • 通過fastText分類器近似打分,大幅降低計算成本,使得該方法可以高效應用于大規模數據篩選任務中;
  • 高細粒度
  • 支持樣本級別的篩選
  • 支持特定細分能力維度的數據篩選

△PreSelect方法與現有SOTA方法的對比,數據效率提升10倍

PreSelect:壓縮即智能

“壓縮即智能”(compression represents intelligence)這一觀點揭示了一個核心現象:大模型對數據的壓縮能力(例如BPC, bits per character)與其在該數據上的歸一化Loss存在等價關系,且與模型在下游任務中的表現高度相關。

換言之,模型越能高效壓縮數據,模型能力或智能水平越高。

核心思想

PreSelect團隊提出以數據預測強度(Predictive Strength)作為衡量模型loss與下游任務(benchmark)表現一致性的指標,其計算公式如下:



  • N代表模型數量,這些模型在benchmark的得分 {S1 < S2 < … < SN}
  • C代表模型在數據集d上的歸一化loss,即BPC
  • Z為歸一化因子
  • I{}為指示函數
  • S取值范圍 [0,1]

當S=1 時,表示不同模型在benchmark上的得分排序與其在該數據上的loss排序完全一致,說明該數據具有很高的預測強度;相反,當S=0時,說明兩種排序之間沒有相關性,該數據對下游任務的作用弱,預測強度很低。

根據預測強度的高低對數據進行篩選,優先保留那些使得不同模型在benchmark上的得分排序與在數據上的loss排序更一致的數據。

這類數據對模型能力的貢獻更加顯著,能夠更有效地提升模型效果。

與現有方法相比,該方法具有更堅實的理論基礎,減少了對人工啟發規則的依賴,篩選過程更客觀、更具有泛化性。

系統框架

計算預測強度需要多個模型分別對數據樣本計算loss,全量數據計算的成本將非常高。

為解決這一問題,使用fastText打分器作為代理模型近似預測強度,從而顯著降低計算成本。

整體流程如下:



訓練效果



PreSelect團隊從RefinedWeb數據集中隨機抽取80B、300B和1T tokens作為基礎數據,評估不同篩選方法的效果。篩選比例設置為10%和30%,篩選后的數據量級包括8B、30B、90B和100B。所訓練模型的參數規模包括400M、1B和3B。

實驗對比的篩選方法包括Random、Perplexity Filter、Perplexity Correlation(DD)、Perplexity Correlation(DP)、FineWeb-Edu、DCLM。

在下游17個任務上的實驗結果表明,PreSelect方法篩選出的數據在訓練的模型效果上顯著優于其他方法,對比baseline平均提升了3%,驗證了其有效性。



在C4數據集上,進一步對比多種主流篩選方法,包括Random、DSIR、DsDm、QuRating和MATES,所訓練的模型為Pythia。

實驗結果顯示,PreSelect方法篩選的數據訓練出的模型在多項指標上均優于其他方法。



從已通過人工規則集和多種質量評分模型篩選,并經過不同粒度的文本級和語義級去重的vivo自有Web數據集中,隨機抽取5T tokens作為基礎數據,分別采用PreSelect與Random方法各自篩選10%(即500B tokens),訓練參數規模3B的模型并評估下游任務效果。

實驗結果表明,即使在自有的經過優化處理的數據集上,PreSelect方法依然有顯著的性能提升,展現出其在高質量數據基礎上的增益能力。



經過對不同數據篩選方法所選擇的樣本進行分析,結果表明PreSelect篩選的domain數據更多地采樣了知識、問答和文學領域,更廣泛地覆蓋了高質量來源內容,能夠顯著提升模型在各個領域的效果。



通過對不同數據篩選方法所篩選出的數據長度進行比較,可以看到DCLM 和FineWeb-Edu顯示出明顯的短數據向量和長數據向量趨勢,而PreSelect篩選的數據在長度分布上更接近原始長度分布。表明其在篩選出高質量樣本的同時,有效減少了樣本長度偏差(length bias),具備更好的代表性與覆蓋性。

論文鏈接:https://arxiv.org/abs/2503.00808

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
漢堡主帥:升入德甲的任務雖已完成,但我們的目標是德乙冠軍

漢堡主帥:升入德甲的任務雖已完成,但我們的目標是德乙冠軍

雷速體育
2025-05-16 21:39:25
廣廈大戰北京G5!許利民變陣棄用3將!打爆第一中鋒,內訌曝光

廣廈大戰北京G5!許利民變陣棄用3將!打爆第一中鋒,內訌曝光

大國侃球
2025-05-16 15:11:06
首輪29順位!楊瀚森再砍11+6+6,美迷:終于有人能對位約基奇了

首輪29順位!楊瀚森再砍11+6+6,美迷:終于有人能對位約基奇了

弄月公子
2025-05-16 10:31:39
大跳水!暴跌70%!

大跳水!暴跌70%!

魯中晨報
2025-05-16 07:15:04
外交部:堅決反對美方對中國芯片產品和人工智能產業 進行惡意封鎖和打壓

外交部:堅決反對美方對中國芯片產品和人工智能產業 進行惡意封鎖和打壓

每日經濟新聞
2025-05-16 16:14:43
二手房成交量大增,所有人都想拋房自救,只有我警告大家準備抄底

二手房成交量大增,所有人都想拋房自救,只有我警告大家準備抄底

大龍哥說房
2025-05-16 11:50:30
下周不回國了,下周離婚

下周不回國了,下周離婚

求實處
2025-05-14 23:33:01
天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

阿坷敘故事
2025-05-15 22:22:33
梅根最新發布:女王的擔憂成真,黑人基因或徹底改變溫莎家族

梅根最新發布:女王的擔憂成真,黑人基因或徹底改變溫莎家族

人物檔案局
2025-05-15 19:58:00
在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

春序娛樂
2025-05-07 10:17:47
20:00預約!每人2枚!10元中國龍幣,中行今晚開約!

20:00預約!每人2枚!10元中國龍幣,中行今晚開約!

天天紀念幣
2025-05-16 09:37:35
4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

腫瘤的真相與誤區
2025-03-09 20:35:22
iPhone 16 Pro成京東618手機銷量王!128GB照樣被國人買爆

iPhone 16 Pro成京東618手機銷量王!128GB照樣被國人買爆

快科技
2025-05-15 11:48:07
29歲失聯小伙杜炎軍已遇難,在峨眉山金頂跳崖,朋友揭露輕生細節

29歲失聯小伙杜炎軍已遇難,在峨眉山金頂跳崖,朋友揭露輕生細節

180°視角
2025-05-16 07:37:47
鹿晗創作新歌歌詞疑回應分手傳聞:我們默契得就連分開都閉口不提

鹿晗創作新歌歌詞疑回應分手傳聞:我們默契得就連分開都閉口不提

魯中晨報
2025-05-16 15:15:26
圓滿!37歲本澤馬奪沙特淘金第一冠,效力過三隊全拿過聯賽冠軍

圓滿!37歲本澤馬奪沙特淘金第一冠,效力過三隊全拿過聯賽冠軍

直播吧
2025-05-16 14:29:15
主政蘇州一年半后,劉小濤任江蘇省委副書記

主政蘇州一年半后,劉小濤任江蘇省委副書記

上觀新聞
2025-05-16 19:49:18
中國為何叫中國?如果連祖國名字由來都不知道,是不是有點尷尬

中國為何叫中國?如果連祖國名字由來都不知道,是不是有點尷尬

界史
2025-05-15 18:11:28
當李雪琴混進古裝劇,和宋祖兒同框時,簡直是降維打擊

當李雪琴混進古裝劇,和宋祖兒同框時,簡直是降維打擊

喵喵娛樂團
2025-05-15 17:17:03
開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

PChome電腦之家
2025-05-16 10:29:50
2025-05-17 00:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10493文章數 176146關注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風暴雨般的質疑

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

教育
手機
房產
數碼
公開課

教育要聞

這道題很是考察同學們的洞察力

手機要聞

曝三星Galaxy Z Fold7改用鈦支撐板,推進輕薄化設計

房產要聞

三年血虧468萬!天河、黃埔網紅盤,跌到底了嗎?

數碼要聞

AMD Zen6架構處理器詳細規格曝光 或以銳龍AI500系列命名發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 紫云| 大新县| 于都县| 政和县| 彭水| 孟连| 绥江县| 淳化县| 双辽市| 南投市| 三明市| 河北区| 辽源市| 印江| 黔西县| 汉沽区| 洛川县| 昆山市| 平湖市| 泗洪县| 泰顺县| 嘉义县| 龙门县| 汕头市| 枣庄市| 海宁市| 嘉黎县| 南江县| 灵宝市| 嵊州市| 定结县| 江源县| 黔南| 安远县| 新民市| 桃园县| 龙陵县| 安庆市| 长宁县| 玉山县| 藁城市|