99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務提高7.2%

0
分享至

RefineX團隊 投稿
量子位 | 公眾號 QbitAI

在噪聲污染嚴重影響預訓練數據的質量時,如何能夠高效且精細地精煉數據?

中科院計算所與阿里Qwen等團隊聯合提出RefineX,一個通過程序化編輯任務實現大規模、精準預訓練數據精煉的新框架。

其核心優勢在于:將專家指導的高質量端到端優化結果,蒸餾為極簡的基于編輯操作的刪除程序



通過這一高精度蒸餾流程,可以訓練出高效可靠的優化模型(refine model),系統地優化語料中的每個實例。

在高效精煉數據的同時,可靠地保留原始文本的多樣性和自然性。

用RefineX凈化后的20B token數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,較原始數據提升7.2%。



大模型的預訓練數據

預訓練數據的質量直接決定了模型的知識深度與推理能力上限。

當互聯網成為海量訓練數據的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標簽、無意義的亂碼等,不僅降低數據效用,更可能引發模型幻覺。

然而,大規模的去除這些噪聲來提升預訓練數據的質量是十分困難的,因為同時要兼顧兩個要素:

  • 高效:由于數據規模龐大,精煉必須能夠高效低成本的進行
  • 可靠:精煉應該最大化的保留有價值信息,并不引入額外的模型或人工偏好而破壞原始數據的本質。

傳統數據精煉方案主要集中于規則過濾端到端重寫。但是,規則過濾(如C4/Gopher)只能文檔級粗篩選擇,誤傷高價值內容,且無法做到字符級的精準修正;端到端重寫盡管重寫質量高,但推理成本極高,無法應用于大規模數據。

更危險的是,端到端重寫過程常擅自修改術語與句式從而引入模型偏好的不可控性,如:

  • 原始: “Climate change[廣告] impacts theenvironment”
    重寫: “Climate change impactsecosystems” # 篡改關鍵術語

而RefineX框架受ProX等新興工作的啟發,選擇了一條新的去噪路徑:



上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓練數據構建比較。

ProX的限制在于直接訓練來自專家輸出的噪聲精煉程序,復雜的prompt組合極大增加了這項任務的生成難度,從而降低蒸餾數據質量。

而RefineX在蒸餾數據的處理上進行了創新,將蒸餾數據的構建結構分為兩個明確的階段:首先執行端到端精煉,然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監督程序。

這個兩階段過程產生了顯著更可靠的監督,有效消除了生成過程中引入的過度編輯風險,最終生成一個更有效且更魯棒的精煉模型。

高效可靠的規?;珶?/p>



上圖展示了RefineX的核心工作流程。

RefineX的目標是降低專家模型直接生成用于蒸餾的精煉程序難度,同時盡可能保留端到端輸出中的有效精煉操作。

為實現這兩個目標,RefineX首先在精心設計的指令下提示專家模型生成高質量的精煉文本。然后,將精煉文本與原始輸入進行比較,基于最小編輯距離提取可靠的刪除操作序列。

這些操作被轉換為預定義的程序函數集,作為可信的監督信息來訓練緊湊的精煉模型。

訓練完成后,模型通過推理生成可靠的精煉程序,隨后執行這些程序以高效地在語料庫中執行細粒度精煉。



為徹底規避模型偏好帶來的新增內容或者過度修改的風險,僅保留精煉過程中的刪除操作,RefineX限制程序函數為刪行、刪字符、保留全部。上面是具體的函數定義。

“只刪不改”可以很好得保護原始文本,使拼寫偏差等非關鍵缺陷得以保留——它們將在預訓練中被數十萬億token自然中和,而不會污染數據的多樣性本質。

另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質量數據,將可靠的刪除操作與預定義好的函數對齊,和原文本組成文本-程序對用于優化模型的訓練。

RefineX使用動態分塊機制來保持長上下文的內容捕獲,提升模型的長上下文處理能力。

論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉,消耗萬卡小時來處理得到大約200萬個高質量蒸餾樣本,用于訓練0.6B的Qwen-3-Base模型作為優化模型。

較小的參數量可以實現較高的推理速度保證精煉的高效性,嚴謹的蒸餾數據處理方法保證了優化模型的可靠性。

從頭預訓練實驗

為了評估優化數據對模型性能的影響,RefinX團隊使用每種方法優化后的語料庫,從頭開始預訓練不同規模的LLMs,并在下游任務中評估它們。





結果顯示,盡管在不同任務中表現最佳的變體可能來自不同的數據源,RefineX在每個單獨的任務上都取得了最佳結果。

當用RefineX凈化后的20Btoken數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,比原始數據提高了+7.2%,比Comb提高了+5.9%,甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。

在數據效率的改善上,模型使用10B凈化token的表現超越其使用20B傳統過濾數據的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓練單文本的token開銷,從而在訓練token總數限制下讓模型預訓練考慮更加多樣的文本。



無論是對原始數據進行改進還是對先前過濾的數據集進行改進,使用RefineX訓練的模型始終在平均得分上獲得最高分,并贏得最多任務。

有效提升文本質量

論文使用文本質量打分器DataMan來對收集的混亂的文本數據進行預分類,并觀察精煉前后的質量變化。





可以看到,在文本質量層面,RefineX對低質內容的改善率高達42.2%,且嚴格保持“零新增詞匯”,杜絕了任何幻覺風險。而端到端方案雖提升率更高,卻以每千token新增15個外部詞匯為代價,埋下了語義篡改的隱患。

RefineX提供了一個可靠又高效的大規模預訓練數據細化的新范式。真正的數據凈化不是重塑文本,而是以最小干預剝離噪聲,讓知識的原初脈絡自由呼吸。

arxiv:https://arxiv.org/abs/2507.03253
huggingface:https://huggingface.co/papers/2507.03253
github:https://github.com/byronBBL/RefineX

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
正式回歸?快船官宣簽下保羅 但他和比爾的球衣號碼均尚未確定

正式回歸?快船官宣簽下保羅 但他和比爾的球衣號碼均尚未確定

直播吧
2025-07-22 07:15:04
初中情侶上課傳紙條,內容堪比Av劇情!固定時間色色,還能放手指

初中情侶上課傳紙條,內容堪比Av劇情!固定時間色色,還能放手指

社會醬
2025-07-21 17:35:01
女籃出現“偷笑門”!多名隊員哭了,她卻嬉笑,球迷:沒心沒肺

女籃出現“偷笑門”!多名隊員哭了,她卻嬉笑,球迷:沒心沒肺

南海浪花
2025-07-22 10:19:17
被大鵬按在地上摩擦?姜文新片創下生涯最差,觀眾不吃這一套了

被大鵬按在地上摩擦?姜文新片創下生涯最差,觀眾不吃這一套了

得得電影
2025-07-21 18:21:49
喜訊!首個補發上調養老金省份出爐,黑龍江未發先補,有補590多

喜訊!首個補發上調養老金省份出爐,黑龍江未發先補,有補590多

興史興談
2025-07-22 11:17:30
宗慶后三弟宗澤后深夜發聲:宗馥莉把自己打造成一個忍辱負重復仇的女神,將娃哈哈業務轉向由她100%掌控的宏勝公司是否算“掏空娃哈哈公司”

宗慶后三弟宗澤后深夜發聲:宗馥莉把自己打造成一個忍辱負重復仇的女神,將娃哈哈業務轉向由她100%掌控的宏勝公司是否算“掏空娃哈哈公司”

金融界
2025-07-22 10:47:40
德赫亞:我曾狠狠撞梅西他卻紋絲不動,誰能像他和C羅20年如一?

德赫亞:我曾狠狠撞梅西他卻紋絲不動,誰能像他和C羅20年如一?

直播吧
2025-07-22 10:26:44
宗澤后又曝大瓜,宗馥莉結過婚,前夫身份不簡單,網友反應一邊倒

宗澤后又曝大瓜,宗馥莉結過婚,前夫身份不簡單,網友反應一邊倒

查爾菲的筆記
2025-07-21 19:02:15
千萬粉絲網紅“不露臉”開演唱會,票價268元到968元,主辦方回應:全程戴面具,保證不假唱

千萬粉絲網紅“不露臉”開演唱會,票價268元到968元,主辦方回應:全程戴面具,保證不假唱

環球網資訊
2025-07-21 15:09:01
伊朗:沒有停止鈾濃縮項目!特朗普:如有必要,美國還會再次摧毀伊朗核設施!英法德三國警告

伊朗:沒有停止鈾濃縮項目!特朗普:如有必要,美國還會再次摧毀伊朗核設施!英法德三國警告

每日經濟新聞
2025-07-22 09:59:10
再見了,陳佩斯,再見了,姜文,中國電影已告別“老年導演”時代

再見了,陳佩斯,再見了,姜文,中國電影已告別“老年導演”時代

小丸子的娛樂圈
2025-07-20 17:20:20
事情壞就壞在國際奧委會當年中國舉辦奧運會國際奧委會的委員們

事情壞就壞在國際奧委會當年中國舉辦奧運會國際奧委會的委員們

老友科普
2025-07-22 08:24:10
中紀委再劃紅線!黨員干部“八小時外”100條禁令正式發布!

中紀委再劃紅線!黨員干部“八小時外”100條禁令正式發布!

羅源縣人民檢察院
2025-07-21 20:47:37
特朗普:”烏克蘭,進攻!美國新武器抵達烏克蘭的速度快得多!

特朗普:”烏克蘭,進攻!美國新武器抵達烏克蘭的速度快得多!

霹靂炮
2025-07-21 22:55:15
中朝邊界藏著心酸:天池割掉一半,圖們江被掐斷,鴨綠江出不了海

中朝邊界藏著心酸:天池割掉一半,圖們江被掐斷,鴨綠江出不了海

大道微言
2025-07-21 16:05:56
娃哈哈的繼承者們重回談判桌

娃哈哈的繼承者們重回談判桌

巨頭財經
2025-07-21 14:50:34
姜文怎么也沒想到,不愛學習的兒子姜太郎,已經開始為他爭光了

姜文怎么也沒想到,不愛學習的兒子姜太郎,已經開始為他爭光了

白面書誏
2025-07-21 13:43:38
廣東發生一級甲等事故,16歲男孩胃腸疾病住院,醫院延誤手術導致死亡!省市兩級鑒定結果相反,該聽誰的?

廣東發生一級甲等事故,16歲男孩胃腸疾病住院,醫院延誤手術導致死亡!省市兩級鑒定結果相反,該聽誰的?

醫客
2025-07-21 13:06:26
歐盟兩位主席本周四訪華

歐盟兩位主席本周四訪華

環球時報國際
2025-07-22 09:28:05
上海千億集團暴雷!要求員工“裸辭”不賠錢,老板早已攜款跑路

上海千億集團暴雷!要求員工“裸辭”不賠錢,老板早已攜款跑路

奧字侃娛
2025-07-21 16:33:52
2025-07-22 12:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10899文章數 176192關注度
往期回顧 全部

科技要聞

洋老板"認慫"放權,合資電車終于能打了?

頭條要聞

母親在泰國游玩被大樹砸中身亡 同行女兒崩潰發帖求助

頭條要聞

母親在泰國游玩被大樹砸中身亡 同行女兒崩潰發帖求助

體育要聞

兩度身患癌癥,她完成了一次不可能的撲救

娛樂要聞

甜馨點贊賈乃亮不是好丈夫評論?

財經要聞

白宮力推的5000億美元AI計劃陷僵局

汽車要聞

看著像保時捷?賓利首款純電動車諜照曝光

態度原創

家居
教育
藝術
公開課
軍事航空

家居要聞

其樂融融 重構溫馨狀態

教育要聞

臨床醫學也開始沒落了?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美客機空中險與美軍B-52轟炸機相撞

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 白河县| 广水市| 西宁市| 香河县| 荣成市| 博兴县| 治县。| 漳平市| 建德市| 东丽区| 曲阜市| 长宁县| 五指山市| 日喀则市| 尖扎县| 武定县| 丰县| 肥乡县| 尖扎县| 东乡族自治县| 镇宁| 乐陵市| 长寿区| 都安| 达尔| 略阳县| 洪江市| 南丹县| 墨玉县| 延吉市| 辽阳县| 英山县| 通城县| 云浮市| 永靖县| 崇礼县| 阿鲁科尔沁旗| 左云县| 石台县| 龙南县| 乳山市|