99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ICLR 2025 Oral | 訓練LLM,不只是多喂數據,PDS框架給出最優控制理論選擇

0
分享至

大語言模型(LLMs)在自然語言任務中取得顯著進展,但其訓練資源和數據成本快速增長,面臨高質量語料匱乏和預算上升的挑戰。為此,清華大學、北京大學聯合微軟亞洲研究院提出了PMP-based Data Selection(PDS)方法,首次將數據選擇建模為最優控制問題,基于龐特里亞金最大值原理(PMP)推導出理論條件,明確了“哪些數據更值得學”。PDS算法框架在大規模語料中高效運行,實驗表明其可在不修改訓練框架的前提下實現2倍加速,顯著優于現有方法,減少1.8倍數據需求,提升數據利用效率。該成果為模型訓練提供新視角,已被ICLR 2025接收并入選口頭報告。

近年來,大語言模型(LLMs)在自然語言理解、代碼生成與通用推理等任務上取得了顯著進展,逐步成為通用人工智能的核心基石。然而,訓練此類模型所需的計算資源和數據成本正以驚人的速度增長。面對高質量語料日益枯竭、訓練預算持續上升的雙重挑戰,如何以更少的資源實現更高效的學習,成為當前語言模型發展的關鍵問題。

針對這一挑戰,清華大學、北京大學聯合微軟亞洲研究院,提出了一種全新的預訓練數據選擇范式 ——PMP-based Data Selection(PDS)。該方法首次將數據選擇建模為一個最優控制問題,并基于經典的龐特里亞金最大值原理(PMP)推導出一組理論上的必要條件,為預訓練階段中 “哪些數據更值得學” 提供了明確的數學刻畫

在理論基礎之上,研究團隊設計了可在大規模語料中高效運行的 PDS 算法框架,并在多個模型規模和任務設置中進行了系統驗證。實驗結果表明:

  • PDS 在不修改模型訓練框架的前提下,通過一次離線選擇,即可實現訓練加速達 2 倍;

  • 在多項下游任務中,PDS 顯著優于現有數據選擇方法,且對大模型訓練具有良好的泛化能力

  • 在數據受限條件下,PDS可減少約 1.8 倍的訓練數據需求,提升數據利用效率。

PDS 不僅在實際效果上具備顯著優勢,更重要的是,它建立了一套以控制論為基礎的數據選擇理論框架,為理解預訓練動態、提升模型可解釋性與可控性提供了全新視角。目前,該成果已被機器學習頂級會議 ICLR 2025 正式接收,并入選口頭報告(Oral, top 1.8%)。


論文標題: Data Selection via Optimal Control for Language Models 論文地址: https://openreview.net/forum?id=dhAL5fy8wS 開源代碼: https://github.com/microsoft/LMOps/tree/main/data_selection
一、研究背景:訓練大模型,不只是 “多喂數據” 這么簡單

近年來,大語言模型(LLM)不斷刷新下游任務性能的記錄。但與此同時,一個關鍵問題也日益突出:訓練這些模型所需的數據和計算資源呈指數級增長。面對海量的互聯網文本,如何挑選 “更有價值” 的數據,成為提升模型效率與性能的關鍵一步。

現有的數據選擇方法大多依賴啟發式規則,如去重、n-gram 匹配、影響函數等,缺乏理論指導,效果難以穩健推廣。而另一方面,部分方法嘗試利用訓練過程中的反饋動態進行在線數據篩選,卻需修改訓練流程、增加訓練時的計算開銷,實用性有限。

這項工作跳出常規視角,借助控制論中經典的龐特里亞金最大值原理(Pontryagin’s Maximum Principle, PMP),首次將數據選擇建模為一個可解析的最優控制問題,為理解和實現最優數據選擇提供了系統的數學框架,并基于此框架設計出了一套離線數據選擇算法,在不增加訓練開銷的情況下提升性能。

二、理論創新:數據選擇是一個 “控制” 問題

作者們提出,將訓練過程看作一個動態系統,數據的選擇權重作為控制變量,模型參數作為系統狀態,而最終下游任務的表現則是目標函數。在這個框架下,預訓練的每一步都對應狀態的變化,而合理分配每條數據的 “重要性權重”γ,即是在有限預算下尋找最優控制策略。基于經典的龐特里亞金最大值原理(PMP),他們進一步推導出最優數據選擇策略所需滿足的必要條件(PMP 條件)。根據此條件來選擇數據可以很大程度上保證選擇結果的最優性


圖 1: PMP 條件的圖形化解釋

PMP 條件最關鍵的思想是:給出了最優的訓練樣本應該具有的梯度方向( ,如上左圖所示),并選擇那些梯度方向與最優梯度高度一致的數據點,在數學上表現為梯度與 的內積最大(如上右圖所示)。

該理論的核心價值在于:它不僅提供了選擇高質量數據的明確準則,而且揭示了目標任務性能、模型訓練動態與最優數據選擇之間深層次的聯系

三、算法設計:構建高效實用的 PDS 框架

為了將理論應用于實際的大規模語言模型訓練,作者設計了 PMP-Based Data Selection (PDS) 算法框架,如下圖所示:


圖 2: PDS 數據選擇框架

該算法分三步進行:

  1. 在代理環境中解 PMP 方程組:在一個小規模代理模型(如 160M 參數)和代理數據集(如 0.2B tokens)上迭代求解 PMP 方程組,得到代理數據集上的最優數據選擇策略 γ*;

  2. 訓練數據打分器(data scorer):用一個小模型在代理數據集上擬合 γ*,根據輸入樣本輸出其質量分數,然后為全量數據集打分;

  3. 選擇高質量數據用于大模型訓練:根據打分結果,對于任意的數據閾值(如 50%),選擇得分較高的樣本,用于訓練目標模型。

該方法完全離線進行,僅需運行一次,即可支持任意規模模型訓練,且無需修改已有訓練框架,對于高度優化的預訓練代碼來說,只用更換數據源,具有高度實用性與工程友好性。

四、實驗效果

在實驗中,作者基于 Redpajama CommonCrawl 中 125B token 的數據,使用 PDS 方法選出其中 50B tokens 用于訓練 160M 至 1.7B 規模的語言模型。評估任務覆蓋 9 個主流下游以及語言建模任務。

4.1 性能提升

在不同模型規模下,PDS 訓練出的模型在 9 個下游任務上的整體性能優于隨機選擇(Conventional)、RHO-Loss、DSIR、影響函數(IF-Score)等方法,并且性能提升趨勢隨著模型規模的擴大依然可以保持:



圖 3: PDS 和其他數據選擇方法的性能對比。

此外,如下左圖,PDS 方法訓練出來的模型在高質量語料(如 DCLM)上的語言建模性能也顯著優于隨機選擇。如下表,使用語言模型的擴展定律外推到 GPT-3,Llama 系列模型的訓練規模之后,PDS 的性能優勢依然明顯。



圖 4: PDS 方法訓練出的模型在語言建模任務上的性能 4.2 訓練加速

如下圖,在達到同等下游任務性能的情況下,PDS 能將 1.7B 模型的訓練 FLOPs 減少約一半。值得注意的是,PDS 中對 PMP 條件的求解都是在預訓練階段離線完成的,從而避免了引入訓練時開銷。


圖 5: PDS 對于模型預訓練的加速效果 4.3 數據利用率提升

作者們通過實驗證明,在數據受限場景下,使用 PDS 選擇一部分高質量數據并進行多輪訓練,要好于使用原始數據進行一輪訓練。如下圖,圖中藍線表示使用原始數據進行 1 輪訓練,而橙色線、綠色線、紅色線分別表示使用 PDS 選擇原始數據的 50%,25% 和 12.5%,并進行 2 輪,4 輪和 8 輪的訓練,從而保證總體訓練 token 數一致。可以看到,使用 PDS 選擇質量較高的 25% 數據表現最好,由此說明 PDS 提升了數據有限情況下模型的性能,即提升了數據利用率,緩解了 “數據枯竭” 問題。


圖 6: 數據有限情況下的數據選擇 五、未來展望:為 “數據驅動的 AI” 構建理論框架

當前大模型的預訓練過程仍高度依賴經驗與啟發式規則,模型如何學習、數據如何影響學習的機制長期處于 “黑箱” 之中。本工作通過最優控制理論建立起數據選擇與訓練動態之間的數學聯系,為理解預訓練數據的價值提供了理論抓手。

這一方向不僅有望替代傳統依賴直覺與試驗的數據篩選流程,也為未來自動化、可解釋的大模型訓練打開了新思路。作者們相信,圍繞 “如何選擇學什么” 這一核心問題建立理論體系,將成為推動AI 從經驗工程走向科學建模的關鍵一步。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統:12天戰爭結束 重建工作開啟

伊朗總統:12天戰爭結束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

藝術
時尚
家居
健康
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

家居要聞

木質簡約 空間極致利用

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沭阳县| 彰化市| 铁岭市| 扎鲁特旗| 昭平县| 门源| 商河县| 蒲江县| 临潭县| 广西| 肥东县| 儋州市| 峨眉山市| 平利县| 南木林县| 江城| 邯郸市| 柏乡县| 体育| 资讯 | 射洪县| 工布江达县| 乌鲁木齐县| 永丰县| 东山县| 公主岭市| 五大连池市| 子洲县| 炉霍县| 安陆市| 乐陵市| 宁波市| 得荣县| 镶黄旗| 永登县| 绥芬河市| 都江堰市| 溧水县| 基隆市| 咸丰县| 漳浦县|