99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

告別盲選LLM!ICML 2025新研究解釋大模型選擇的「玄學」

0
分享至



本文第一作者為 Virginia Tech 計算機系博士 Candidate 曾欣悅,研究聚焦于提升大語言模型的理論可解釋性與實證性能,以增強其在實際應用中的可靠性與泛化能力(個人主頁:https://susan571.github.io/)。通訊作者為周大為助理教授。

還在為海量 LLM 如何高效選型而頭疼?還在苦惱資源有限無法窮盡所有微調可能?來自弗吉尼亞理工大學的最新研究,提出 LensLLM 框架,不僅能精準預測大模型微調性能,更大幅降低計算成本,讓 LLM 選型不再是 “開盲盒”!



  • 論文名稱:LensLLM: Unveiling Fine-Tuning Dynamics for LLM Selection
  • 作者:Xinyue Zeng, Haohui Wang, Junhong Lin, Jun Wu, Tyler Cody, Dawei Zhou
  • 所屬機構:Department of Computer Science, Virginia Tech, Blacksburg, VA, USA 等
  • 開源地址:https://github.com/Susan571/LENSLLM
  • 論文鏈接:https://arxiv.org/abs/2505.03793

一、前言:

LLM 狂飆突進,選型為何成了 “瓶頸”?

大語言模型(LLMs)的浪潮席卷全球,從機器翻譯、文本摘要到智能問答和對話系統,它們正以驚人的速度重塑著自然語言處理的邊界。然而,當開源 LLM 如雨后春筍般涌現,例如 LLaMA、Falcon、Mistral 到 DeepSeek,如何在這片模型 “森林” 中找到最適合特定下游任務的那一棵 “參天大樹”,卻成了擺在研究者和開發者面前的巨大挑戰。傳統的模型選擇方法,面對 LLM 的龐大規模和復雜性,往往耗費巨大計算資源卻收效甚微,且泛化能力不足,如同在黑暗中摸索,充滿不確定性。

二、LENSLLM 理論突破:

PAC - 貝葉斯泛化界限揭示微調深層動力學

為了打破這一 “瓶頸”,來自弗吉尼亞理工大學的研究團隊,通過深邃的理論洞察,提出了一項突破性的理論框架 ——LensLLM。他們的研究基于全新的 PAC - 貝葉斯泛化界限(PAC-Bayesian Generalization Bound),首次從理論上揭示了 LLM 微調過程中測試損失(TestLoss)隨訓練數據量(TrainSize)變化的獨特 “相變” 動力學。



在此基礎上,研究團隊進一步推導出推論 1,將泛化界限簡化為:









圖 1:LLM 微調過程中測試損失 L 隨訓練數據量 D 變化的相變現象。低數據量階段為預冪律相,高數據量階段為冪律相,兩者之間存在明顯的轉折點。

三、LENSLLM:

NTK 驅動的 “透視眼”,精準預測性能

基于對微調相變機制的深刻理論理解,研究團隊重磅推出了 LensLLM 框架 —— 一個革命性的 NTK(NeuralTangentKernel)增強型修正縮放模型。LensLLM 巧妙地將 NTK 引入,以更精準地捕捉 transformer 架構在微調過程中的復雜動態,有效表征了預訓練數據對性能的影響。值得強調的是,LensLLM 的理論嚴謹性是其核心優勢之一。它不僅提供了經驗觀察的理論解釋,更在數學上建立了模型性能與數據量之間的精確關聯,為 LLM 選型提供了堅實的理論支撐,而非僅僅依賴于經驗擬合。

核心優勢一:卓越的曲線擬合與預測能力

LensLLM 在曲線擬合和測試損失預測方面展現出令人印象深刻的準確性。在 FLAN、Wikitext 和 Gigaword 三大基準數據集上,LensLLM(藍色方塊)的表現始終優于基準模型(Rectified Scaling Law)(紅色三角形),能更平滑、更準確地追蹤實際測試損失曲線,且誤差帶(RMSE Band)更小,表明其預測結果更為穩定。



圖 2:LensLLM(藍色方塊)在 FLAN、Wikitext 和 Gigaword 數據集上對 OPT-1.3b、GPT-2 和 T5-base 模型性能的曲線擬合效果。LensLLM 的 RMSE 值顯著低于 Rectified Scaling Law(紅色三角形),誤差帶更窄,表明其預測更穩定準確。

此外,通過 RMSE 對比預測損失和實際損失,LensLLM 的誤差顯著更低,例如在 Wikitext 數據集上,LensLLM 的誤差通常是 Rectified Scaling Law 的 5 倍之小(例如,OPT-6.7B:0.026vs0.132;mT5-Large:0.028vs0.144)。在 FLAN 數據集上,LensLLM 保持低 RMSE(0.022-0.035),而 Rectified Scaling Law 的 RMSE 較高(0.087-0.15)。在 Gigaword 數據集上,LensLLM 的性能始終低于 0.036,而 Rectified Scaling Law 的 RMSE 在 0.094-0.146 之間波動。這些結果在三個數據集和十四種架構上證實了 LensLLM 在預測訓練動態方面的卓越準確性。



表格 2: 預測測試損失與實際測試損失方面的均方根誤差(RMSE)對比(×10-1).

核心優勢二:更準、更快地選出 “最優解”

LensLLM 在 LLM 選型任務中也展現了壓倒性的優勢。在 FLAN、Wikitext 和 Gigaword 數據集上,LensLLM 在 Pearson 相關系數(PearCorr)和相對準確率(RelAcc)兩項關鍵指標上均取得最高分。例如,在 Gigaword 數據集上,LensLLM 實現了高達 85.8% 的 PearCorr 和 91.1% 的 RelAcc。這意味著 LensLLM 能夠更有效地對模型進行排名,并選出性能接近最優的模型。





圖 3:LensLLM 在 FLAN、Wikitext 和 Gigaword 數據集上的 Pearson 相關系數和相對準確率表現。LensLLM(最右側深藍色條形)在所有數據集上均顯著優于 Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot 和 ModelSize 等基線方法,展現了其在模型選型中的卓越能力。

更令人振奮的是,LensLLM 在保持高精度的同時,極大地降低了計算成本。與 FullTuning 相比,LensLLM 能夠將計算成本降低高達 88.5%!LensLLM 在各項任務中的計算成本分別為 0.48、0.59 和 0.97×1021FLOPs,這大大優于 SubTuning 和 FullTuning。這得益于其創新的漸進式采樣策略,使得 LensLLM 在更低的 FLOPs 消耗下,就能達到卓越的選型性能,讓 LLM 選型真正實現高效與準確的平衡。



圖 4:LLM 選型性能與計算成本的 Pareto - 最優曲線。LensLLM(橙色點)在顯著降低 FLOPs(計算成本)的同時,保持了高水平的 Pearson 相關系數,相較于 Rectified(藍色點)、SubTuning(綠色點)和 FullTuning(紫色點)展現出更優的效率。

四、未來展望:讓 LLM 選型走向更廣闊天地

這項突破性的研究為 LLM 的開發和應用提供了強大的新工具。它將幫助研究者和工程師們更自信、更高效地探索大模型的潛力,讓 LLM 的普及和落地更進一步。LensLLM 的成功,不僅為 LLM 選型建立了新的基準,更開啟了未來的無限可能。研究團隊指出,未來有望將 LensLLM 擴展到多任務場景,探索其對模型架構設計的影響,并將其應用于新興模型架構,例如 MoE(Mixture of Experts)模型。

潛在應用場景:

  • 資源受限環境下的模型部署:LensLLM 的高效性使其特別適用于邊緣設備或計算資源有限的場景,能夠快速篩選出兼顧性能與效率的最佳模型。
  • A/B 測試與模型迭代:在實際產品開發中,LensLLM 可以大大加速新模型的測試與部署周期,降低試錯成本。
  • 個性化 LLM 定制:用戶可以根據自身數據特點和任務需求,快速找到最匹配的 LLM,實現模型性能最大化。

五:結語

面對 LLM 的澎湃發展,LensLLM 猶如一座燈塔,照亮了高效、精準模型選擇的道路。它將終結 LLM 微調的 “玄學”,引領我們進入一個更加 “智能” 和 “高效” 的 LLM 應用新紀元。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兒子704分考清華父親免費為環衛工理發:得知成績激動得一晚沒睡,活動持續一個月

兒子704分考清華父親免費為環衛工理發:得知成績激動得一晚沒睡,活動持續一個月

極目新聞
2025-07-03 16:17:22
20億巨資造了個"鞋墊"?深圳新地標酷似球鞋,網友:透氣孔亮了!

20億巨資造了個"鞋墊"?深圳新地標酷似球鞋,網友:透氣孔亮了!

根基
2025-07-05 00:21:47
又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

葡萄說娛
2025-06-27 15:39:18
B站內部反腐風暴,張某敏被逮捕!

B站內部反腐風暴,張某敏被逮捕!

魏家東
2025-07-04 06:42:53
原來真是你,三年前多家英媒曾報道英超球星強奸20多歲女性

原來真是你,三年前多家英媒曾報道英超球星強奸20多歲女性

懂球帝
2025-07-04 22:34:10
關于假金條案,網友們正在見證一出前恭后倨的好戲

關于假金條案,網友們正在見證一出前恭后倨的好戲

清暉有墨
2025-07-04 13:56:03
湖南航空技師學院原院長陳大雄被決定逮捕,曾因違反中央八項規定精神兩次被通報

湖南航空技師學院原院長陳大雄被決定逮捕,曾因違反中央八項規定精神兩次被通報

魯中晨報
2025-07-04 16:59:04
勇記轉發霍福德與勇士達成協議推文:上次得到這樣的人也是7月4日

勇記轉發霍福德與勇士達成協議推文:上次得到這樣的人也是7月4日

直播吧
2025-07-05 00:31:05
黃一鳴:王思聰每次約她都給10萬車費來5回5。網友:確定是車費?

黃一鳴:王思聰每次約她都給10萬車費來5回5。網友:確定是車費?

胡一舸北游
2025-06-25 13:16:13
托馬斯被指控強奸!電訊報:阿森納知道情況&近3年仍安排球員上場

托馬斯被指控強奸!電訊報:阿森納知道情況&近3年仍安排球員上場

直播吧
2025-07-04 22:12:19
男子冒充外賣員入戶,與女主播發生6次關系,女子哭訴:還帶道具

男子冒充外賣員入戶,與女主播發生6次關系,女子哭訴:還帶道具

書畫藝術收藏
2025-07-02 19:10:03
維尼修斯:我始終記得C羅給我的建議,他總告訴我進球很簡單

維尼修斯:我始終記得C羅給我的建議,他總告訴我進球很簡單

懂球帝
2025-07-05 01:03:04
放棄2年2340萬!重簽3年1410萬!再見了約基奇,NBA只是一門生意

放棄2年2340萬!重簽3年1410萬!再見了約基奇,NBA只是一門生意

世界體育圈
2025-07-04 13:27:31
自造稀土變國際笑話!印度82%純度 撞墻中國99.99% 500億或打水漂

自造稀土變國際笑話!印度82%純度 撞墻中國99.99% 500億或打水漂

軍機Talk
2025-07-04 11:04:40
溫州一男子參加徒步團走失,4天后遺體被發現,知情人:同學介紹來參加活動

溫州一男子參加徒步團走失,4天后遺體被發現,知情人:同學介紹來參加活動

極目新聞
2025-07-04 21:38:29
詹皇心腹叛變!靈魂拷問勒布朗為何不降5000萬,難怪湖人不慣著他

詹皇心腹叛變!靈魂拷問勒布朗為何不降5000萬,難怪湖人不慣著他

嘴炮體壇
2025-07-04 19:17:07
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀實文錄
2025-06-21 14:47:10
南航機長刑案最新!妻子發聲曝丈夫留言,同行揭考核內幕:太恐怖

南航機長刑案最新!妻子發聲曝丈夫留言,同行揭考核內幕:太恐怖

跳跳歷史
2025-07-04 10:19:14
硬氣!瓦蘭放棄1000萬回歐洲 也不去掘金給約基奇打替補 為了啥?

硬氣!瓦蘭放棄1000萬回歐洲 也不去掘金給約基奇打替補 為了啥?

老王大話體育
2025-07-04 23:45:58
為啥有些國家喜歡閱兵,有些國家卻不太喜歡閱兵呢?

為啥有些國家喜歡閱兵,有些國家卻不太喜歡閱兵呢?

翻開歷史和現實
2025-07-04 14:01:40
2025-07-05 08:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10788文章數 142353關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

旅游
家居
親子
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

合理布局 三口之家的溫馨空間

親子要聞

卡西米爾正姿筆破價了

數碼要聞

999 元,JBL 首款開放式運動耳機 Endurance Zone 上市

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 遂川县| 图木舒克市| 顺平县| 景东| 兴业县| 丽水市| 郓城县| 铜川市| 滦南县| 嘉义市| 怀来县| 彝良县| 榕江县| 玉林市| 夏邑县| 象山县| 乌拉特前旗| 广丰县| 永嘉县| 堆龙德庆县| 文安县| 嘉峪关市| 云南省| 双牌县| 如东县| 临沭县| 墨竹工卡县| 濮阳市| 巴林右旗| 晋宁县| 台南县| 高要市| 朝阳市| 凯里市| 察哈| 西乌| 曲松县| 汉源县| 浮梁县| 玛沁县| 阳西县|