新智元報道
編輯:定慧 好困
【新智元導讀】最近,來自NUS、UT Austin等機構的研究人員創(chuàng)新性地提出了一種「拖拽式大語言模型」(DnD),它可以基于提示詞快速生成模型參數,無需微調就能適應任務。不僅效率最高提升12000倍,而且具備出色的零樣本泛化能力。
現在的大模型基本都具備零樣本泛化能力,但要在真實場景中做特定的適配,還是得花好幾個小時來對模型進行微調。
即便是像LoRA這樣的參數高效方法,也只能緩解而不能消除每個任務所需的微調成本。
剛剛,包括尤洋教授在內的來自新加坡國立大學、得克薩斯大學奧斯汀分校等機構的研究人員,提出了一種全新的「拖拽式大語言模型」——Drag-and-Drop LLMs!
論文地址:https://arxiv.org/abs/2506.16406
DnD是一種基于提示詞的參數生成器,能夠對LLM進行無需訓練的自適應微調。
通過一個輕量級文本編碼器與一個級聯(lián)超卷積解碼器的組合,DnD能在數秒內,僅根據無標簽的任務提示詞,生成針對該任務的LoRA權重矩陣。
顯然,對于那些需要快速實現模型專業(yè)化的場景,DnD可以提供一種相較于傳統(tǒng)微調方法更強大、靈活且高效的替代方案。
總結來說,DnD的核心優(yōu)勢如下:
極致效率:其計算開銷比傳統(tǒng)的全量微調低12,000倍。
卓越性能:在零樣本學習的常識推理、數學、編碼及多模態(tài)基準測試中,其性能比最強大的、需要訓練的LoRA模型還要高出30%。
強大泛化:僅需無標簽的提示詞,即可在不同領域間展現出強大的泛化能力。
DnD實現方法
通過觀察,研究人員發(fā)現,LoRA適配器無非是其訓練數據的一個函數:梯度下降會將基礎權重「拖拽」至一個特定任務的最優(yōu)狀態(tài)。
如果能夠直接學習從提示到權重的映射,那么就可以完全繞過梯度下降過程。
DnD通過兩個核心步驟獲得「拖拽」能力:準備訓練數據(左上)與訓練參數生成器(右上)。
在準備數據時,將模型參數(權重)與特定數據集的條件(提示詞)進行顯式配對。
在訓練時,DnD模型將條件作為輸入來生成參數,并使用原始的LoRA參數作為監(jiān)督信號進行學習。
基于這些洞見,團隊提出了「拖拽式大語言模型」,它無需微調即可生成任務專屬的權重。
團隊首先在多個不同數據集上分別訓練并保存相應的LoRA適配器。
為了賦予模型「拖拽」的能力,團隊將這些數據集的提示詞與收集到的LoRA權重進行隨機配對,構成DnD模型的訓練數據——即「提示詞-參數」對。
參數生成器是一個由級聯(lián)卷積塊構成的解碼器。
參數生成器的模塊細節(jié)如下:每個超卷積塊包含三個超卷積模塊,用于在不同維度上提取并融合特征信息。
訓練時,團隊采用一個現成的文本編碼器提取提示詞的嵌入向量,并將其輸入生成器。
生成器會預測出模型權重,團隊利用其與真實LoRA權重之間的均方誤差(MSE)損失來對其進行優(yōu)化。
在推理階段,團隊只需將來自全新數據集(訓練中未見過)的提示詞輸入DnD,僅需一次前向傳播,即可獲得為該任務量身定制的參數。
效果評估
零樣本學習效果
在新的(測試)數據集上的泛化能力。
在所有未曾見過的數據集上,DnD在準確率上都顯著超越了那些用于訓練的LoRA模型。
DnD能為數學、代碼和多模態(tài)問答等更復雜的任務生成參數。
在這些任務上依然展現出強大的零樣本學習能力。
DnD在多種任務上超越了基座LLM,展現出顯著的「拖拽」增強效果。
DnD能夠很好地擴展至更大的7B基座模型,并在更復雜的LiveCodeBench基準測試中保持強勁性能。
通過利用已微調的LoRA作為訓練數據,DnD成功地在輸入提示詞與模型參數之間建立了聯(lián)系。
團隊向DnD輸入其訓練階段從未見過的數據集提示詞,讓它為這些新任務直接生成參數,以此來檢驗其零樣本學習能力。
DnD在權重空間中生成的參數與原始參數分布接近,并且在性能上表現良好。
實驗結果表明,在零樣本測試集上,團隊的方法相較于訓練所用的LoRA模型的平均性能,取得了驚人的提升,并且能夠很好地泛化到多種真實世界任務和不同尺寸的LLM。
對比其他微調方法
為了進一步展示DnD的強大能力,團隊將其與全量樣本微調(full-shot tuning)、少樣本學習(few-shot)以及上下文學習(in-context learning)進行了對比。
令人驚訝的是,DnD的性能超越了LoRA全量微調的效果,同時速度快了2500倍。
雖然經過更多輪次的迭代,全量微調的性能會超過DnD,但其代價是高達12000倍的推理延遲。
此外,在樣本數少于256個時,DnD的性能穩(wěn)定地優(yōu)于少樣本學習和上下文學習。
尤其值得注意的是,少樣本學習和上下文學習都需要依賴帶標簽的答案,而DnD僅僅需要無標簽的提示詞。
DnD能夠達到與全量樣本相當甚至更優(yōu)的性能,同時速度提高了2500-12000倍
作者介紹
Zhiyuan Liang
Zhiyuan Liang目前在新加坡國立大學高性能計算人工智能實驗室實習,師從尤洋教授。同時,也得到了Kai Wang博士和Wangbo Zhao的指導。
此前,他在中國科學技術大學獲得人工智能學士學位。并曾在北卡羅來納大學教堂山分校Huaxiu Yao教授的指導下進行實習,以及在中國科學技術大學數據科學實驗室跟著導師Xiang Wang度過了兩年的時光。
他的研究興趣主要集中在高效機器學習與參數生成,希望從權重空間學習的視角,探索實現更高層次智能的有效路徑。
Zhangyang(Atlas) Wang
Zhangyang Wang目前是德克薩斯大學奧斯汀分校錢德拉家族電氣與計算機工程系的終身副教授,并榮膺坦普爾頓基金會第7號捐贈教席。
他同時也是該校計算機科學系以及奧登研究所計算科學、工程與數學項目的核心教員。
他于2016年獲伊利諾伊大學厄巴納-香檳分校電氣與計算機工程博士學位,師從計算機視覺泰斗黃煦濤(Thomas S.Huang)教授;并于2012年獲中國科學技術大學電子工程與信息科學學士學位。
他的研究興趣主要聚焦于為生成式AI與神經符號AI定堅實的理論與算法基礎。
核心目標是創(chuàng)建結構化、模塊化的模型表示:1)在過參數化模型空間中實現高效、魯棒的學習;2)與符號知識及推理進行無縫連接。
Kai Wang
Kai Wang目前是新加坡國立大學HPC-AI實驗室的研究員,接受尤洋教授的指導。
此前,他在新加坡國立大學獲得數據科學與機器學習博士學位,在中國科學院深圳先進技術研究院獲得計算機技術碩士學位,在北京師范大學珠海校區(qū)獲得學士學位。
他的研究方向聚焦于參數生成與高效機器學習,尤其注重通過探索簡潔的基線方法,來深入洞察深度學習的內在機理。
參考資料:
https://jerryliang24.github.io/DnD/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.