99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一句話生成任務專屬LoRA!Transformer作者創業公司顛覆LLM微調

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

告別繁瑣微調,一句話就能生成LoRA?!

由Transformer作者之一Llion Jones聯合創立的明星AI公司SakanaAI,近期推出Text-to-LoRA(T2L),徹底簡化了模型適配流程:



現在,微調大模型時動輒數周的數據集準備、反復調整超參數的復雜流程,可以省了。



使用T2L生成的LoRA在參數壓縮率上可達80%卻僅降1.2%準確率,零樣本場景下更以78.3%的平均準確率超越現有SOTA方法。

可以說,“一句話定制模型”的時代正在開啟,非技術用戶不再需要學習復雜的微調知識,直接用通俗易懂的自然語言就可以完成相應工作。



有網友甚至把它比喻為LLM的一個只有文字描述的私人教練,將會徹底改變游戲規則。



目前該論文已被ICML2025收錄。



詳細內容如下:

從文本到LoRA

LLM在執行特定任務前,都需要先進行適配的LoRA微調,為每個任務單獨訓練低秩矩陣,往往耗費大量計算資源和時間。

研究團隊從人類視覺系統中汲取靈感,即在有限的感官線索下可以實現環境快速適應,并由此構建了能夠動態調制大模型的超網絡架構Text-to-LoRA(T2L)



T2L包含3種架構變體,它們在輸出空間和參數規模上各有不同,具體為:

  • T2L-L:

為每個目標模塊(如注意力層、MLP 層)和網絡層生成完整的 LoRA 權重矩陣。

該架構的參數規模最大,但能靈活適配不同層的特性,適用于需要精細控制每層適配的場景。

  • T2L-M:

按模塊類型(而非具體層)共享輸出空間。對于同一類型的模塊,超網絡僅生成一組共享的LoRA矩陣,并應用于該類型下的所有層。

該架構通過參數共享減少了模型規模,同時保留了模塊類型級別的適配能力,在參數效率和性能之間取得平衡。

  • T2L-S:

為整個模型生成統一的LoRA適配器,不區分模塊類型和層索引。

該架構參數規模最小,適用于計算資源有限或任務需求較通用的場景,通過全局適配實現快速部署。



為了訓練T2L模型,可以采用兩種訓練模式,分別是基于LoRA的重建和跨多個任務的監督微調(SFT)

LoRA重建的核心思想是讓T2L從任務的文本描述中,生成與真實LoRA適配器效果相近的參數,從而最大限度地減少生成適配器和目標適配器之間的重建損失。

這種方法避免了傳統方法中對大量任務數據的依賴,轉而利用已有的LoRA適配器和文本描述構建監督信號,壓縮了現有的LoRAs,但難以進行零鏡頭泛化。

監督微調則是使用任務描述,在任務數據集上直接端到端訓練T2L。這改進了對未知任務的泛化,并能夠根據文本描述生成具有可引導行為的適配器。



針對T2L的適配器壓縮性能,團隊進行了實驗驗證。

通過設置9個不同的NLP任務,將一一對應的LoRA適配器參數壓縮為文本描述的嵌入向量,并通過3種T2L變體分別重建LoRA參數。

實驗發現,重建LoRA與原始LoRA相比,參數規模從15.8M下降為3.2M,壓縮率達80%,但在任務的平均準確率上僅下降了1.2%,證明了壓縮過程中的知識保留能力。

其中,T2L-L在壓縮后性能最接近原始LoRA,而T2L-S壓縮率最高。

T2L能夠實現高效的參數壓縮,可以極大地減少存儲需求,幫助LLM在資源受限環境中進行部署。



團隊還進一步驗證了T2L在零樣本場景下生成LoRA適配器的能力。

構建了12個全新的NLP任務并各自提供自然語言描述,使用T2L生成的對應LoRA適配器直接應用于基礎模型,測試其在標注數據集上的性能。

結果表明,T2L的平均準確率達到了78.3%,顯著高于多任務LoRA的65.1%,和目前最先進的零樣本LoRA路由方法Arrow Routing的72.4%。

其中T2L-L因為能夠為不同層定制參數,在復雜任務中表現最佳,而T2L-S在簡單任務上效率更高,參數規模僅為T2L-L的五分之一,但性能僅下降3.2%

源于超網絡對 “文本語義 - 參數空間” 映射的顯式學習,T2L實現了真正的文本驅動,無需任務數據即可通過自然語言描述生成有效LoRA,這為模型快速適應長尾任務提供了可能。

Transformer作者創業公司

背后的公司Sakana AI,由前谷歌研究人員Llion Jones于2023年7月共同創立。

Llion Jones是著名論文《Attention Is All You Need》的8位核心作者之一,論文中首次提出了Transformer架構,為現代LLM架構奠定了基石。



在谷歌工作期間,他還深度參與NLP、模型架構創新等眾多核心AI項目,例如Prot Trans、Tensor2Tensor等。

而創辦Sakana AI后,他也始終致力于探索超越和補充當前Transformer范式的新路徑,例如他們在去年底推出了用于Transformer的新型神經記憶系統NAMM,今年1月提出的Transformer2可以針對各種任務動態調整權重。



目前公司專注利用自然啟發的方法(如進化計算和集體智能)來開發基礎模型,例如在今年5月他們根據達爾文進化論提出了達爾文哥德爾機(DGM),可以讓AI通過讀取和修改自身代碼來提升編碼性能。



而本篇論文則由Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange共同完成。



Rujikorn Charakorn曾在朱拉隆功大學就讀,目前在VISTEC研究所攻讀博士學位,主要研究方向是深度強化學習、多智能體學習和元學習。

Edoardo Cetin于2023年獲得倫敦國王學院的博士學位,目前是Sakana AI的研究科學家,此前還曾在推特的Cortex團隊、豐田和高盛實習。

而Yujin Tang則博士畢業于東京大學,曾在谷歌工作長達5年,后來于2024年加入Sakana AI。



Robert T. Lange是Sakana AI的研究科學家和創始成員之一,致力于用基礎模型來增強和自動化科學發現過程。

他還主導參與了首個獨立生成學術論文的“AI科學家”項目,還曾在社區引起廣泛熱議。

論文鏈接:https://arxiv.org/abs/2506.06105
代碼鏈接:https://github.com/SakanaAI/Text-to-Lora

參考鏈接:
[1]https://x.com/RobertTLange/status/1933074366603919638
[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main
[3]https://x.com/tan51616/status/1932987022907670591
[4]https://x.com/SakanaAILabs/status/1932972420522230214

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
史無前例!以色列報告:消滅了伊朗革命衛隊空軍的幾乎所有領導人

史無前例!以色列報告:消滅了伊朗革命衛隊空軍的幾乎所有領導人

一種觀點
2025-06-13 21:43:20
小S迎47歲生日,首個生日沒大S陪伴引熱議,她僅6字回應讓人心疼

小S迎47歲生日,首個生日沒大S陪伴引熱議,她僅6字回應讓人心疼

扒蝦侃娛
2025-06-14 20:24:16
中美談完后,美國媒體失了魂,集體指責特朗普:7年日子白過了…

中美談完后,美國媒體失了魂,集體指責特朗普:7年日子白過了…

靚仔情感
2025-06-14 19:21:40
羅帥宇墜亡案仍在調查 父親:有人想用1500萬封口

羅帥宇墜亡案仍在調查 父親:有人想用1500萬封口

看看新聞Knews
2025-06-13 20:58:02
網壇傳奇格拉芙56歲生日快樂

網壇傳奇格拉芙56歲生日快樂

網球之家
2025-06-14 23:52:01
同樣是演“李善德”,把雷佳音和大鵬放一塊比,差距一目了然!

同樣是演“李善德”,把雷佳音和大鵬放一塊比,差距一目了然!

說說史事
2025-06-14 17:55:10
為啥說現在小孩的年齡是謎?網友:這一代有望恢復秦漢時期的身高

為啥說現在小孩的年齡是謎?網友:這一代有望恢復秦漢時期的身高

解讀熱點事件
2025-06-15 00:05:03
專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

愛下廚的阿釃
2025-06-14 11:20:08
兩年狂撈32億,這對抖音頂流夫婦決定躺平

兩年狂撈32億,這對抖音頂流夫婦決定躺平

野山歷史
2025-06-06 17:29:52
男乒世界第一換人!不是樊振東,更不是王楚欽

男乒世界第一換人!不是樊振東,更不是王楚欽

體壇狗哥
2025-06-13 21:31:00
43歲宗馥莉參加公司大會,瘦20斤穿的很洋氣,眼神堅毅女強人范足

43歲宗馥莉參加公司大會,瘦20斤穿的很洋氣,眼神堅毅女強人范足

娛樂圈圈圓
2025-06-14 09:36:36
哈梅內伊民心盡失,伊朗的神權獨裁該結束了

哈梅內伊民心盡失,伊朗的神權獨裁該結束了

智慧生活筆記
2025-06-14 10:25:08
中國新型混合動力坦克邁入測試階段,機動能力遠超想象!

中國新型混合動力坦克邁入測試階段,機動能力遠超想象!

楊風
2025-06-12 22:20:08
拉加德在北京最新表態!

拉加德在北京最新表態!

占豪
2025-06-14 10:47:04
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

陳博世財經
2025-06-14 14:28:17
實力升級 中國海軍三航母時代即將到來

實力升級 中國海軍三航母時代即將到來

新京報
2025-06-14 15:26:05
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
萬億窟窿堵不住?60天賬期逼出車企真土豪,僅兩家能笑著買單!

萬億窟窿堵不住?60天賬期逼出車企真土豪,僅兩家能笑著買單!

侃故事的阿慶
2025-06-15 00:06:18
38歲莎拉波娃近照大變樣,網壇顏值天花板,退役后情感事業雙豐收

38歲莎拉波娃近照大變樣,網壇顏值天花板,退役后情感事業雙豐收

藝兔體壇
2025-06-13 23:00:15
網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

火山詩話
2025-06-14 08:15:51
2025-06-15 08:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176167關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
教育
數碼
藝術
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

教育要聞

分數之外,孝道滿分:一場高考后的溫情禮贊

數碼要聞

達爾優高校電競賽成都站12進4晉級賽即將燃起!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大邑县| 那坡县| 珠海市| 泽普县| 周至县| 西城区| 都江堰市| 福安市| 百色市| 彰化市| 奉贤区| 义乌市| 汶上县| 湖北省| 塘沽区| 五河县| 崇明县| 吉林市| 隆尧县| 佛学| 务川| 吴旗县| 剑川县| 郁南县| 宁津县| 宜兴市| 麟游县| 贵溪市| 神池县| 渭源县| 沅江市| 响水县| 马边| 当雄县| 金堂县| 宁德市| 观塘区| 泗水县| 嘉峪关市| 武陟县| 宁武县|