99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Transformer2要做「活」的AI模型,動態(tài)調(diào)整權(quán)重,像章魚適應環(huán)境

0
分享至



機器之心報道

機器之心編輯部

自適應 LLM 反映了神經(jīng)科學和計算生物學中一個公認的原理,即大腦根據(jù)當前任務激活特定區(qū)域,并動態(tài)重組其功能網(wǎng)絡(luò)以響應不斷變化的任務需求。

在自然界,「適應」是一種非常普遍的現(xiàn)象。例如,章魚能夠迅速改變自身的膚色和紋理,以融入周圍環(huán)境,從而躲避天敵和捕捉獵物;人腦在受傷后能夠重新連接自身神經(jīng)回路,使個體能夠恢復失去的功能并適應新的思維方式或行動方式。生物體展現(xiàn)出的適應能力使得生命能夠在不斷變化的環(huán)境中蓬勃發(fā)展。

在人工智能領(lǐng)域,適應的概念同樣具有巨大的吸引力。想象一個機器學習系統(tǒng),它能夠動態(tài)地調(diào)整自身的權(quán)重以在陌生的環(huán)境中不斷學習、進化。與部署在環(huán)境中的靜態(tài) AI 模型相比,這種有自適應能力的模型明顯學習效率更高,而且有望成為與現(xiàn)實世界動態(tài)本質(zhì)始終保持一致的終生模型。

日本 AI 初創(chuàng)公司 Sakana AI 的一項成果就是對這一方向的探索。在論文中,他們提出了一種可以根據(jù)不同任務動態(tài)調(diào)整模型權(quán)重的機器學習系統(tǒng) ——Transformer^2。



Transformer^2 這個名稱反映了它的兩步過程:首先,模型分析傳入的任務以了解其要求,然后應用特定于任務的調(diào)整來生成最佳結(jié)果。通過有選擇地調(diào)整模型權(quán)重的關(guān)鍵組成部分,該框架允許 LLM 實時動態(tài)地適應新任務。

Transformer^2 在各種任務(例如數(shù)學、編程、推理和視覺理解)上展示了顯著進步,在效率和特定于任務的性能方面優(yōu)于 LoRA 等傳統(tǒng)靜態(tài)方法,同時需要的參數(shù)少得多。

作者表示,這項研究為人們提供了一個未來 AI 模型不再靜態(tài)的初步展望。這些系統(tǒng)將在測試時動態(tài)地調(diào)整其計算能力,以適應它們所遇到的任務的復雜性,體現(xiàn)出能夠持續(xù)變化和終生學習的「活」的智能。

有人就此展望說,「未來,『預訓練』和『后訓練』之間的界限將會消失,我們的模型和智能體將不斷適應和自我改進。像這樣的系統(tǒng)將為新一代自適應人工智能鋪平道路,這種人工智能能夠修改自身的權(quán)重和架構(gòu),以適應它們在環(huán)境中遇到的任務不斷變化的本質(zhì)。」



  • 論文標題:TRANSFORMER2 : SELF-ADAPTIVE LLMS
  • 論文鏈接:https://arxiv.org/pdf/2501.06252

這篇論文共有三位共同一作,其中兩位是華人。Qi Sun 在東京工業(yè)大學擔任研究助理,同時在 Sakana AI 兼職,研究方向是視覺語言模型的訓練與評估、大規(guī)模合成數(shù)據(jù)生成等。Yujin Tang 曾在谷歌工作多年,現(xiàn)在是 Sakana AI 的研究科學家,研究方向是強化學習和機器人。





論文概覽

自適應大語言模型(LLM)將代表 AI 領(lǐng)域的一個重要進展,提供了一個使模型能夠?qū)崟r適應不同任務和動態(tài)環(huán)境的框架。雖然組合性和可擴展性對于有效適應至關(guān)重要,但當前的 LLM 訓練方法難以同時實現(xiàn)這兩個特性。Sakana AI 的研究旨在提出一個開創(chuàng)性的解決方案來實現(xiàn)這一愿景并解決這些 gap。

傳統(tǒng)上,LLM 后訓練試圖在單次大規(guī)模訓練中優(yōu)化模型的廣泛能力。雖然這種「一次性」微調(diào)框架從簡單性的角度來看是理想的,但在實踐中很難實現(xiàn)。例如,后訓練仍然非常消耗資源,導致巨大的計算成本和超長的訓練時間。此外,在引入額外數(shù)據(jù)廣度時往往存在明顯的性能權(quán)衡,這使得同時克服過擬合和任務干擾變得具有挑戰(zhàn)性。

相比之下,自適應模型提供了更靈活和高效的方法。與其試圖一次性訓練 LLM 完成所有任務,專家模塊可以離線開發(fā)并按需增強到基礎(chǔ) LLM 中。這使模型能夠根據(jù)當前任務動態(tài)修改其行為,而無需不斷重新調(diào)整。除了具有獨立組件的好處外,這種模塊化還支持持續(xù)學習,使模型能夠隨時間增加新技能而不會出現(xiàn)災難性遺忘。此外,自適應 LLM 反映了神經(jīng)科學和計算生物學中一個公認的原理,即大腦根據(jù)當前任務激活特定區(qū)域,并動態(tài)重組其功能網(wǎng)絡(luò)以響應不斷變化的任務需求。

原則上,實現(xiàn)自適應 LLM 的第一步可以通過開發(fā)專門的專家模塊來實現(xiàn),每個模塊都通過 LoRA 等技術(shù)進行微調(diào)。然后這些專家模塊可以根據(jù)任務需求在運行時動態(tài)組合,這個過程可以通過 MoE 類系統(tǒng)高效管理。然而,要使這種方法既可擴展又具有組合性,需要解決幾個挑戰(zhàn)。首先,微調(diào) LLM 以創(chuàng)建多個專家模塊顯著增加了需要訓練的參數(shù)數(shù)量。實際上,即使使用 LoRA 等參數(shù)高效的方法,這些模塊的累積大小也會快速增加,導致存儲和計算需求增加。其次,這些專家模塊往往容易過擬合,這種現(xiàn)象在較小數(shù)據(jù)集或窄任務領(lǐng)域訓練時尤為普遍。第三,這些專家模塊的靈活組合也帶來了目前尚未解決的挑戰(zhàn)。

為了克服這些限制,作者首先提出了奇異值微調(diào)(SVF),這是一種新的參數(shù)高效微調(diào)(PEFT)方法,用于獲得自適應的有效構(gòu)建塊。SVF 通過僅提取和調(diào)整模型權(quán)重矩陣中的奇異值來工作。通過專注于這種原則性的參數(shù)化,他們提出的方法降低了過擬合風險,大幅減少了計算需求,并允許固有的組合性。他們證明這些特性使他們能夠通過在窄數(shù)據(jù)集上使用強化學習進行訓練來廉價地獲得一組有效的領(lǐng)域特定「專家」向量,直接優(yōu)化各個主題的任務性能。

然后,作者引入了完整的 Transformer^2 框架,通過自適應的基本原則來增強 LLM。給定來自未知任務的提示,Transformer^2 采用兩階段推理機制,如圖 1 所示。



在第一階段,Transformer^2 執(zhí)行模型并觀察其測試時行為,收集相關(guān)信息以理解解決當前問題所需的技能。在第二階段,Transformer^2 框架使用這些信息組合可用的專家向量,并對 LLM 的基礎(chǔ)權(quán)重提供專門針對其測試時條件的新修改。作者在 Transformer^2 中設(shè)計了三種不同的適應策略,并證明這些策略隨著對測試時條件的訪問增加而提供單調(diào)的性能提升。

作者通過在各種 LLM 和任務上的廣泛實驗評估了 SVF 和完整的 Transformer^2 框架。首先,在領(lǐng)域特定數(shù)據(jù)集上訓練時,他們展示了 SVF 始終優(yōu)于傳統(tǒng)的高效微調(diào)策略(如 LoRA),同時參數(shù)量減少了數(shù)個數(shù)量級。然后,他們展示了 Transformer^2 能夠進一步提高性能,即使在完全分布外的應用(如視覺問答)中也能有效調(diào)整基礎(chǔ)模型的權(quán)重。最后,他們分析了新框架的特性,驗證了它在獲得更多當前測試時條件訪問權(quán)限時提供增量收益,甚至允許跨模型架構(gòu)重用預訓練的 SVF 專家。

方法概覽

奇異值微調(diào)(SVF)

就像人類大腦通過互連的神經(jīng)通路存儲知識和處理信息一樣,LLM 在其權(quán)重矩陣中存儲知識。這些矩陣是 LLM 的「大腦」,保存著它從訓練數(shù)據(jù)中學到的精髓。

要理解這個「大腦」并確保它能夠有效地適應新任務,需要仔細研究其內(nèi)部結(jié)構(gòu)。這就要使用奇異值分解(SVD),SVD 將存儲在 LLM 中龐大、復雜的知識分解成更小的、有意義的、獨立的部分(例如數(shù)學、語言理解等不同的組件)。

Transformer^2 的核心是能夠動態(tài)調(diào)整其權(quán)重矩陣的關(guān)鍵組件。在訓練時,該研究引入奇異值微調(diào)(SVF),這是一種使用強化學習來增強 / 抑制來自不同「大腦」組件的信號以用于各種下游任務的方法。在推理時,該研究采用三種不同的策略來檢測任務的身份并相應地調(diào)整模型的權(quán)重。



使用 SVF 和 RL 進行訓練

在訓練時,SVF 學習一組 z 向量,每個下游任務一個。每個 z 向量可以被視為任務的專家,是一個緊湊的表征,負責指定權(quán)重矩陣中每個組件的所需強度,形成一組「放大器」或「衰減器」來調(diào)節(jié)不同組件對模型行為的影響。

SVF 使用 RL 在預定義的下游任務集上學習這些 z 向量。學得的 z 向量使 Transformer^2 能夠適應各種新的下游任務,同時只引入最少量的額外參數(shù)(即 z 向量。

自適應

在推理時,該研究為框架設(shè)計了一個兩階段適應策略,以有效地組合任務特定的 z 向量集。在第一次推理時,給定任務或單個輸入提示,Transformer^2 使用以下三種適應方法之一分析其測試時條件:

  • 基于提示的適應:專門設(shè)計的適應提示,對任務進行分類(例如數(shù)學、編程)并選擇預訓練的 z 向量。
  • 基于分類器的適應:使用 SVF 訓練的任務分類器,在推理過程中識別任務并選擇合適的 z 向量。
  • 少樣本適應:通過加權(quán)插值組合多個預訓練的 z 向量。簡單的優(yōu)化算法根據(jù)少樣本評估集上的性能調(diào)整這些權(quán)重。

在第二次推理時,Transformer^2 通過組合 z 向量相應地調(diào)制權(quán)重,為其新設(shè)置產(chǎn)生最相關(guān)的最終響應。

實驗結(jié)果

SVF 性能

表 1 提供了在 LLAMA3-8B-INSTRUCT、MISTRAL-7B-INSTRUCT-V0.3 和 LLAMA3-70B-INSTRUCT 基礎(chǔ)模型上對每個任務進行訓練后的結(jié)果。



值得注意的是,SVF 在幾乎所有任務和基礎(chǔ)模型上都提供了顯著且一致的性能提升。相比之下,LoRA 專家產(chǎn)生的收益較小,甚至出現(xiàn)了零星的性能下降。

這種趨勢也可以擴展到視覺 - 語言領(lǐng)域,因為用 SVF 微調(diào) LLAMA3-LLAVA-NEXT-8B 將基礎(chǔ)模型的性能提升了超過 39%(見圖 5)。



適應性能

該研究使用 SVF 訓練的 z 向量評估了 Transformer^2 在未見任務上的自適應能力。

如表 2 所示,所有的 Transformer^2 適應策略都在 LLAMA3-8B-INSTRUCT 基礎(chǔ)模型的所有任務上表現(xiàn)出性能提升,在 MISTRAL-7B-INSTRUCT-V0.3 和 LLAMA3-70B-INSTRUCT 的三個任務中至少有兩個任務有所改進。相比之下,即使是最佳訓練 LoRA 也只在 ARC-Challenge 任務上提供了改進,在 MATH 和 Humaneval 上顯著降低了性能。



這種差異表明 LoRA 的參數(shù)化和優(yōu)化可能特別容易過擬合,特別是在使用較小的 GSM8K 和 MBPP-Pro 數(shù)據(jù)集訓練時。

在圖 5 中,基礎(chǔ) LLAMA3-LLAVA-NEXT-8B VLM 的性能僅在應用 Transformer^2 后得到改善。研究團隊注意到在這種設(shè)置中,Transformer^2 僅從 GSM8K、MBPP-Pro 和 ARC-Easy 的專家向量中進行自適應。因此,這一結(jié)果進一步強調(diào)了自適應的高度靈活性,基于語言任務的知識也可以遷移到不相關(guān)的基于視覺的問題上。

通過對三種適應策略的比較,作者發(fā)現(xiàn)了一個明顯的單調(diào)趨勢 —— 即隨著策略的增加和測試時間條件的增加,自適應的效果越來越明顯。特別是,具有少樣本自適應的 Transformer^2 幾乎總是得分最高的方法,在所有測試設(shè)置中都提供了顯著改進,除了 LLAMA3-70B-INSTRUCT @MATH。由于 GPU 資源有限,作者只對一半的層進行了 SVF 調(diào)優(yōu)。這種趨勢表明,提供額外或不同類型的信息似乎對 Transformer^2 框架非常有益,表明 Transformer^2 可以為基礎(chǔ)模型提供在終身設(shè)置中部署時持續(xù)改進性能的新方法。

表 3 報告了 Transformer^2 的提示適應策略所需的推理時間,分別展示了第一階段和第二幾段解決整個問題集所花費的時間。注意,「2nd pass」推理時間是解決問題所花費的時間,「1st pass」推理時間是自適應的時間。括號中是「1st pass」占「2nd pass」推理時間的比率。雖然額外的推理階段可能看起來會使整體運行時間翻倍,但重要的是要注意推理時間主要取決于生成的 token 數(shù)量。在論文的設(shè)置中,它是 O (n),其中 n 是輸入的長度。ARC-challenge 括號中的數(shù)值較大,因為它們是單選題,因此「2nd pass」的成本也是 O (n)。在一般設(shè)置中,作者認為這個比率更接近 MATH 和 Humaneval 的比率是合理的。



更多內(nèi)容請參見原論文。

參考鏈接:https://sakana.ai/transformer-squared/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
殺死伊核科學家的特殊武器是啥?以色列此前多次暗殺,手段千奇百怪

殺死伊核科學家的特殊武器是啥?以色列此前多次暗殺,手段千奇百怪

上游新聞
2025-06-21 18:46:07
0-6!37歲傳奇雙響+2場3球 世俱杯產(chǎn)生首支出局球隊 中國球員首發(fā)

0-6!37歲傳奇雙響+2場3球 世俱杯產(chǎn)生首支出局球隊 中國球員首發(fā)

狍子歪解體壇
2025-06-21 04:16:19
批評特朗普后,美國高官被邊緣

批評特朗普后,美國高官被邊緣

亞太觀瀾
2025-06-20 20:40:04
第一次感受到紅霉素軟膏的殺傷力,難怪越賣越火,看完長知識了

第一次感受到紅霉素軟膏的殺傷力,難怪越賣越火,看完長知識了

室內(nèi)設(shè)計師有料兒
2025-06-20 16:23:56
海內(nèi)存知己,不管幾比幾!0州不愧是0州,常州所有筆畫都輸光了…

海內(nèi)存知己,不管幾比幾!0州不愧是0州,常州所有筆畫都輸光了…

小人物看盡人間百態(tài)
2025-06-21 21:35:19
重啟!寧波直飛,全程8小時30分鐘

重啟!寧波直飛,全程8小時30分鐘

生活小ok
2025-06-21 20:22:27
寧國府藏著一個皇帝?原來曹雪芹隱晦文字,竟隱含這一層秘密?

寧國府藏著一個皇帝?原來曹雪芹隱晦文字,竟隱含這一層秘密?

君箋雅侃紅樓
2025-06-20 10:31:23
清華碩博連讀,“85后”市政府秘書長李一飛履新職

清華碩博連讀,“85后”市政府秘書長李一飛履新職

新京報政事兒
2025-06-21 13:32:08
當眾表白?攤牌求婚場景,陳夢發(fā)聲,期待比賽中求婚,人越多越好

當眾表白?攤牌求婚場景,陳夢發(fā)聲,期待比賽中求婚,人越多越好

體育有點水
2025-06-16 20:14:10
上海一保姆隱藏身份工作13年,業(yè)主發(fā)現(xiàn)她真正身份后,從30樓跳下去

上海一保姆隱藏身份工作13年,業(yè)主發(fā)現(xiàn)她真正身份后,從30樓跳下去

故事秘棧
2025-05-26 19:16:38
男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

嘉琪Feel
2025-06-17 10:06:10
鐵路局董事長、總經(jīng)理雙雙調(diào)整!

鐵路局董事長、總經(jīng)理雙雙調(diào)整!

高鐵見聞
2025-06-21 22:45:14
上海一保姆在別墅潛伏15年,女主人發(fā)現(xiàn)其真實身份后,從樓頂躍下

上海一保姆在別墅潛伏15年,女主人發(fā)現(xiàn)其真實身份后,從樓頂躍下

懸案解密檔案
2025-06-13 10:46:29
百年一遇洪水過境懷集縣 | 深度聚焦

百年一遇洪水過境懷集縣 | 深度聚焦

北青深一度
2025-06-20 22:34:05
時速高達304km!7人高速摩托飆車,其中一人是寶媽,孩子不滿1歲

時速高達304km!7人高速摩托飆車,其中一人是寶媽,孩子不滿1歲

奇思妙想草葉君
2025-06-21 23:54:48
上影節(jié)閉幕紅毯:黃曉明暴瘦,萬茜是大贏家,44歲阿嬌像楊貴妃

上影節(jié)閉幕紅毯:黃曉明暴瘦,萬茜是大贏家,44歲阿嬌像楊貴妃

阿訊說天下
2025-06-22 00:05:29
湖南打工仔迎娶985女大學生,婚前岳父提醒他們別要孩子,誰料,生下一對雙胞胎兒子后,女方斷聯(lián)了一年…

湖南打工仔迎娶985女大學生,婚前岳父提醒他們別要孩子,誰料,生下一對雙胞胎兒子后,女方斷聯(lián)了一年…

勵職派
2025-06-20 12:45:55
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
后續(xù)!重慶出租車司機撞人,女子多次挑釁,原因曝光,果然不簡單

后續(xù)!重慶出租車司機撞人,女子多次挑釁,原因曝光,果然不簡單

聯(lián)友說娛
2025-06-21 18:14:44
這5所高校擴招1000人以上,今年分數(shù)有望下跌,400多分有機會撿漏

這5所高校擴招1000人以上,今年分數(shù)有望下跌,400多分有機會撿漏

教育導向分享
2025-06-21 22:29:44
2025-06-22 04:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

藝術(shù)
游戲
房產(chǎn)
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年最奇幻事件!一篇看完《情感反詐模擬器》改名風波

房產(chǎn)要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 新丰县| 方正县| 安达市| 博兴县| 通渭县| 吉林省| 安庆市| 大埔县| 云安县| 万盛区| 浦北县| 三亚市| 贵定县| 紫阳县| 凤庆县| 彝良县| 江北区| 自贡市| 新野县| 金华市| 呼伦贝尔市| 佛山市| 二连浩特市| 大连市| 天气| 西充县| 东至县| 徐水县| 陇西县| 浦北县| SHOW| 古蔺县| 科技| 章丘市| 社会| 临沂市| 友谊县| 板桥市| 长沙县| 买车| 泰顺县|