99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MIT發布自適應語言模型!新任務,自生成遠超「GPT-4.1合成訓練數據」

0
分享至


新智元報道

編輯:LRS

【新智元導讀】自適應語言模型框架SEAL,讓大模型通過生成自己的微調數據和更新指令來適應新任務。SEAL在少樣本學習和知識整合任務上表現優異,顯著提升了模型的適應性和性能,為大模型的自主學習和優化提供了新的思路。

經過海量文本預訓練后的大模型,已經能夠很好地理解語言,并根據要求來生成文本。

不過,在部署大模型應用于特定任務、整合新信息或學習新的推理技能時,仍然需要人工標注數據對模型權重進行微調。

大模型是否可以通過「自己生成訓練數據和學習方法」來實現對新任務的自適應?

麻省理工學院的研究人員提出了一個全新的自適應語言模型(Self-Adapting LLMs,簡稱SEAL)的框架,可以讓大模型通過生成自己的微調數據和更新指令來實現自適應。


論文鏈接:https://arxiv.org/pdf/2506.10943

項目主頁:https://jyopari.github.io/posts/seal

與以往依賴獨立適應模塊或輔助網絡的方法不同,SEAL直接利用模型自身的生成能力來參數化和控制其自我適應過程。

當模型接收到新的輸入時,會生成一個「自編輯」(self-edit)——即自然語言指令,用于指定數據和優化超參數,以更新模型的權重。

通過有監督微調(SFT),自編輯能夠實現持久的權重更新,從而實現長期的適應性。


為了訓練模型生成有效的自編輯,研究人員采用強化學習循環,以「更新后模型在下游任務中的表現」作為獎勵信號。

在嘗試「將新的事實性知識整合到LLM」的實驗上,研究人員使用SEAL模型生成的合成數據進行微調。

相比與直接在原始文本上微調不同,經過強化學習訓練后,使用SEAL生成的合成數據進行微調,將SQuAD無上下文版本的問題回答準確率從33.5%提高到47.0%,甚至超過了GPT-4.1生成的合成數據。

研究人員還在ARC-AGI基準測試的簡化子集上對SEAL進行了少樣本學習評估,模型需要利用一組工具自主選擇合成數據增強和優化超參數(例如學習率、訓練周期、對特定token類型的損失計算)。

實驗表明,使用SEAL自動選擇和配置這些工具,比標準的上下文學習(ICL)和沒有強化學習訓練的自編輯表現更好。

自適應大模型

自適應大模型(SEAL)可以幫助語言模型更好地適應特定任務。

假設語言模型的參數為θ,C是與任務相關的上下文信息,τ是用于評估模型適應性的下游任務,SEAL會針對每個任務實例(C, τ)進行操作。

在知識整合任務中,C是需要整合到模型內部知識中的段落,τ是關于該段落的問題和答案;

在少樣本學習任務中,C是新任務的少量示例,τ是查詢輸入和真實輸出。

給定上下文C后,模型會生成一個自編輯(SE),通過有監督微調的方式來更新自己的參數。

研究人員使用強化學習來優化自編輯生成的過程:模型生成SE作為動作,根據生成SE后模型在τ上的表現獲得獎勵,并根據獎勵更新策略,以最大化預期獎勵。

獎勵與模型參數θ有關,所以強化學習的狀態為上下文C和參數θ


由于模型參數會不斷更新,之前版本模型收集的(狀態,動作,獎勵)三元組可能不再適用于當前模型。

因此,研究人員采用「在線策略」方法,即從當前模型中采樣自編輯,并基于當前模型計算獎勵。

相比其他策略方法,ReSTEM采用的「拒絕采樣+有監督微調」,可以讓訓練過程更穩定。

ReSTEM的過程為:首先從當前模型策略中采樣一些候選輸出(即自編輯),然后只對那些獲得正獎勵的樣本進行監督微調,以此來強化模型的策略。

實驗結果

少樣本學習

研究人員使用了一個沒有經過針對ARC(抽象和推理語料,Abstract and Reasoning Corpus)預訓練的小型開源模型Llama-3.2-1B-Instruct進行實驗。

由于大多數ARC任務對于未經過ARC預訓練的模型來說難度較大,研究人員從ARC訓練集中篩選出11個任務,從評估集中篩選出8個任務,確保這些任務在最優TTT(測試時訓練,test-time training)配置下可以被基礎的Llama-3.2-1B-Instruct模型解決。

在訓練過程中,研究人員使用ReSTEM方法,通過為每個訓練任務采樣15個自編輯來訓練模型。

每個自編輯分別應用于生成15個更新后的模型,然后在對應的測試樣本上進行評估,只保留那些「經過適應后能夠為測試輸入生成正確輸出」的模型。

評估指標為成功率:為每個保留的評估任務生成5個自編輯并評估模型,然后統計能夠產生正確輸出的自編輯的百分比,可以反映出所學自編輯生成策略的質量。


對比基線方法包括上下文學習(ICL)、TTT+自編輯(無強化學習)和Oracle TTT(性能上限)。

與基線方法相比,SEAL顯著提高了適應成功率(72.5%),而未經強化學習訓練的基礎模型的自編輯成功率僅為20%,不進行任何適應的成功率為0%

知識整合(Knowledge Incorporation)

研究人員使用Qwen2.5-7B模型,從SQuAD(斯坦福問答數據集)的段落中整合新的事實內容。

對比基線包括基礎模型(直接在問答任務上評估,Base Model)、僅在段落上微調模型(Train on Passage)、在段落和自動生成的推論上訓練模型(Train on Passage + Synthetic)、在段落和通過OpenAI API從GPT-4.1收集的模型生成推論上訓練。


在單段落設置下,僅在段落上微調的模型相比基礎模型幾乎沒有提升(33.5% vs. 32.7%),表明僅使用原始數據是不夠的。

使用GPT-4.1生成的推論可以將準確率提升到46.3%,比僅使用段落的基線提高了12.8個百分點。

使用Qwen2.5-7B模型生成的合成數據可以達到39.7%,提高了6.2個百分點。

經過強化學習后,SEAL進一步將準確率提升到47.0%,盡管模型規模較小,但表現優于使用GPT-4.1生成的合成數據。

在持續預訓練(CPT)設置下,模型從200個段落中整合信息,并在所有974個相關問題上進行評估。研究人員為每個段落采樣5個自編輯生成內容,并將這些合成數據用于持續預訓練。

結果顯示,SEAL在多段落設置下也優于所有基線方法,準確率達到43.8%。

雖然絕對性能低于單段落設置,但相對提升效果保持一致,這表明SEAL發現的編輯策略不僅適用于單個段落的合成數據生成,還能推廣到更廣泛的場景。


僅需兩次迭代,SEAL就超過了使用GPT-4.1數據的效果,后續迭代的提升效果逐漸減弱,表明策略迅速收斂到一種能夠「將段落提煉為易于學習的基本事實」的編輯風格。


從例子中,可以看到強化學習可以促使生成更詳細的自編輯內容,而這些更詳細的編輯又反過來提升了整體性能。

參考資料:

https://arxiv.org/abs/2506.10943


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2025高考提前批冰火兩重天:鐵飯碗分數漲上天,清北985跌落神壇

2025高考提前批冰火兩重天:鐵飯碗分數漲上天,清北985跌落神壇

阿傖說事
2025-07-12 08:06:40
女子開奧迪相親,看到男子渾身泥土務農轉身就跑:比男人還現實

女子開奧迪相親,看到男子渾身泥土務農轉身就跑:比男人還現實

周大富專攔
2025-07-12 12:10:10
王毅當著40多國外長的面,就南海問題,說了句讓各國啞口無言的話

王毅當著40多國外長的面,就南海問題,說了句讓各國啞口無言的話

掌青說歷史
2025-07-12 11:43:45
反轉!甘肅女子截癱后被男友拋棄,之前把男友當備胎,殘廢后催婚

反轉!甘肅女子截癱后被男友拋棄,之前把男友當備胎,殘廢后催婚

水晶的視界
2025-07-10 09:25:12
37歲快遞員被熱死,死前還趕著送單,熱暈在路邊,血管都爆了

37歲快遞員被熱死,死前還趕著送單,熱暈在路邊,血管都爆了

夢史
2025-07-11 15:06:08
“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

墨印齋
2025-07-08 05:24:55
Steam限時喜加四!免費領取《太空堡壘》等四款游戲!

Steam限時喜加四!免費領取《太空堡壘》等四款游戲!

Steam社區
2025-07-12 11:37:59
人民日報接連點名,揭開王一博真實現狀,張杰的話含金量還在上升

人民日報接連點名,揭開王一博真實現狀,張杰的話含金量還在上升

觀察者海風
2025-07-12 09:50:51
世俱杯慘敗后皇馬或再簽2人,已投1.78億引援,創6年新高

世俱杯慘敗后皇馬或再簽2人,已投1.78億引援,創6年新高

奧拜爾
2025-07-11 18:34:37
班級群即將解散,有家長建議留著相親:有一種愚蠢,叫口無遮攔

班級群即將解散,有家長建議留著相親:有一種愚蠢,叫口無遮攔

精讀君
2025-07-12 10:20:07
侯耀華悼念楊少華送的花圈曝光,落款兩字卻引發爭議

侯耀華悼念楊少華送的花圈曝光,落款兩字卻引發爭議

娛樂x冰淇淋
2025-07-12 11:13:55
4000萬一架也不要!繼印尼婉拒后,為何哥倫比亞也拒絕殲-10C?

4000萬一架也不要!繼印尼婉拒后,為何哥倫比亞也拒絕殲-10C?

鐵錘簡科
2025-07-11 22:30:22
為什么女人出軌第一次發生關系非常難,后面就會越來越容易?

為什么女人出軌第一次發生關系非常難,后面就會越來越容易?

素然追光
2025-06-23 02:10:05
習慣穿拖鞋的網紅博主藍戰非,也不得不穿上鞋子!

習慣穿拖鞋的網紅博主藍戰非,也不得不穿上鞋子!

總在茶余后
2025-07-10 16:13:25
“高考575分被趕出家門”后續:孩子發聲辟謠,再次刺痛無數父母

“高考575分被趕出家門”后續:孩子發聲辟謠,再次刺痛無數父母

千潯觀點
2025-07-12 02:54:49
楊議也沒想到,曾經畢恭畢敬的郭德綱,這次沒給他留“一絲體面”

楊議也沒想到,曾經畢恭畢敬的郭德綱,這次沒給他留“一絲體面”

史書無明
2025-07-11 22:23:50
強降雨致廈門機場局部圍界倒塌,官方通報

強降雨致廈門機場局部圍界倒塌,官方通報

新京報
2025-07-11 19:33:37
湖南雙胞胎同上清華!父母不是一般人,媽媽2次當家長代表發言

湖南雙胞胎同上清華!父母不是一般人,媽媽2次當家長代表發言

大笑江湖史
2025-07-12 09:45:20
詹寧斯:老詹是NBA歷史唯一橫行霸道&帶兒子進NBA的人 真正的黑幫

詹寧斯:老詹是NBA歷史唯一橫行霸道&帶兒子進NBA的人 真正的黑幫

直播吧
2025-07-12 09:26:07
王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

小娛樂悠悠
2025-07-03 13:24:00
2025-07-12 13:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13044文章數 66094關注度
往期回顧 全部

科技要聞

黃仁勛警示AI風險:沒新想法,就集體失業

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

家居
手機
數碼
健康
軍事航空

家居要聞

生活憧憬 自由浪漫之境

手機要聞

vivo四連冠,小米排名第二,榮耀重返前五

數碼要聞

LG 推出“32UN880K”31.5 英寸顯示器:4K 60Hz + 雙揚,3399 元

呼吸科專家破解呼吸道九大謠言!

軍事要聞

美國防部承認美空軍基地在6月被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青神县| 长白| 贵阳市| 苏州市| 宁安市| 石门县| 北京市| 莒南县| 独山县| 富平县| 尼勒克县| 抚宁县| 乡宁县| 桐城市| 莱州市| 商河县| 淄博市| 绥芬河市| 杭州市| 乾安县| 诸暨市| 洪泽县| 教育| 神木县| 庆城县| 屏山县| 胶南市| 琼中| 志丹县| 巫山县| 石首市| 年辖:市辖区| 巴中市| 高邮市| 墨竹工卡县| 贵阳市| 平潭县| 通渭县| 磐安县| 仲巴县| 峡江县|