網易首頁 > 網易號 > 正文申請入駐

MIT發布自適應語言模型！新任務，自生成遠超「GPT-4.1合成訓練數據」

2025-07-09 09:28:30　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRS

【新智元導讀】自適應語言模型框架SEAL，讓大模型通過生成自己的微調數據和更新指令來適應新任務。SEAL在少樣本學習和知識整合任務上表現優異，顯著提升了模型的適應性和性能，為大模型的自主學習和優化提供了新的思路。

經過海量文本預訓練后的大模型，已經能夠很好地理解語言，并根據要求來生成文本。

不過，在部署大模型應用于特定任務、整合新信息或學習新的推理技能時，仍然需要人工標注數據對模型權重進行微調。

大模型是否可以通過「自己生成訓練數據和學習方法」來實現對新任務的自適應？

麻省理工學院的研究人員提出了一個全新的自適應語言模型（Self-Adapting LLMs，簡稱SEAL）的框架，可以讓大模型通過生成自己的微調數據和更新指令來實現自適應。

論文鏈接：https://arxiv.org/pdf/2506.10943

項目主頁：https://jyopari.github.io/posts/seal

與以往依賴獨立適應模塊或輔助網絡的方法不同，SEAL直接利用模型自身的生成能力來參數化和控制其自我適應過程。

當模型接收到新的輸入時，會生成一個「自編輯」（self-edit）——即自然語言指令，用于指定數據和優化超參數，以更新模型的權重。

通過有監督微調（SFT），自編輯能夠實現持久的權重更新，從而實現長期的適應性。

為了訓練模型生成有效的自編輯，研究人員采用強化學習循環，以「更新后模型在下游任務中的表現」作為獎勵信號。

在嘗試「將新的事實性知識整合到LLM」的實驗上，研究人員使用SEAL模型生成的合成數據進行微調。

相比與直接在原始文本上微調不同，經過強化學習訓練后，使用SEAL生成的合成數據進行微調，將SQuAD無上下文版本的問題回答準確率從33.5%提高到47.0%，甚至超過了GPT-4.1生成的合成數據。

研究人員還在ARC-AGI基準測試的簡化子集上對SEAL進行了少樣本學習評估，模型需要利用一組工具自主選擇合成數據增強和優化超參數（例如學習率、訓練周期、對特定token類型的損失計算）。

實驗表明，使用SEAL自動選擇和配置這些工具，比標準的上下文學習（ICL）和沒有強化學習訓練的自編輯表現更好。

自適應大模型

自適應大模型（SEAL）可以幫助語言模型更好地適應特定任務。

假設語言模型的參數為θ，C是與任務相關的上下文信息，τ是用于評估模型適應性的下游任務，SEAL會針對每個任務實例（C, τ）進行操作。

在知識整合任務中，C是需要整合到模型內部知識中的段落，τ是關于該段落的問題和答案；

在少樣本學習任務中，C是新任務的少量示例，τ是查詢輸入和真實輸出。

給定上下文C后，模型會生成一個自編輯（SE），通過有監督微調的方式來更新自己的參數。

研究人員使用強化學習來優化自編輯生成的過程：模型生成SE作為動作，根據生成SE后模型在τ上的表現獲得獎勵，并根據獎勵更新策略，以最大化預期獎勵。

獎勵與模型參數θ有關，所以強化學習的狀態為上下文C和參數θ

由于模型參數會不斷更新，之前版本模型收集的（狀態，動作，獎勵）三元組可能不再適用于當前模型。

因此，研究人員采用「在線策略」方法，即從當前模型中采樣自編輯，并基于當前模型計算獎勵。

相比其他策略方法，ReSTEM采用的「拒絕采樣+有監督微調」，可以讓訓練過程更穩定。

ReSTEM的過程為：首先從當前模型策略中采樣一些候選輸出（即自編輯），然后只對那些獲得正獎勵的樣本進行監督微調，以此來強化模型的策略。

實驗結果

少樣本學習

研究人員使用了一個沒有經過針對ARC（抽象和推理語料，Abstract and Reasoning Corpus）預訓練的小型開源模型Llama-3.2-1B-Instruct進行實驗。

由于大多數ARC任務對于未經過ARC預訓練的模型來說難度較大，研究人員從ARC訓練集中篩選出11個任務，從評估集中篩選出8個任務，確保這些任務在最優TTT（測試時訓練，test-time training）配置下可以被基礎的Llama-3.2-1B-Instruct模型解決。

在訓練過程中，研究人員使用ReSTEM方法，通過為每個訓練任務采樣15個自編輯來訓練模型。

每個自編輯分別應用于生成15個更新后的模型，然后在對應的測試樣本上進行評估，只保留那些「經過適應后能夠為測試輸入生成正確輸出」的模型。

評估指標為成功率：為每個保留的評估任務生成5個自編輯并評估模型，然后統計能夠產生正確輸出的自編輯的百分比，可以反映出所學自編輯生成策略的質量。

對比基線方法包括上下文學習（ICL）、TTT+自編輯（無強化學習）和Oracle TTT（性能上限）。

與基線方法相比，SEAL顯著提高了適應成功率（72.5%），而未經強化學習訓練的基礎模型的自編輯成功率僅為20%，不進行任何適應的成功率為0%

知識整合（Knowledge Incorporation）

研究人員使用Qwen2.5-7B模型，從SQuAD（斯坦福問答數據集）的段落中整合新的事實內容。

對比基線包括基礎模型（直接在問答任務上評估，Base Model）、僅在段落上微調模型（Train on Passage）、在段落和自動生成的推論上訓練模型（Train on Passage + Synthetic）、在段落和通過OpenAI API從GPT-4.1收集的模型生成推論上訓練。

在單段落設置下，僅在段落上微調的模型相比基礎模型幾乎沒有提升（33.5% vs. 32.7%），表明僅使用原始數據是不夠的。

使用GPT-4.1生成的推論可以將準確率提升到46.3%，比僅使用段落的基線提高了12.8個百分點。

使用Qwen2.5-7B模型生成的合成數據可以達到39.7%，提高了6.2個百分點。

經過強化學習后，SEAL進一步將準確率提升到47.0%，盡管模型規模較小，但表現優于使用GPT-4.1生成的合成數據。

在持續預訓練（CPT）設置下，模型從200個段落中整合信息，并在所有974個相關問題上進行評估。研究人員為每個段落采樣5個自編輯生成內容，并將這些合成數據用于持續預訓練。

結果顯示，SEAL在多段落設置下也優于所有基線方法，準確率達到43.8%。

雖然絕對性能低于單段落設置，但相對提升效果保持一致，這表明SEAL發現的編輯策略不僅適用于單個段落的合成數據生成，還能推廣到更廣泛的場景。

僅需兩次迭代，SEAL就超過了使用GPT-4.1數據的效果，后續迭代的提升效果逐漸減弱，表明策略迅速收斂到一種能夠「將段落提煉為易于學習的基本事實」的編輯風格。

從例子中，可以看到強化學習可以促使生成更詳細的自編輯內容，而這些更詳細的編輯又反過來提升了整體性能。

參考資料：

https://arxiv.org/abs/2506.10943

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25
擴散語言模型寫代碼！速度比自回歸快10倍

量子位 2025-07-10 17:15:12
0 跟貼 0

擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0

Kimi首個萬億參數模型開源！免費可用，超強Agent推理，附實測體驗

智東西 2025-07-12 01:19:42
0 跟貼 0
馬斯克吹牛了嗎？Grok 4第一波實測：能完虐o3，也菜到數不清手指

機器之心Pro 2025-07-11 17:25:50
35 跟貼 35

Llama慘遭拋棄！Meta內部改用Claude寫代碼

量子位 2025-07-11 09:21:45
19 跟貼 19

無需CUDA代碼給H100加速33%-50%，Flash Attention作者新作火了

量子位 2025-07-11 14:52:44
8 跟貼 8
OpenAI去年挖的坑填上了！獎勵模型首現Scaling Law，1.8B給70B巨獸上了一課

新智元 2025-07-11 12:17:15
2 跟貼 2

獎勵模型也能Scaling！上海AI Lab突破強化學習短板

量子位 2025-07-11 11:42:22
1 跟貼 1
杜特爾特發出最后指令，他希望自己死后，骨灰可以“落葉歸根”

蔣福偉 2025-07-09 18:09:32
0 跟貼 0
MIT滿分學霸CEO反手毀約，OpenAI天塌了！谷歌半路截胡30億天價收購

新智元 2025-07-12 11:05:08
0 跟貼 0
Agent RL與智能體進化關鍵一步：TaskCraft實現復雜任務自動生成

機器之心Pro 2025-07-04 13:05:41
0 跟貼 0
硅谷最狠「偽君子」！華人女記者深扒OpenAI：3000億AI帝國全靠偷數據？

新智元 2025-07-10 18:58:35
84 跟貼 84
vivo發端側多模態模型，只有3B可理解GUI界面，20項評測表現亮眼

量子位 2025-07-10 13:13:38
1 跟貼 1
提示詞工程、RAG之后，LangChain：上下文工程開始火了！

機器之心Pro 2025-06-25 14:18:39
8 跟貼 8
獎勵模型迎來預訓練時代!上海AI Lab、復旦POLAR,Scaling新范式

機器之心Pro 2025-07-10 12:55:25
0 跟貼 0
不用千億參數也能合成高質量數據！開源框架讓小模型“組團逆襲”

量子位 2025-06-17 16:51:02
1 跟貼 1
天水幼兒園后續：網友嘗試彩繪顏料做面食，看看結果怎么樣？

牛劍鋒 2025-07-11 01:00:43
2778 跟貼 2778
哥倫比亞大學華裔學霸男生畢業演講，帶火了哥大創新思維課

尚曦讀史 2025-07-09 05:19:03
0 跟貼 0
AI也會“喵喵叫”：MIT團隊讓機器學會模仿聲音

DeepTech深科技 2025-01-16 20:13:08
0 跟貼 0
MIT研究發現AI科學家在復雜物理問題上自發達成理論共識

DeepTech深科技 2025-04-17 16:18:57
0 跟貼 0
所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
56 跟貼 56
Meta為他豪擲2億美元，上交校友龐若鳴，曬出在蘋果的最新論文

機器之心Pro 2025-07-10 20:20:04
0 跟貼 0
會「進化」的合成數據！無需上傳隱私，也能生成高質量垂域數據

機器之心Pro 2025-07-11 18:44:13
1 跟貼 1
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
Meituan-M17團隊構建新一代AI編程評測新標準——OIBench

機器之心Pro 2025-07-11 13:20:43
0 跟貼 0
美軍B-52H戰略轟炸機現身朝鮮半島

上觀新聞 2025-07-11 19:58:13
13943 跟貼 13943
國外媽媽就是細心，給寶寶小腳丫做模型，既有紀念意義也可愛！

老沾看生活 2025-07-10 14:45:25
0 跟貼 0
大模型刷數學題竟有害？CMU評估20+模型指出訓練陷阱

量子位 2025-07-08 17:03:53
2 跟貼 2
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
0 跟貼 0
炸翻！馬斯克讓 7 位癱瘓患者用「意念」重獲自由，他還計劃：26 年治愈失明，28 年實現人類 AI 化

生物學霸 2025-07-11 17:26:39
35 跟貼 35
大模型競爭的下半場，為何場景為王？

鈦媒體APP 2025-07-11 11:58:05
1 跟貼 1
2026 款天逸C5 AIRCROSS：極致安全，是對暑期出行的基本承諾

一同選車 2025-07-11 17:06:41
2 跟貼 2
終于贏了官司，卻成錢房兩空大怨種

中國新聞周刊 2025-07-11 15:44:30
8471 跟貼 8471
“曬拖把滴水惡心得很！”武漢一女子裝遮陽棚擋樓上污水反被砸

星辰視頻 2025-07-11 15:57:48
8673 跟貼 8673
女生把手機轉向朋友，一下被美顏參數嚇一跳，臉瞬間小一圈！

快樂笑星坊 2025-07-10 11:15:30
10 跟貼 10
上海一超市6顆荔枝298元，工作人員：一款有故事的荔枝，限量供應

齊魯壹點 2025-07-08 14:39:19
12360 跟貼 12360
10 萬人調查顯示，新人獲得科研經費的訣竅是頻繁申請

生物學霸 2025-07-11 17:27:37
0 跟貼 0
各大期刊雜志的 WB 投稿要求，你遲早用的上

生物學霸 2025-06-09 18:14:36
0 跟貼 0
珠城迎來超級迭代！保利華創·都薈天珺將成為這片土地的永恒稀缺

廣州樓市發布 2025-07-11 17:24:54
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

13044文章數 66094關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

手機

數碼

健康

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

MIT發布自適應語言模型！新任務，自生成遠超「GPT-4.1合成訓練數據」

黃仁勛警示AI風險：沒新想法，就集體失業

牛彈琴：越南或在最后一刻遭特朗普暗算 十分失望憤怒

牛彈琴：越南或在最后一刻遭特朗普暗算 十分失望憤怒

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

王晶曝張國榮自殺原因 抑郁癥只是其一

中國超半數城市人口下滑，什么信號？

小米YU7深度試駕：優點很多缺點也很多

態度原創

生活憧憬 自由浪漫之境

vivo四連冠，小米排名第二，榮耀重返前五

LG 推出“32UN880K”31.5 英寸顯示器：4K 60Hz + 雙揚，3399 元

呼吸科專家破解呼吸道九大謠言！

美國防部承認美空軍基地在6月被伊朗導彈擊中

牛彈琴：越南或在最后一刻遭特朗普暗算十分失望憤怒

牛彈琴：越南或在最后一刻遭特朗普暗算十分失望憤怒

夏聯-開拓者大勝勇士楊瀚森首秀10+4+5+3帽

王晶曝張國榮自殺原因抑郁癥只是其一

生活憧憬自由浪漫之境