99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT發(fā)布自適應(yīng)語言模型!新任務(wù),自生成遠(yuǎn)超「GPT-4.1合成訓(xùn)練數(shù)據(jù)」

0
分享至


新智元報道

編輯:LRS

【新智元導(dǎo)讀】自適應(yīng)語言模型框架SEAL,讓大模型通過生成自己的微調(diào)數(shù)據(jù)和更新指令來適應(yīng)新任務(wù)。SEAL在少樣本學(xué)習(xí)和知識整合任務(wù)上表現(xiàn)優(yōu)異,顯著提升了模型的適應(yīng)性和性能,為大模型的自主學(xué)習(xí)和優(yōu)化提供了新的思路。

經(jīng)過海量文本預(yù)訓(xùn)練后的大模型,已經(jīng)能夠很好地理解語言,并根據(jù)要求來生成文本。

不過,在部署大模型應(yīng)用于特定任務(wù)、整合新信息或?qū)W習(xí)新的推理技能時,仍然需要人工標(biāo)注數(shù)據(jù)對模型權(quán)重進(jìn)行微調(diào)。

大模型是否可以通過「自己生成訓(xùn)練數(shù)據(jù)和學(xué)習(xí)方法」來實(shí)現(xiàn)對新任務(wù)的自適應(yīng)?

麻省理工學(xué)院的研究人員提出了一個全新的自適應(yīng)語言模型(Self-Adapting LLMs,簡稱SEAL)的框架,可以讓大模型通過生成自己的微調(diào)數(shù)據(jù)和更新指令來實(shí)現(xiàn)自適應(yīng)。


論文鏈接:https://arxiv.org/pdf/2506.10943

項(xiàng)目主頁:https://jyopari.github.io/posts/seal

與以往依賴獨(dú)立適應(yīng)模塊或輔助網(wǎng)絡(luò)的方法不同,SEAL直接利用模型自身的生成能力來參數(shù)化和控制其自我適應(yīng)過程。

當(dāng)模型接收到新的輸入時,會生成一個「自編輯」(self-edit)——即自然語言指令,用于指定數(shù)據(jù)和優(yōu)化超參數(shù),以更新模型的權(quán)重。

通過有監(jiān)督微調(diào)(SFT),自編輯能夠?qū)崿F(xiàn)持久的權(quán)重更新,從而實(shí)現(xiàn)長期的適應(yīng)性。


為了訓(xùn)練模型生成有效的自編輯,研究人員采用強(qiáng)化學(xué)習(xí)循環(huán),以「更新后模型在下游任務(wù)中的表現(xiàn)」作為獎勵信號。

在嘗試「將新的事實(shí)性知識整合到LLM」的實(shí)驗(yàn)上,研究人員使用SEAL模型生成的合成數(shù)據(jù)進(jìn)行微調(diào)。

相比與直接在原始文本上微調(diào)不同,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,使用SEAL生成的合成數(shù)據(jù)進(jìn)行微調(diào),將SQuAD無上下文版本的問題回答準(zhǔn)確率從33.5%提高到47.0%,甚至超過了GPT-4.1生成的合成數(shù)據(jù)。

研究人員還在ARC-AGI基準(zhǔn)測試的簡化子集上對SEAL進(jìn)行了少樣本學(xué)習(xí)評估,模型需要利用一組工具自主選擇合成數(shù)據(jù)增強(qiáng)和優(yōu)化超參數(shù)(例如學(xué)習(xí)率、訓(xùn)練周期、對特定token類型的損失計算)。

實(shí)驗(yàn)表明,使用SEAL自動選擇和配置這些工具,比標(biāo)準(zhǔn)的上下文學(xué)習(xí)(ICL)和沒有強(qiáng)化學(xué)習(xí)訓(xùn)練的自編輯表現(xiàn)更好。

自適應(yīng)大模型

自適應(yīng)大模型(SEAL)可以幫助語言模型更好地適應(yīng)特定任務(wù)。

假設(shè)語言模型的參數(shù)為θ,C是與任務(wù)相關(guān)的上下文信息,τ是用于評估模型適應(yīng)性的下游任務(wù),SEAL會針對每個任務(wù)實(shí)例(C, τ)進(jìn)行操作。

在知識整合任務(wù)中,C是需要整合到模型內(nèi)部知識中的段落,τ是關(guān)于該段落的問題和答案;

在少樣本學(xué)習(xí)任務(wù)中,C是新任務(wù)的少量示例,τ是查詢輸入和真實(shí)輸出。

給定上下文C后,模型會生成一個自編輯(SE),通過有監(jiān)督微調(diào)的方式來更新自己的參數(shù)。

研究人員使用強(qiáng)化學(xué)習(xí)來優(yōu)化自編輯生成的過程:模型生成SE作為動作,根據(jù)生成SE后模型在τ上的表現(xiàn)獲得獎勵,并根據(jù)獎勵更新策略,以最大化預(yù)期獎勵。

獎勵與模型參數(shù)θ有關(guān),所以強(qiáng)化學(xué)習(xí)的狀態(tài)為上下文C和參數(shù)θ


由于模型參數(shù)會不斷更新,之前版本模型收集的(狀態(tài),動作,獎勵)三元組可能不再適用于當(dāng)前模型。

因此,研究人員采用「在線策略」方法,即從當(dāng)前模型中采樣自編輯,并基于當(dāng)前模型計算獎勵。

相比其他策略方法,ReSTEM采用的「拒絕采樣+有監(jiān)督微調(diào)」,可以讓訓(xùn)練過程更穩(wěn)定。

ReSTEM的過程為:首先從當(dāng)前模型策略中采樣一些候選輸出(即自編輯),然后只對那些獲得正獎勵的樣本進(jìn)行監(jiān)督微調(diào),以此來強(qiáng)化模型的策略。

實(shí)驗(yàn)結(jié)果

少樣本學(xué)習(xí)

研究人員使用了一個沒有經(jīng)過針對ARC(抽象和推理語料,Abstract and Reasoning Corpus)預(yù)訓(xùn)練的小型開源模型Llama-3.2-1B-Instruct進(jìn)行實(shí)驗(yàn)。

由于大多數(shù)ARC任務(wù)對于未經(jīng)過ARC預(yù)訓(xùn)練的模型來說難度較大,研究人員從ARC訓(xùn)練集中篩選出11個任務(wù),從評估集中篩選出8個任務(wù),確保這些任務(wù)在最優(yōu)TTT(測試時訓(xùn)練,test-time training)配置下可以被基礎(chǔ)的Llama-3.2-1B-Instruct模型解決。

在訓(xùn)練過程中,研究人員使用ReSTEM方法,通過為每個訓(xùn)練任務(wù)采樣15個自編輯來訓(xùn)練模型。

每個自編輯分別應(yīng)用于生成15個更新后的模型,然后在對應(yīng)的測試樣本上進(jìn)行評估,只保留那些「經(jīng)過適應(yīng)后能夠?yàn)闇y試輸入生成正確輸出」的模型。

評估指標(biāo)為成功率:為每個保留的評估任務(wù)生成5個自編輯并評估模型,然后統(tǒng)計能夠產(chǎn)生正確輸出的自編輯的百分比,可以反映出所學(xué)自編輯生成策略的質(zhì)量。


對比基線方法包括上下文學(xué)習(xí)(ICL)、TTT+自編輯(無強(qiáng)化學(xué)習(xí))和Oracle TTT(性能上限)。

與基線方法相比,SEAL顯著提高了適應(yīng)成功率(72.5%),而未經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型的自編輯成功率僅為20%,不進(jìn)行任何適應(yīng)的成功率為0%

知識整合(Knowledge Incorporation)

研究人員使用Qwen2.5-7B模型,從SQuAD(斯坦福問答數(shù)據(jù)集)的段落中整合新的事實(shí)內(nèi)容。

對比基線包括基礎(chǔ)模型(直接在問答任務(wù)上評估,Base Model)、僅在段落上微調(diào)模型(Train on Passage)、在段落和自動生成的推論上訓(xùn)練模型(Train on Passage + Synthetic)、在段落和通過OpenAI API從GPT-4.1收集的模型生成推論上訓(xùn)練。


在單段落設(shè)置下,僅在段落上微調(diào)的模型相比基礎(chǔ)模型幾乎沒有提升(33.5% vs. 32.7%),表明僅使用原始數(shù)據(jù)是不夠的。

使用GPT-4.1生成的推論可以將準(zhǔn)確率提升到46.3%,比僅使用段落的基線提高了12.8個百分點(diǎn)。

使用Qwen2.5-7B模型生成的合成數(shù)據(jù)可以達(dá)到39.7%,提高了6.2個百分點(diǎn)。

經(jīng)過強(qiáng)化學(xué)習(xí)后,SEAL進(jìn)一步將準(zhǔn)確率提升到47.0%,盡管模型規(guī)模較小,但表現(xiàn)優(yōu)于使用GPT-4.1生成的合成數(shù)據(jù)。

在持續(xù)預(yù)訓(xùn)練(CPT)設(shè)置下,模型從200個段落中整合信息,并在所有974個相關(guān)問題上進(jìn)行評估。研究人員為每個段落采樣5個自編輯生成內(nèi)容,并將這些合成數(shù)據(jù)用于持續(xù)預(yù)訓(xùn)練。

結(jié)果顯示,SEAL在多段落設(shè)置下也優(yōu)于所有基線方法,準(zhǔn)確率達(dá)到43.8%。

雖然絕對性能低于單段落設(shè)置,但相對提升效果保持一致,這表明SEAL發(fā)現(xiàn)的編輯策略不僅適用于單個段落的合成數(shù)據(jù)生成,還能推廣到更廣泛的場景。


僅需兩次迭代,SEAL就超過了使用GPT-4.1數(shù)據(jù)的效果,后續(xù)迭代的提升效果逐漸減弱,表明策略迅速收斂到一種能夠「將段落提煉為易于學(xué)習(xí)的基本事實(shí)」的編輯風(fēng)格。


從例子中,可以看到強(qiáng)化學(xué)習(xí)可以促使生成更詳細(xì)的自編輯內(nèi)容,而這些更詳細(xì)的編輯又反過來提升了整體性能。

參考資料:

https://arxiv.org/abs/2506.10943


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
誰能想到!郭有才一個現(xiàn)象級的千萬粉絲大網(wǎng)紅,隕落的會如此之快

誰能想到!郭有才一個現(xiàn)象級的千萬粉絲大網(wǎng)紅,隕落的會如此之快

老吳教育課堂
2025-07-08 16:58:46
美最高法院8:1支持總統(tǒng)行政權(quán),僅拜登提名男女不分大法官反對

美最高法院8:1支持總統(tǒng)行政權(quán),僅拜登提名男女不分大法官反對

移光幻影
2025-07-09 13:41:00
大清智慧,為中國攢下的殷實(shí)家底

大清智慧,為中國攢下的殷實(shí)家底

叫我大強(qiáng)
2025-07-09 13:43:53
“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

科技處長
2025-04-30 18:29:56
依舊頂級!今年前三個大滿貫賽事,德約科維奇全部闖入四強(qiáng)

依舊頂級!今年前三個大滿貫賽事,德約科維奇全部闖入四強(qiáng)

直播吧
2025-07-10 12:21:46
一個縣委書記的生活:在縣長面前霸氣立威,暗訪單身女下屬家

一個縣委書記的生活:在縣長面前霸氣立威,暗訪單身女下屬家

牛城王小帥
2024-07-03 11:51:54
宋玉慶:高唱打敗美帝野心狼,晚年卻全家移居美國,83歲現(xiàn)狀如何

宋玉慶:高唱打敗美帝野心狼,晚年卻全家移居美國,83歲現(xiàn)狀如何

往史過眼云煙
2025-05-07 08:40:07
當(dāng)前很火的五部電視劇,《以法之名》跌至第三,第一斷層領(lǐng)跑

當(dāng)前很火的五部電視劇,《以法之名》跌至第三,第一斷層領(lǐng)跑

動物奇奇怪怪
2025-07-09 11:16:57
3名干部被查,1人已退休8年,2人先后任同一職務(wù)

3名干部被查,1人已退休8年,2人先后任同一職務(wù)

魯中晨報
2025-07-10 15:52:12
評論區(qū)一小仙女說自己天生骨架大,瘦下來也是胖的,網(wǎng)友發(fā)表看法

評論區(qū)一小仙女說自己天生骨架大,瘦下來也是胖的,網(wǎng)友發(fā)表看法

阿傖說事
2025-07-08 15:11:57
擔(dān)心的事終于發(fā)生!數(shù)千噸稀土被運(yùn)往美國,兩個國家充當(dāng)了幫兇

擔(dān)心的事終于發(fā)生!數(shù)千噸稀土被運(yùn)往美國,兩個國家充當(dāng)了幫兇

說說史事
2025-07-10 15:45:35
科貝記者:別找任何借口,皇馬比賽失利唯一原因是巴黎太強(qiáng)了

科貝記者:別找任何借口,皇馬比賽失利唯一原因是巴黎太強(qiáng)了

懂球帝
2025-07-10 06:38:05
穿越了?戰(zhàn)國古墓驚現(xiàn)現(xiàn)代玻璃杯!2000年前水晶飾品大曝光!

穿越了?戰(zhàn)國古墓驚現(xiàn)現(xiàn)代玻璃杯!2000年前水晶飾品大曝光!

珠寶匠
2025-07-10 08:22:33
毛主席追悼會前10分鐘發(fā)生了一件事,華國鋒面色鐵青:不要搗亂!

毛主席追悼會前10分鐘發(fā)生了一件事,華國鋒面色鐵青:不要搗亂!

燕小姐說歷史
2023-08-08 08:54:32
80萬鉆戒借表姐結(jié)婚,第二天卻說被偷了,我微笑說是塑料的,她愣了

80萬鉆戒借表姐結(jié)婚,第二天卻說被偷了,我微笑說是塑料的,她愣了

眼淚博物
2025-07-08 17:36:15
買1塊7過期飲料獲賠千元 撕開標(biāo)簽發(fā)現(xiàn)飲料已過期2天 法院:屬違法行為 退1.73元 賠1000元

買1塊7過期飲料獲賠千元 撕開標(biāo)簽發(fā)現(xiàn)飲料已過期2天 法院:屬違法行為 退1.73元 賠1000元

閃電新聞
2025-07-10 15:58:15
頑固臺獨(dú)分子柯建銘,家族在大陸的投資產(chǎn)業(yè),柯家金脈即將斷絕

頑固臺獨(dú)分子柯建銘,家族在大陸的投資產(chǎn)業(yè),柯家金脈即將斷絕

諾言卿史錄
2025-07-08 14:00:52
悲催!網(wǎng)傳成都一34歲程序員猝死,是外包員工,單位發(fā)動同事捐款

悲催!網(wǎng)傳成都一34歲程序員猝死,是外包員工,單位發(fā)動同事捐款

明月雜談
2025-07-10 05:15:16
廚師招聘,不招共產(chǎn)主義者和LGBTQ+!引眾怒…

廚師招聘,不招共產(chǎn)主義者和LGBTQ+!引眾怒…

意訊
2025-07-09 23:40:00
廣東民辦普通本科院校(24 所)錄取分?jǐn)?shù)參考及火熱專業(yè)學(xué)費(fèi)

廣東民辦普通本科院校(24 所)錄取分?jǐn)?shù)參考及火熱專業(yè)學(xué)費(fèi)

書中自有顏如玉
2025-07-10 14:02:11
2025-07-10 18:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13034文章數(shù) 66084關(guān)注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費(fèi)2千,會不會三觀不正?

頭條要聞

武漢男子斥不拴繩遛狗被打傷 次日送娃上學(xué)遭挑釁尾隨

頭條要聞

武漢男子斥不拴繩遛狗被打傷 次日送娃上學(xué)遭挑釁尾隨

體育要聞

北美四大職業(yè)聯(lián)盟 又多了一位中國球員

娛樂要聞

宋佳,真的好叛逆!

財經(jīng)要聞

潮玩規(guī)模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時尚
數(shù)碼
游戲
公開課
軍事航空

夏天衣服千萬別買太多,認(rèn)準(zhǔn)T恤和連衣裙,舒適大方又高級

數(shù)碼要聞

16GB 599 元、32GB 1199 元,英睿達(dá) DDR5-6400 CUDIMM 內(nèi)存上市

這款國產(chǎn)武俠游戲宣布沒“牛”!立繪美女性感到極致

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

內(nèi)塔尼亞胡贈特朗普美軍B-2轟炸機(jī)造型“特別禮物”

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 灵武市| 霍州市| 临沧市| 体育| 南华县| 兴和县| 嘉兴市| 南和县| 宁河县| 肥西县| 广德县| 沭阳县| 安图县| 吕梁市| 改则县| 临湘市| 泸溪县| 济阳县| 新野县| 溧阳市| 宜兴市| 晋城| 白银市| 定结县| 平谷区| 策勒县| 桂平市| 凤台县| 彝良县| 上饶县| 曲周县| 湘潭市| 温州市| 册亨县| 南康市| 新宾| 固始县| 礼泉县| 沁源县| 长岛县| 云浮市|