隨著生成式人工智能技術(shù)的飛速發(fā)展,合成數(shù)據(jù)正日益成為大模型訓(xùn)練的重要組成部分。未來(lái)的 GPT 系列語(yǔ)言模型不可避免地將依賴于由人工數(shù)據(jù)和合成數(shù)據(jù)混合構(gòu)成的大規(guī)模語(yǔ)料。
然而,這一趨勢(shì)也帶來(lái)了嚴(yán)峻挑戰(zhàn):合成數(shù)據(jù)如果不加控制地使用,可能引發(fā) “模型崩潰”(Model Collapse)問(wèn)題。即便僅在一次訓(xùn)練中混入較多比例的合成數(shù)據(jù),也可能導(dǎo)致模型性能急劇下降,難以泛化到真實(shí)世界的數(shù)據(jù)中。
最近在ICML 2025會(huì)議上,來(lái)自上交大等研究機(jī)構(gòu)的研究團(tuán)隊(duì)系統(tǒng)性地剖析了這一問(wèn)題,并提出了一種創(chuàng)新的數(shù)據(jù)生成策略,Token-Level Editing,旨在有效避免模型崩潰。
- 論文標(biāo)題:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
- 論文鏈接:https://arxiv.org/pdf/2412.14689
不同于直接使用生成數(shù)據(jù),該方法在真實(shí)數(shù)據(jù)上引入細(xì)粒度的 “微編輯” 操作,從而構(gòu)建出結(jié)構(gòu)更穩(wěn)定、泛化性更強(qiáng)的 “半合成” 數(shù)據(jù),有效規(guī)避了模型崩潰風(fēng)險(xiǎn)。
非迭代式模型崩潰現(xiàn)象識(shí)別
為了揭示合成數(shù)據(jù)對(duì)語(yǔ)言模型訓(xùn)練的影響,研究團(tuán)隊(duì)系統(tǒng)分析了不同合成比例下的模型訓(xùn)練行為。實(shí)驗(yàn)顯示,即使只進(jìn)行一次預(yù)訓(xùn)練,在數(shù)據(jù)中混入高比例的合成數(shù)據(jù),也會(huì)顯著導(dǎo)致性能下降。這種現(xiàn)象被稱為非迭代式模型崩潰(Non-iterative Collapse),并在多個(gè)語(yǔ)言理解任務(wù)上得到了驗(yàn)證。
通過(guò)進(jìn)一步統(tǒng)計(jì)分析,研究發(fā)現(xiàn),合成數(shù)據(jù)相較于人工數(shù)據(jù)存在兩類結(jié)構(gòu)性缺陷:
- 分布覆蓋收窄:缺乏低頻與長(zhǎng)尾樣本,難以體現(xiàn)語(yǔ)言的多樣性。
- 特征過(guò)度集中:n-gram 等語(yǔ)言特征分布密度過(guò)高,易導(dǎo)致模型過(guò)擬合。
Token-Level Editing
以編輯替代純生成
更精細(xì)、更高質(zhì)量的數(shù)據(jù)生成方式
為了解決上述問(wèn)題,作者團(tuán)隊(duì)提出了一種 Token-Level Editing 方法不依賴生成整段文本,而是在訓(xùn)練數(shù)據(jù)中僅針對(duì)模型 “過(guò)度自信” 的 token 進(jìn)行替換,定義如下編輯規(guī)則:
理論結(jié)果
測(cè)試誤差有限上界,避免模型崩潰
作者進(jìn)一步構(gòu)建了線性回歸分析框架,并證明 Token-Level Editing 過(guò)程的測(cè)試誤差存在固定上界:
相比模型崩潰中的誤差線性上升,這里誤差被嚴(yán)格約束,不隨迭代輪次增長(zhǎng)。其關(guān)鍵原理在于:
每輪編輯操作只對(duì)一小部分樣本進(jìn)行調(diào)整,模型始終保持對(duì)真實(shí)數(shù)據(jù)分布的覆蓋,避免了分布轉(zhuǎn)移和特征過(guò)度集中。
進(jìn)一步地,如果編輯矩陣 M_n 的影響強(qiáng)度遞減(滿足 ),則最終誤差上界進(jìn)一步優(yōu)化為:
該理論說(shuō)明,即使在多輪訓(xùn)練中,Token-Level Editing 依然能夠從數(shù)學(xué)上阻止誤差的無(wú)界增長(zhǎng),實(shí)現(xiàn) “理論上不崩潰” 的數(shù)據(jù)增強(qiáng)路徑。
實(shí)驗(yàn)結(jié)果
從預(yù)訓(xùn)練到微調(diào)全面驗(yàn)證方法有效性
為全面驗(yàn)證 Token-Level Editing 的有效性,研究團(tuán)隊(duì)在語(yǔ)言模型訓(xùn)練的三個(gè)關(guān)鍵階段進(jìn)行了系統(tǒng)實(shí)驗(yàn):
- 預(yù)訓(xùn)練階段(Pre-training):在通用任務(wù)如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入編輯數(shù)據(jù)后表現(xiàn)持續(xù)優(yōu)于純合成數(shù)據(jù)方案。例如在 OLMo-1B 上,整體任務(wù)平均分提升了 +0.36 個(gè)百分點(diǎn)。
- 持續(xù)預(yù)訓(xùn)練階段(Continual Pre-training):在生物醫(yī)藥、金融、數(shù)學(xué)等專業(yè)任務(wù)中,Token-Level Editing 帶來(lái)了跨域的泛化提升。例如在 PubMedQA 任務(wù)中,準(zhǔn)確率提升高達(dá) +13.6%。
- 監(jiān)督微調(diào)階段(Supervised Fine-tuning):在指令理解與代碼推理等復(fù)雜任務(wù)中,編輯數(shù)據(jù)同樣展現(xiàn)了對(duì)多樣語(yǔ)言指令的強(qiáng)魯棒性。以 LLaMA-3 為例,平均提升 +0.4~0.5%,且在多個(gè)任務(wù)上保持一致性優(yōu)勢(shì)。
此外,為驗(yàn)證方法的穩(wěn)健性,研究還進(jìn)行了多輪消融實(shí)驗(yàn),包括:
- 編輯閾值 p 的變化范圍;
- 多種采樣策略(Top-k、Top-p、拒絕采樣);
- 不同 token 置信度分布下的替換比例。
結(jié)果顯示:在不增加訓(xùn)練數(shù)據(jù)規(guī)模的前提下,該方法依然具備良好可控性與可遷移性,具備強(qiáng)大的實(shí)際落地潛力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.