在人工智能領域,基礎模型(Foundation Models)的預訓練數據質量一直被認為至關重要。我們最新的研究《Slight Corruption in Pre-training Data Makes Better Diffusion Models》(輕微的預訓練數據擾動如何造就更優秀的擴散模型),第一次全面系統地探討了這些擾動對模型性能的影響,并提出了一種創新的方法來將數據的“瑕疵”轉化為模型性能提升的“助力”。本文延續我們之前的工作[1],發現預訓練數據中適度的噪聲也可以提升模型預訓練和下游性能。這項研究成果又卡耐基梅隆大學,香港大學,RIKEN等共同發表于NeurIPS 2024,并獲得了spotlight論文榮譽。
論文標題: Slight Corruption Makes Better Diffusion Models 論文鏈接: https://arxiv.org/pdf/2405.20494 論文模型及代碼: https://huggingface.co/DiffusionNoise
一、研究背景
擴散模型(Diffusion Models)近年來在生成高質量圖像、音頻和視頻方面取得了令人矚目的成功,其背后的一大推動力是大規模的預訓練數據。例如,著名的Stable Diffusion模型依賴于從互聯網上爬取的數十億對圖文數據(如LAION-2B),這些數據不僅為模型提供了豐富的訓練語料,還幫助其實現了高度多樣化和條件化的生成能力。這種方法顯著提升了擴散模型的生成效果,使其在藝術創作、內容生成等任務中表現出色。
然而,大規模數據的收集和處理并非毫無挑戰。盡管這些數據集通常會經過嚴格的篩選和過濾,但誤配對樣本(condition corruption)依然不可避免,例如錯誤的圖像標簽、文本描述不匹配、甚至無意義的內容。這些誤配對樣本被認為是大規模數據不可避免的“副產品”,傳統觀點通常認為它們會削弱模型性能,增加生成的噪聲和不一致性。
然而,我們的研究挑戰了這一傳統認知。通過系統性實驗,我們發現,輕微的預訓練數據擾動(例如2.5%-7.5%的條件誤配對)不僅不會對模型性能造成顯著負面影響,反而能夠幫助擴散模型生成更高質量、更具多樣性的內容。令人驚訝的是,這一發現與我們此前在CLIP和ImageNet分類器的研究結論高度一致:輕微的標簽噪聲在特定情況下可以幫助模型在域內任務(In-Domain Tasks)中提升性能[1]。
這一觀察背后的潛在原因可能是,輕微的噪聲引導模型利用更多的數據維度來學習特征分布,從而增加生成數據的多樣性和質量。同時,噪聲還能避免模型過度擬合數據中的偏差或冗余模式,使生成的分布更貼近真實數據分布。這一發現不僅為擴散模型的優化提供了新的視角,也對理解大規模數據預訓練過程中的數據偏差提出了重要見解。
隨著生成模型的廣泛應用,我們的研究不僅為擴散模型的設計和訓練帶來了新思路,還為開發更健壯、更通用的生成系統提供了理論基礎和實踐方法。
二、實驗發現
為了全面研究預訓練數據擾動對擴散模型的影響,我們設計了系統性實驗,涵蓋預訓練和下游任務兩個部分。以下是實驗的具體設置以及主要發現。
2.1 實驗設置
模型:我們采用了多種擴散模型,包括Latent Diffusion Models (LDMs)、Diffusion Transformers (DiT-XL/2) 和 Latent Consistency Models (LCMs),分別對類條件(class-conditional)和文本條件(text-conditional)的生成任務進行實驗:
LDM-4: Latent Diffusion Model,基于VQ-VAE編碼的潛空間(down-sampling factor為4),圖像分辨率為256×256。
DiT-XL/2: 使用Transformer作為主干網絡的擴散模型。
LCM-v1.5: 針對快速推理優化的Latent Consistency Models,基于Stable Diffusion v1.5
預訓練數據:我們在兩個廣泛使用的數據集上引入了合成擾動:
ImageNet-1K (IN-1K): 為類條件生成任務引入標簽翻轉擾動(隨機將標簽替換為其他類別標簽)。
CC3M: 為文本條件生成任務引入文本替換擾動(隨機交換圖文對中的文本)。
擾動比例(corruption ratio, η)分別設置為0%、2.5%、5%、7.5%、10%、15%、20%。
預訓練評價指標:
生成質量和保真度:使用Fréchet Inception Distance (FID) 和 Inception Score (IS)。
多樣性和覆蓋率:使用Precision-Recall (PR) 曲線和樣本熵值(Sample Entropy)。
我們在Appendix里提供了其他metric的測試結果,如sFID, Memorization Ratio, RMD (sample complexity), L2 distance.
下游任務實驗設置:預訓練之后,我們研究了擴散模型在兩個下游個性化任務中的表現:
ControlNet:基于空間條件(如Canny邊緣圖和語義分割掩碼)控制生成。
T2I-Adapter:在文本條件生成中結合額外的輸入模態以提高可控性。數據集:
我們選用ImageNet-100(IN-100)作為個性化任務的數據集,并使用OpenCV Canny檢測器和SegmentAnything(SAM)生成邊緣和分割掩碼作為輸入條件。
下游任務評價指標:與預訓練一致,包括FID、IS、Precision 和 Recall。
2.2 Pre-training結果
輕微擾動提升生成質量和多樣性
更高的質量:通過在不同程度擾動的條件下訓練模型,我們發現2.5%-7.5%的擾動比例顯著提高了生成圖像的質量。例如,在IN-1K數據集上的類條件生成任務中,2.5%擾動的LDM-4模型,其FID從未擾動模型的9.44降至7.00。這表明輕微擾動幫助模型更好地捕捉特征分布,生成更接近真實分布的樣本。
更豐富的多樣性:輕微擾動同樣顯著提升了生成樣本的多樣性。以文本條件生成任務(CC3M數據集)為例,7.5%擾動的模型在CLIP Score上從19.85提升至17.93,同時熵值(Sample Entropy)和相對馬氏距離(Relative Mahalanobis Distance, RMD)也有所增加,反映出生成分布的覆蓋范圍更廣。
擾動程度的非線性效應
提升-退化:隨著擾動比例從0%逐步增加到20%,生成質量和多樣性呈現出“先提升后下降”的非線性趨勢。例如,在IN-1K數據集中,FID在擾動比例達到7.5%時達到最優(7.00),而當擾動比例增加到15%時,FID略有上升至9.18。這表明,過高的擾動可能會干擾模型捕捉有用的特征。
偏向于低噪聲的設置:與以往研究的高噪聲標簽學習不同,我們的結果表明低比例(2.5%-7.5%)的擾動不僅是可行的,還可以成為優化生成模型性能的有效策略。
跨模型一致性
輕微擾動的效應在多種擴散模型上得到了驗證,包括LDM-4、DiT-XL/2和LCM-v1.5。這表明這種方法具有廣泛適用性。即使在Transformer架構,如DiT-XL/2中,輕微擾動也能提高生成能力。
視覺表現的顯著改進
我們進一步通過生成樣本的視覺評估驗證了輕微擾動的優越性。例如,在文本條件生成任務中,7.5%擾動的模型生成的圖像更加逼真且多樣化,展示了更豐富的細節和場景變化。
輕微擾動增強個性化生成性能
ControlNet實驗:在基于Canny邊緣圖和SAM分割掩碼的個性化任務中,輕微擾動的預訓練模型表現優異。這表明,預訓練中的輕微擾動為下游任務提供了更通用和更具適應性的特征表示。
T2I-Adapter實驗:文本條件生成任務中,預訓練擾動的優勢也更加明顯。
增強模型的多樣性與保真度平衡
在下游任務中,我們觀察到輕微擾動的模型不僅在FID指標上表現更優,還在Precision-Recall曲線上表現出更好的平衡性。例如,在IN-100的ControlNet實驗中,2.5%擾動的模型在Precision和Recall上分別達到0.84和0.58,顯著優于未擾動模型的0.82和0.61。這表明輕微擾動有效改善了模型生成的覆蓋率,同時維持了較高的精確性。
下游任務的視覺評估
改進我們通過對生成圖像的視覺質量進行對比,發現輕微擾動的模型能夠生成更加自然且多樣化的圖像。
高效適配的能力
我們發現輕微擾動的預訓練模型在進行下游任務的微調時具有更高的適應性。例如,與未擾動模型相比,輕微擾動的模型在少量標注數據的情況下,仍能實現顯著的性能提升。這說明輕微擾動不僅能提升預訓練階段的表現,還能為下游任務提供更具泛化性的初始權重。
三、理論分析
我們通過理論分析揭示了輕微數據擾動如何在生成質量和多樣性上影響擴散模型的性能。本部分分為兩部分:生成多樣性的提升和生成質量的改善,并結合我們的數學建模和分析,提供直觀的解釋和數學依據。
3.1 生成多樣性:輕微擾動擴展生成分布
核心觀察:
輕微擾動能有效提升生成樣本的多樣性,使生成分布覆蓋更多的數據空間。我們通過計算生成分布的熵值(Entropy)作為多樣性的度量,高熵表示生成分布更廣泛地覆蓋數據空間,而低熵則意味著生成分布過于集中。
理論證明:
在生成多樣性方面,我們提出并證明了以下定理:
定理 1:
對于任意類別 ,在生成長度 足夠大的情況下,若訓練數據的經驗協方差矩陣為滿秩,且類別的期望范數 為常數,則有:
其中:
和 分別為帶有擾動和無擾動條件的生成分布的熵值;
為擾動控制參數;
為數據維度。
這一結論表明,條件擾動能夠增加生成分布的熵值,提升生成樣本的多樣性。此外,熵值的提升程度與擾動大小 和數據維度 成正比。這也與我們實驗中發現的結果一致,即輕微擾動( 小且適中)能夠提升多樣性,而過大的擾動會導致分布失衡。
我們在不同擾動比例下觀察到樣本熵值的變化,如IN-1K和CC3M數據集中,2.5%-7.5%擾動的模型的熵值顯著高于未擾動的模型,進一步驗證了理論結論。
3.2生成質量:輕微擾動優化分布對齊
核心觀察:
輕微擾動能夠改善生成分布與真實數據分布的對齊程度,進而提升生成樣本的質量。我們采用2-Wasserstein距離作為衡量分布對齊程度的指標,距離越小,生成分布越接近真實數據分布,生成樣本質量越高。
理論證明:
在生成質量方面,我們提出并證明了以下定理:
定理 2:
對于任意類別 ,在生成長度 足夠大的情況下,若類別的期望范數 為常數,假設 ,則有:
其中:
為真實分布, 和 分別為無擾動和有擾動條件下的生成分布;
為2-Wasserstein距離;
為類別 的樣本數量;
為數據維度。
這一結果表明,輕微的條件擾動能夠使生成分布更接近真實分布,即生成質量有所提升。此外,當 取適當的值時(如實驗中的2.5%-7.5%擾動),生成分布的對齊效果最為顯著,進一步驗證了我們的實驗結論。
在IN-1K和CC3M數據集中,我們觀察到,隨著輕微擾動的引入,FID顯著下降,表明生成分布與真實分布的對齊程度得到了改善。
3.3 Conditional Embedding Pertubation
輕微擾動在預訓練數據中展現出提升模型性能的潛力,但直接操作預訓練數據可能并不總是現實可行。為此,我們提出了一種創新的擾動方法,稱為**Conditional Embedding Perturbation (CEP)**,通過對條件嵌入層(conditional embedding layer)直接添加隨機擾動,模擬數據中的輕微噪聲,從而提升模型的生成質量和多樣性。
四、核心思想
CEP的核心思想是,在預訓練和下游任務的訓練過程中,對模型的條件嵌入(例如文本嵌入或類別嵌入)添加輕微擾動,而無需修改底層的數據或模型結構。具體而言,假設條件嵌入為 ,我們將其調整為:
其中:
是服從正態分布或均勻分布的隨機噪聲;
是控制擾動幅度的超參數。
通過在條件嵌入中加入輕微擾動,CEP可以有效模擬預訓練數據中的輕微噪聲,同時避免了直接修改數據可能帶來的額外開銷或不一致性。
五、實驗驗證
我們在多個生成任務和數據集上評估了CEP的有效性,包括IN-1K的類條件生成任務和CC3M的文本條件生成任務。以下是CEP的具體表現:
1. 生成質量和生成多樣性的提升: 在IN-1K數據集上,使用CEP的模型(擾動幅度 ( )的FID從未加擾動模型的9.44顯著降低,顯示了更高的生成質量。Precision-Recall曲線顯示,CEP不僅提升了生成的多樣性(Recall),還維持了高精確度(Precision)。
2. 對不同模型的通用性: CEP在LDM、DiT和LCM等多種擴散模型中均表現出一致的性能提升,證明了該方法的通用性。
例如,在LDM-4模型上,CEP將FID從9.44降至7.01,而在DiT-XL/2模型上,CEP將FID從6.76降至5.51。
3. 對下游任務的適用性: 在下游任務中,CEP對生成性能的提升尤為顯著。例如,在基于ControlNet的個性化生成任務中,使用CEP預訓練的模型,其FID從11.59進一步降低至11.14,同時多樣性指標(熵值和Recall)也顯著提高。類似地,在T2I-Adapter任務中,CEP的模型生成的圖像更加逼真,且對額外的條件輸入(如邊緣圖或分割掩碼)的響應更精確。
六、未來展望
隨著生成模型和預訓練數據規模的不斷增長,理解數據擾動對模型性能的影響變得尤為重要。我們的理論分析不僅揭示了輕微擾動的潛在優勢,也為未來研究更復雜的數據偏差和噪聲類型奠定了基礎。此外,我們相信,這種分析方法還可以推廣到其他生成模型(如GAN和自回歸模型),從而為生成任務的優化提供更廣泛的指導。CEP提供了一種高效且靈活的方式來模擬和利用數據中的輕微噪聲。未來,我們計劃將CEP推廣到更多類型的生成任務中,例如對話生成、語言生成,以及多模態生成任務。同時,我們還將探索如何動態調整使CEP能夠適應不同數據分布和任務需求,進一步提升模型性能和魯棒性。
參考資料
[1] Chen, H., Wang, J., Shah, A., Tao, R., Wei, H., Xie, X., Sugiyama, M. and Raj, B., 2023. Understanding and mitigating the label noise in pre-training on downstream tasks. ICLR 2024.
作者:王晉東 來源:公眾號【王晉東不在家】
-The End-
本周上新!
掃碼觀看!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線500+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.