網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

統(tǒng)計可控數(shù)據(jù)合成！新框架突破大模型數(shù)據(jù)生成局限

2025-05-25 13:14:30　來源: 量子位

海南舉報

分享至

麥吉爾大學(xué)團隊投稿
量子位 | 公眾號 QbitAI

現(xiàn)有的數(shù)據(jù)合成方法在合理性和分布一致性方面存在不足，且缺乏自動適配不同數(shù)據(jù)的能力，擴展性較差。

大語言模型受限于采樣效率和上下文窗口大小，難以直接合成大規(guī)模數(shù)據(jù)集。

如何用大模型生成結(jié)構(gòu)對齊、統(tǒng)計可信、語義合理的數(shù)據(jù)，成為了亟待解決的問題。

為此，麥吉爾大學(xué)團隊提出了新方法LLMSynthor

通過這個方法，可以讓大模型變成結(jié)構(gòu)感知的數(shù)據(jù)模擬器，為隱私敏感、數(shù)據(jù)稀缺場景生成不泄密的高質(zhì)量替代數(shù)據(jù)。

LLMSynthor：讓LLM變成“結(jié)構(gòu)感知的生成器”

在人口、電商、出行等場景，數(shù)據(jù)敏感難共享，不同數(shù)據(jù)格式還需單獨設(shè)計模型，成本高、遷移差。

傳統(tǒng)方法如貝葉斯網(wǎng)絡(luò)、GAN等，要么難以建模高維依賴，要么泛化差且不穩(wěn)定，還常生成“9歲博士”這類統(tǒng)計合理但語義荒謬的樣本。

同樣，近期大模型也被用于數(shù)據(jù)生成，但存在采樣慢分布不可控上下文受限等問題，難以高效生成結(jié)構(gòu)完整的大規(guī)模數(shù)據(jù)集。

而LLMSynthor的解法是：讓LLM不直接生成數(shù)據(jù)，而是變成“結(jié)構(gòu)感知的生成器”，通過統(tǒng)計對齊反饋不斷迭代優(yōu)化。

整體框架如下：

Step 1：結(jié)構(gòu)推理

生成可信數(shù)據(jù)，關(guān)鍵是理解變量之間的依賴結(jié)構(gòu)。

傳統(tǒng)Copula模型雖能拆分變量分布與關(guān)系建模，但在高維、多語義場景下難以擴展。

LLMSynthor的關(guān)鍵創(chuàng)新是：用大語言模型模擬Copula

LLM本身可視為一種現(xiàn)實世界聯(lián)合分布的高維先驗，其預(yù)訓(xùn)練過程中已經(jīng)內(nèi)化了人類行為、社會結(jié)構(gòu)的變量共現(xiàn)規(guī)律。

結(jié)合對統(tǒng)計摘要（如頻率、分布等）的理解，它能推斷變量間的高階關(guān)系，并利用語義信息挖掘隱藏依賴。

Step 2：統(tǒng)計對齊

LLMSynthor不直接比對原始數(shù)據(jù)，而是通過統(tǒng)計摘要（如變量分布、聯(lián)合頻率）來衡量真實數(shù)據(jù)與合成數(shù)據(jù)的差距。

這樣，就既保留了結(jié)構(gòu)信息，又避免泄露個體數(shù)據(jù)。

（因為只依賴統(tǒng)計特征，即便輸入的是聚合的指標(biāo)，也能生成結(jié)構(gòu)合理、語義一致的合成數(shù)據(jù)，特別適合人口普查、問卷調(diào)查等隱私敏感場景。）

此外，LLMSynthor的對齊機制是可歸因的：不僅衡量“整體偏離”，還能定位具體偏差來自哪個變量或變量組合。

這種細(xì)粒度反饋能直接用于下一輪生成的結(jié)構(gòu)調(diào)整，實現(xiàn)逐步對齊。

Step 3：生成分布而不是樣本

傳統(tǒng)方法逐條生成樣本，效率低且難控分布。

LLMSynthor改為生成可采樣的分布規(guī)則（proposals），比如：“25歲女性、在一線城市、購買美妝產(chǎn)品”，然后批量采樣，甚至可調(diào)用圖像等外部生成器擴展至多模態(tài)任務(wù)。

proposal同時受統(tǒng)計反饋和LLM常識引導(dǎo)，可自然避免如“10歲博士”一類的荒謬變量組合。

這種方式不僅高效、結(jié)構(gòu)可信，還能通過“分布描述語言”來協(xié)調(diào)其他模型協(xié)同生成，實現(xiàn)跨模態(tài)、多源、多任務(wù)的數(shù)據(jù)合成與模擬

Step 4：迭代對齊

通過“結(jié)構(gòu)推理-統(tǒng)計比較-規(guī)則生成-新數(shù)據(jù)采樣”不斷循環(huán)，模型最終會生成一組結(jié)構(gòu)上、統(tǒng)計上都高度接近真實數(shù)據(jù)，且符合常理的合成數(shù)據(jù)集。

理論保障

除了經(jīng)驗效果，LLMSynthor還具備理論收斂保障。

LLMSynthor團隊提出局部結(jié)構(gòu)一致性定理（Local Structural Consistency）：在合理的假設(shè)下，如果某個變量或變量組分布初始存在偏差，經(jīng)過有限次迭代可將誤差收斂至任意可控范圍。

這說明LLMSynthor不是“憑感覺靠近”，而是有數(shù)學(xué)保障地逐步收斂到真實數(shù)據(jù)結(jié)構(gòu)。

多場景實測

為了驗證LLMSynthor的實用性和穩(wěn)定性，作者在三個具代表性的真實場景中進行了實驗，包括電商交易、人口統(tǒng)計和城市出行。

電商交易生成

這是一個包含連續(xù)與離散變量的混合場景，變量關(guān)系復(fù)雜。

作者基于貝葉斯網(wǎng)絡(luò)構(gòu)建可控數(shù)據(jù)集，設(shè)定明確結(jié)構(gòu)，用于評估建模能力。

結(jié)果顯示，LLMSynthor在邊緣與聯(lián)合分布誤差上均表現(xiàn)最優(yōu)，準(zhǔn)確還原變量依賴。

進一步的預(yù)測實驗也顯示，其合成數(shù)據(jù)訓(xùn)練出的模型在真實數(shù)據(jù)上效果最佳，體現(xiàn)出強實際價值。

人口微觀合成

在人口數(shù)據(jù)包含家庭-個人嵌套結(jié)構(gòu)，天然非結(jié)構(gòu)化。這類數(shù)據(jù)廣泛應(yīng)用于城市規(guī)劃、政策評估、資源配置等關(guān)鍵任務(wù)。LMSynthor可處理此類復(fù)雜結(jié)構(gòu)，并在6類共16項政策指標(biāo)上（如老年貧困率），顯著優(yōu)于已有方法。

城市出行模擬

出行數(shù)據(jù)包含時序、地理、行為等多種復(fù)雜類型，是交通仿真和應(yīng)急管理的基礎(chǔ)。

LLMSynthor基于多源數(shù)據(jù)，成功生成符合城市節(jié)奏的模擬軌跡。更關(guān)鍵的是，它能響應(yīng)prompt控制生成。

比如輸入“晚上8點東京巨蛋有演唱會”，合成數(shù)據(jù)便展現(xiàn)出對應(yīng)時段的潮汐客流變化，展現(xiàn)出現(xiàn)實還原力和場景操控能力，適用于政策仿真與事件預(yù)演。

大模型兼容情況

LLMSynthor生成效率高、無需訓(xùn)練，同時兼容多種大模型，換用如Qwen-2.5-7B等開源模型也能穩(wěn)定運行，具備良好擴展性與落地適配能力。

論文鏈接：https://arxiv.org/pdf/2505.14752
項目地址：https://yihongt.github.io/llmsynthor_web/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.