99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

統(tǒng)計可控數(shù)據(jù)合成!新框架突破大模型數(shù)據(jù)生成局限

0
分享至

麥吉爾大學(xué)團隊 投稿
量子位 | 公眾號 QbitAI

現(xiàn)有的數(shù)據(jù)合成方法在合理性和分布一致性方面存在不足,且缺乏自動適配不同數(shù)據(jù)的能力,擴展性較差。

大語言模型受限于采樣效率和上下文窗口大小,難以直接合成大規(guī)模數(shù)據(jù)集。

如何用大模型生成結(jié)構(gòu)對齊、統(tǒng)計可信、語義合理的數(shù)據(jù),成為了亟待解決的問題。

為此,麥吉爾大學(xué)團隊提出了新方法LLMSynthor

通過這個方法,可以讓大模型變成結(jié)構(gòu)感知的數(shù)據(jù)模擬器,為隱私敏感、數(shù)據(jù)稀缺場景生成不泄密的高質(zhì)量替代數(shù)據(jù)。



LLMSynthor:讓LLM變成“結(jié)構(gòu)感知的生成器”

在人口、電商、出行等場景,數(shù)據(jù)敏感難共享,不同數(shù)據(jù)格式還需單獨設(shè)計模型,成本高、遷移差。

傳統(tǒng)方法如貝葉斯網(wǎng)絡(luò)、GAN等,要么難以建模高維依賴,要么泛化差且不穩(wěn)定,還常生成“9歲博士”這類統(tǒng)計合理但語義荒謬的樣本。

同樣,近期大模型也被用于數(shù)據(jù)生成,但存在采樣慢分布不可控上下文受限等問題,難以高效生成結(jié)構(gòu)完整的大規(guī)模數(shù)據(jù)集。

而LLMSynthor的解法是:讓LLM不直接生成數(shù)據(jù),而是變成“結(jié)構(gòu)感知的生成器”,通過統(tǒng)計對齊反饋不斷迭代優(yōu)化。

整體框架如下:



Step 1:結(jié)構(gòu)推理

生成可信數(shù)據(jù),關(guān)鍵是理解變量之間的依賴結(jié)構(gòu)。

傳統(tǒng)Copula模型雖能拆分變量分布與關(guān)系建模,但在高維、多語義場景下難以擴展。

LLMSynthor的關(guān)鍵創(chuàng)新是:用大語言模型模擬Copula

LLM本身可視為一種現(xiàn)實世界聯(lián)合分布的高維先驗,其預(yù)訓(xùn)練過程中已經(jīng)內(nèi)化了人類行為、社會結(jié)構(gòu)的變量共現(xiàn)規(guī)律。

結(jié)合對統(tǒng)計摘要(如頻率、分布等)的理解,它能推斷變量間的高階關(guān)系,并利用語義信息挖掘隱藏依賴。

Step 2:統(tǒng)計對齊

LLMSynthor不直接比對原始數(shù)據(jù),而是通過統(tǒng)計摘要(如變量分布、聯(lián)合頻率)來衡量真實數(shù)據(jù)與合成數(shù)據(jù)的差距。

這樣,就既保留了結(jié)構(gòu)信息,又避免泄露個體數(shù)據(jù)。

(因為只依賴統(tǒng)計特征,即便輸入的是聚合的指標(biāo),也能生成結(jié)構(gòu)合理、語義一致的合成數(shù)據(jù),特別適合人口普查、問卷調(diào)查等隱私敏感場景。)

此外,LLMSynthor的對齊機制是可歸因的:不僅衡量“整體偏離”,還能定位具體偏差來自哪個變量或變量組合。

這種細(xì)粒度反饋能直接用于下一輪生成的結(jié)構(gòu)調(diào)整,實現(xiàn)逐步對齊。

Step 3:生成分布而不是樣本

傳統(tǒng)方法逐條生成樣本,效率低且難控分布。

LLMSynthor改為生成可采樣的分布規(guī)則(proposals),比如:“25歲女性、在一線城市、購買美妝產(chǎn)品”,然后批量采樣,甚至可調(diào)用圖像等外部生成器擴展至多模態(tài)任務(wù)。

proposal同時受統(tǒng)計反饋和LLM常識引導(dǎo),可自然避免如“10歲博士”一類的荒謬變量組合。

這種方式不僅高效、結(jié)構(gòu)可信,還能通過“分布描述語言”來協(xié)調(diào)其他模型協(xié)同生成,實現(xiàn)跨模態(tài)、多源、多任務(wù)的數(shù)據(jù)合成與模擬

Step 4:迭代對齊

通過“結(jié)構(gòu)推理-統(tǒng)計比較-規(guī)則生成-新數(shù)據(jù)采樣”不斷循環(huán),模型最終會生成一組結(jié)構(gòu)上、統(tǒng)計上都高度接近真實數(shù)據(jù),且符合常理的合成數(shù)據(jù)集。



理論保障

除了經(jīng)驗效果,LLMSynthor還具備理論收斂保障。

LLMSynthor團隊提出局部結(jié)構(gòu)一致性定理(Local Structural Consistency):在合理的假設(shè)下,如果某個變量或變量組分布初始存在偏差,經(jīng)過有限次迭代可將誤差收斂至任意可控范圍。



這說明LLMSynthor不是“憑感覺靠近”,而是有數(shù)學(xué)保障地逐步收斂到真實數(shù)據(jù)結(jié)構(gòu)。



多場景實測

為了驗證LLMSynthor的實用性和穩(wěn)定性,作者在三個具代表性的真實場景中進行了實驗,包括電商交易、人口統(tǒng)計和城市出行。

電商交易生成

這是一個包含連續(xù)與離散變量的混合場景,變量關(guān)系復(fù)雜。

作者基于貝葉斯網(wǎng)絡(luò)構(gòu)建可控數(shù)據(jù)集,設(shè)定明確結(jié)構(gòu),用于評估建模能力。





結(jié)果顯示,LLMSynthor在邊緣與聯(lián)合分布誤差上均表現(xiàn)最優(yōu),準(zhǔn)確還原變量依賴。



進一步的預(yù)測實驗也顯示,其合成數(shù)據(jù)訓(xùn)練出的模型在真實數(shù)據(jù)上效果最佳,體現(xiàn)出強實際價值。

人口微觀合成

在人口數(shù)據(jù)包含家庭-個人嵌套結(jié)構(gòu),天然非結(jié)構(gòu)化。這類數(shù)據(jù)廣泛應(yīng)用于城市規(guī)劃、政策評估、資源配置等關(guān)鍵任務(wù)。LMSynthor可處理此類復(fù)雜結(jié)構(gòu),并在6類共16項政策指標(biāo)上(如老年貧困率),顯著優(yōu)于已有方法。





城市出行模擬

出行數(shù)據(jù)包含時序、地理、行為等多種復(fù)雜類型,是交通仿真和應(yīng)急管理的基礎(chǔ)。

LLMSynthor基于多源數(shù)據(jù),成功生成符合城市節(jié)奏的模擬軌跡。更關(guān)鍵的是,它能響應(yīng)prompt控制生成。

比如輸入“晚上8點東京巨蛋有演唱會”,合成數(shù)據(jù)便展現(xiàn)出對應(yīng)時段的潮汐客流變化,展現(xiàn)出現(xiàn)實還原力和場景操控能力,適用于政策仿真與事件預(yù)演。





大模型兼容情況

LLMSynthor生成效率高、無需訓(xùn)練,同時兼容多種大模型,換用如Qwen-2.5-7B等開源模型也能穩(wěn)定運行,具備良好擴展性與落地適配能力。



論文鏈接:https://arxiv.org/pdf/2505.14752
項目地址:https://yihongt.github.io/llmsynthor_web/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
又飆漲!20順位!楊瀚森起飛了!

又飆漲!20順位!楊瀚森起飛了!

生活新鮮市
2025-05-25 14:57:44
60歲的郭富城怎么那么帥?看個賽馬都像在拍大片,品味高級有質(zhì)感

60歲的郭富城怎么那么帥?看個賽馬都像在拍大片,品味高級有質(zhì)感

草莓解說體育
2025-05-25 20:57:34
云南一男子心軟救下小蟒蛇,10年后被野豬追逐,一條9米大蟒出現(xiàn)了

云南一男子心軟救下小蟒蛇,10年后被野豬追逐,一條9米大蟒出現(xiàn)了

古怪奇談錄
2025-05-23 15:08:48
法網(wǎng)開門紅!鄭欽文收獲70分+11.7萬歐獎金,WTA即時排名第5!

法網(wǎng)開門紅!鄭欽文收獲70分+11.7萬歐獎金,WTA即時排名第5!

直播吧
2025-05-25 21:14:44
趙麗穎母親首次曝光,穿大花衣服很富貴,原來女兒隨媽是真的!

趙麗穎母親首次曝光,穿大花衣服很富貴,原來女兒隨媽是真的!

星光看娛樂
2025-05-25 16:32:35
手機里保存了好久的美女,忍痛割愛

手機里保存了好久的美女,忍痛割愛

東方不敗然多多
2025-05-03 02:16:16
國服鐘無艷事件反轉(zhuǎn),被全網(wǎng)嘲笑的女孩,砸車只是她無力的反擊

國服鐘無艷事件反轉(zhuǎn),被全網(wǎng)嘲笑的女孩,砸車只是她無力的反擊

大蘇專欄
2025-05-25 12:46:39
裝都不裝了!日本男足二隊出戰(zhàn),中國男足被算計,印尼喜從天降!

裝都不裝了!日本男足二隊出戰(zhàn),中國男足被算計,印尼喜從天降!

體壇小快靈
2025-05-25 16:27:53
墨爾本城女足隊長:會告訴親戚朋友,武漢真是個旅游的好地方

墨爾本城女足隊長:會告訴親戚朋友,武漢真是個旅游的好地方

懂球帝
2025-05-25 14:57:12
宋世雄,一切都結(jié)束了

宋世雄,一切都結(jié)束了

混沌錄
2025-05-22 22:40:12
陳坤兒子大學(xué)畢業(yè),父子倆餐廳慶祝,23歲陳尊佑五官長開像爸爸

陳坤兒子大學(xué)畢業(yè),父子倆餐廳慶祝,23歲陳尊佑五官長開像爸爸

行走世界的老劉
2025-05-25 12:29:18
韓國大選候選人李在明表示:韓國必須重新考慮與美國的關(guān)稅談判!

韓國大選候選人李在明表示:韓國必須重新考慮與美國的關(guān)稅談判!

愛下廚的阿釃
2025-05-25 21:47:53
程瀟首度攜妹妹上節(jié)目,妹妹有酒窩不如姐姐美,嘆:我媽偏愛妹妹

程瀟首度攜妹妹上節(jié)目,妹妹有酒窩不如姐姐美,嘆:我媽偏愛妹妹

娛樂看阿敞
2025-05-25 14:28:16
張嘉倪前夫買超在常州,住一晚2900元豪華酒店,倆孩子撫養(yǎng)權(quán)歸他

張嘉倪前夫買超在常州,住一晚2900元豪華酒店,倆孩子撫養(yǎng)權(quán)歸他

悠閑歷史
2025-05-25 18:19:15
1961年,斯大林墳?zāi)贡煌陂_,士兵們迅速剝?nèi)ニ姺系慕疴o扣

1961年,斯大林墳?zāi)贡煌陂_,士兵們迅速剝?nèi)ニ姺系慕疴o扣

南權(quán)先生
2025-05-23 17:52:47
母親將手里積蓄200萬全給我,讓我別告訴老公,三年后我:謝謝媽

母親將手里積蓄200萬全給我,讓我別告訴老公,三年后我:謝謝媽

程哥講堂
2025-05-21 17:22:07
“彩虹”無人機家族又添新成員,網(wǎng)友紛紛關(guān)注:“咱媽兜里到底藏了多少貨?”

“彩虹”無人機家族又添新成員,網(wǎng)友紛紛關(guān)注:“咱媽兜里到底藏了多少貨?”

環(huán)球網(wǎng)資訊
2025-05-25 18:49:19
“立即停止!否則中方將堅決應(yīng)對”

“立即停止!否則中方將堅決應(yīng)對”

占豪
2025-05-24 03:37:14
菲律賓下一位總統(tǒng),中美可能都猜錯了,“老對手”卷土重來!

菲律賓下一位總統(tǒng),中美可能都猜錯了,“老對手”卷土重來!

科技有趣事
2025-05-25 10:26:30
恐怖!因接觸「毒王」試劑,多名研究生患癌、失明、毀容、中毒......它到底有多危險

恐怖!因接觸「毒王」試劑,多名研究生患癌、失明、毀容、中毒......它到底有多危險

生物學(xué)霸
2025-05-25 17:55:26
2025-05-25 23:03:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10554文章數(shù) 176153關(guān)注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時工作狀態(tài)

頭條要聞

媒體:王楚欽成世乒賽新王 證明自己無需向誰解釋

頭條要聞

媒體:王楚欽成世乒賽新王 證明自己無需向誰解釋

體育要聞

武漢女足:從大學(xué)校園,到亞洲之巔

娛樂要聞

朱媛媛只留給女兒一句話,卻字字千金

財經(jīng)要聞

重組膠原測不到膠原?800億醫(yī)美巨頭回應(yīng)

汽車要聞

賽博風(fēng)旗艦轎車 全新小鵬P7申報信息曝光

態(tài)度原創(chuàng)

健康
旅游
教育
時尚
親子

唇皰疹和口腔潰瘍是"同伙"嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

如果你使用直接代入的方式來解題,你會陷入誤區(qū)

這四條半身裙,現(xiàn)在穿正好!

親子要聞

孩子總喊屁股癢,千萬別大意!

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 赞皇县| 丹棱县| 长泰县| 句容市| 龙川县| 灵宝市| 宽城| 马关县| 张家口市| 扬中市| 宁化县| 临朐县| 罗田县| 怀化市| 祁东县| 衡南县| 丹阳市| 和平区| 吐鲁番市| 略阳县| 永寿县| 海口市| 定安县| 徐州市| 阳谷县| 凤台县| 平乡县| 阿勒泰市| 阳曲县| 武山县| 商洛市| 绵阳市| 莱芜市| 兴隆县| 八宿县| 濮阳县| 教育| 大新县| 平泉县| 神农架林区| 深泽县|