99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

會「進化」的合成數據!無需上傳隱私,也能生成高質量垂域數據

0
分享至



張劍清是一名上海交通大學在讀博士生,獲中國人工智能學會「青托」、吳文俊人工智能榮譽博士及國家獎學金。在代碼大模型、合成數據集進化生成、聯邦學習與推薦系統方向取得系列成果,主要關注其中的垂域自適應、模型融合、模型個性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發表9篇CCF-A一作論文,主導并開源了PFLlib、HtFLlib、EvolveGen等項目,曾在字節跳動、清華AIR、KAUST、騰訊等機構實習交流。

數據短缺問題隨著大模型的高速發展,日益加劇。已經有不少 Nature 論文指出,預計到 2028 年,公共數據的產生速度將因趕不上大模型訓練的消耗速度而被耗盡。而在某些特殊領域,比如醫療、工業制造等,原本可用數據就非常少,數據短缺的問題更嚴重。

為了解決這一困境,我們提出了合成數據自主進化框架 PCEvolve:只需提供少量標注樣本,就可在保護隱私同時進化出一整個數據集。PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。



  • 論文標題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
  • 論文鏈接:https://www.arxiv.org/abs/2506.05407
  • 開源代碼:https://github.com/TsingZ0/PCEvolve
  • 進化生成開源平臺:https://github.com/TsingZ0/EvolveGen

現有大模型 API 并不能拿來直接合成垂域數據

垂直領域的中小企業普遍不具備訓練私有大模型的能力,而傾向于使用現成的大模型 API(下文簡稱「大模型」)。人造合成數據是目前解決數據短缺問題所采用的主流方法:讓已有大模型生成數據,再進行篩選、標注、清洗等步驟,得到高質量訓練數據。

然而,當應用到垂直領域,如醫療、工業制造等領域,大模型雖然能夠根據 prompt 生成對應的數據,但滿足「語義匹配」的數據,并不能直接拿來作為垂直領域數據使用。這是因為:垂直領域的數據還有各種其他特性信息,比如光照、數據采樣設備型號、隱私信息、上下文等。

舉例來說,皮革在不同環境、材質、磨損程度等方面,都具備太多細節信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數據,因為大模型本身還無法完全模擬世界。

如下圖所示,大模型生成的數據,和垂域攝像機拍攝的數據,具有巨大的差距,雖然標簽都是「帶有膠水殘留的皮革」。同樣的,在文本領域,讓現成的大模型生成的 code snippet 數據,也無法與某公司內部開發人員的代碼習慣和代碼規范相匹配。而且,這一垂域數據特征分布差異的問題,在任意模態都存在。



【圖 1】左邊為大模型生成,右邊為實際采集。在工業制造皮革領域,大模型生成圖片和實際采集圖片的對比

同時,因為垂域數據可能因為知識產權、隱私保護、行業規范等原因,本地數據不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數據的質量。比如,公司內部的代碼不能上傳、醫院的病人數據不能上傳、企業的次品樣品數據不能上傳等等。

PCEvolve:保護隱私的合成數據進化框架

垂域數據除了不能上傳之外,還具有本身就稀少的特性,導致帶標注的垂域樣本原本就少。這使得其他要求提供大量標注樣本的方法(如 PE 等),不再可用。因為 PE 等方法在垂域情況下,為了保護隱私所加的噪聲過大,使其方法退化為一種隨機方法。而我們的 PCEvolve 在進化過程中設計了一種基于「指數機制」(Exponential Mechanism)的新的隱私保護方法,適配垂域場景的少樣本情況。

下圖是 PCEvolve 的架構圖,左邊是迭代進化框架:類似達爾文進化論,先讓大模型 API 生成較大數量的候選合成數據(種群),再經過【選擇器】(自然選擇)進行淘汰,最后將不帶隱私信息的優質合成數據返回給大模型進行下一輪進化。右邊則是進化框架的「引擎」【選擇器】的詳細設計:以隱私數據作為參考(verifier)給合成數據打分(reward),最后根據分數優勝劣汰;其中打分過程,因為用到了隱私數據,需要作隱私保護。



【圖 2】PCEvolve 架構圖

PCEvolve 選擇器詳細設計

首先我們先聲明:下面所有的操作都需要考慮隱私保護,我們采用的是差分隱私(Differential Privacy, DP),并通過指數機制來實現 DP,其中指數機制定義為:



















  • 執行指數機制選擇存活樣本因為在我們的精心設計下,使得指數機制得以滿足,DP 得以保證。所以這一步變得簡單:我們只需要執行指數機制定義的概率采樣,即可得到帶有隱私保護的高質量合成數據選擇結果。

在醫療場景和工業制造場景的實驗結果

我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數據對于下游模型訓練的增幅,b) 合成數據本身的質量。

a) 合成的數據對于下游模型訓練的增幅

我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現,這里大模型方面我們只需提供 API 即可。



【表 1】在四個特殊領域數據集上的精度(%)

b) 合成數據本身的質量

下圖是我們采樣的皮革表面數據,這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。「Initial」表示大模型 API 合成的圖像(進化之前);「Private」表示垂域場景真實采集的隱私皮革表面數據。



【圖 3】皮革表面圖像數據。

其他更多實驗詳見論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“牡丹花下死”!這次74歲的王石,終究沒逃過“老夫少妻”的殘酷

“牡丹花下死”!這次74歲的王石,終究沒逃過“老夫少妻”的殘酷

葡萄說娛
2025-07-12 09:50:15
華住會是有多怕我被坑?

華住會是有多怕我被坑?

聞旅派
2025-07-11 17:14:49
十大元帥與毛主席的關系親疏,分為三檔,誰在前,誰在后?

十大元帥與毛主席的關系親疏,分為三檔,誰在前,誰在后?

諾言卿史錄
2025-07-04 09:15:10
全球第1大鋼鐵制造商誕生!堪比29個安鋼,年收入超11600億元

全球第1大鋼鐵制造商誕生!堪比29個安鋼,年收入超11600億元

芳芳歷史燴
2025-07-06 05:24:21
頭號克星出局!伊藤美誠淘汰橋本帆乃香,國乒女將決賽形勢大好!

頭號克星出局!伊藤美誠淘汰橋本帆乃香,國乒女將決賽形勢大好!

野渡舟山人
2025-07-12 13:46:41
全球首個擊落隱身戰機的防空部隊,用上中國導彈

全球首個擊落隱身戰機的防空部隊,用上中國導彈

環球網資訊
2025-07-11 06:48:41
這3種食物,不適合與土豆一起吃,容易刺激胃粘膜,引發胃不適

這3種食物,不適合與土豆一起吃,容易刺激胃粘膜,引發胃不適

本草世界
2025-07-11 09:00:03
大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

壹月情感
2025-07-01 21:52:02
網友猜測:幼兒園一直用私井取水,未用自來水,知情人6點回應!

網友猜測:幼兒園一直用私井取水,未用自來水,知情人6點回應!

古希臘掌管松餅的神
2025-07-11 14:00:50
巴黎這一天:熱巴捂胸,楊穎局促,劉詩詩有排面,向佐裹胸好辣眼

巴黎這一天:熱巴捂胸,楊穎局促,劉詩詩有排面,向佐裹胸好辣眼

一娛三分地
2025-07-09 18:06:27
趙麗穎最新露面狀態不佳,眼神疲憊臉頰凹陷,磨皮磨到臥蠶都沒了

趙麗穎最新露面狀態不佳,眼神疲憊臉頰凹陷,磨皮磨到臥蠶都沒了

漫婷侃娛樂
2025-07-12 00:47:17
43歲關凌又胖了大腦門禿頭,兒子跟她拍照不耐煩,被曝私下愛顯擺

43歲關凌又胖了大腦門禿頭,兒子跟她拍照不耐煩,被曝私下愛顯擺

一娛三分地
2025-07-07 19:49:42
還剩2天!大巴黎即將成宇宙隊:有望創2紀錄,28歲巨星金球獎穩了

還剩2天!大巴黎即將成宇宙隊:有望創2紀錄,28歲巨星金球獎穩了

體育知多少
2025-07-12 10:04:00
女子一個月在店里買了165桶水,店家覺異常報警,警方破門后愣了

女子一個月在店里買了165桶水,店家覺異常報警,警方破門后愣了

五元講堂
2025-06-05 12:10:59
中國女排3-1加拿大,鎖定總決賽,張籽萱起伏大,趙勇怒訓:別軟

中國女排3-1加拿大,鎖定總決賽,張籽萱起伏大,趙勇怒訓:別軟

南南說娛
2025-07-12 09:44:48
廣汽集團董事長:全面進入“戰時狀態”!

廣汽集團董事長:全面進入“戰時狀態”!

中國基金報
2025-07-12 00:11:58
老人把1200萬遺產全給兒子,女兒拒絕贍養,律師一句話讓全家傻眼

老人把1200萬遺產全給兒子,女兒拒絕贍養,律師一句話讓全家傻眼

朝暮書屋
2025-07-03 10:35:56
不是價格戰,是生存戰:蔚來在L90上賭了一切

不是價格戰,是生存戰:蔚來在L90上賭了一切

鈦媒體APP
2025-07-12 11:18:22
果然不簡單!央媒曝幼兒鉛中毒最新后續,竟是園長主動“投毒”

果然不簡單!央媒曝幼兒鉛中毒最新后續,竟是園長主動“投毒”

攬星河的筆記
2025-07-09 12:33:44
特朗普將首次動用“總統提用權”向烏克蘭供武

特朗普將首次動用“總統提用權”向烏克蘭供武

參考消息
2025-07-11 11:47:53
2025-07-12 14:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10845文章數 142374關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

美國務院大裁員 有人急了:或使美國難以應對中國

頭條要聞

美國務院大裁員 有人急了:或使美國難以應對中國

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

親子
手機
家居
本地
公開課

親子要聞

圍棋大師走進龍華幼兒園 助力幼苗啟智

手機要聞

小米15默秒全,國產小屏旗艦銷量比比看

家居要聞

生活憧憬 自由浪漫之境

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海丰县| 濉溪县| 漳州市| 体育| 通榆县| 淳化县| 绵阳市| 双牌县| 临澧县| 邯郸县| 永川市| 蓬安县| 凤山县| 革吉县| 文成县| 阿拉尔市| 长寿区| 赞皇县| 白沙| 怀宁县| 宝鸡市| 江永县| 陇南市| 唐山市| 略阳县| 南华县| 铜陵市| 乡宁县| 沁阳市| 安塞县| 义乌市| 樟树市| 四会市| 岳普湖县| 长宁县| 噶尔县| 永德县| 玉龙| 长泰县| 宝清县| 芮城县|