近日,ICCV 2025(國(guó)際計(jì)算機(jī)視覺大會(huì))公布論文錄用結(jié)果,理想汽車共有 8 篇論文入選,其中 3 篇來自基座模型團(tuán)隊(duì)。
其中,基座模型團(tuán)隊(duì)與高校團(tuán)隊(duì)合作的研究《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》,提出業(yè)界首個(gè)大規(guī)模高質(zhì)量人臉視頻數(shù)據(jù)集 DH-FaceVid-1K。
作為全球首個(gè)以亞洲人臉為主的超大規(guī)模高質(zhì)量人臉視頻數(shù)據(jù)集,DH-FaceVid-1K 數(shù)據(jù)集包含高達(dá) 1200 小時(shí)視頻內(nèi)容,涵蓋 27 萬個(gè)視頻片段,其中亞洲面孔占比達(dá) 83%。這一數(shù)據(jù)集成功解決了當(dāng)前 AI 人像生成領(lǐng)域長(zhǎng)期存在的“亞洲面孔稀缺”難題。
這篇論文是如何構(gòu)建這一數(shù)據(jù)集并解決亞洲面孔稀缺問題的呢?讓我們通過這篇文章來深入探究其核心方法與貢獻(xiàn)。
論文地址:https://arxiv.org/abs/2410.07151
項(xiàng)目主頁:https://luna-ai-lab.github.io/DH-FaceVid-1K/
GitHub鏈接:https://github.com/luna-ai-lab/DH-FaceVid-1K
研究背景:打破數(shù)據(jù)壁壘,從“稀缺”到“豐富”
你有沒有發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象?當(dāng)你使用開源 AI 生成人像視頻時(shí),生成的歐美面孔往往栩栩如生,而亞洲面孔卻總是顯得不夠自然——要么五官比例失調(diào),要么表情僵硬,甚至連基本的亞洲人特征都難以準(zhǔn)確呈現(xiàn)。
這并非 AI 技術(shù)本身“歧視”亞洲人,而是一個(gè)更深層的問題在作祟:用于 AI 訓(xùn)練的人臉視頻數(shù)據(jù)集中,亞洲面孔嚴(yán)重缺失。
什么是人臉視頻數(shù)據(jù)集?
在深入了解 DH-FaceVid-1K(Digital Human-FaceVideo-1K,1K 含義為時(shí)長(zhǎng)在1K 小時(shí)以上)之前,我們需要先理解什么是人臉視頻數(shù)據(jù)集。
簡(jiǎn)單來說,人臉視頻數(shù)據(jù)集就是AI學(xué)習(xí)“認(rèn)人”和“生成人臉”的教材。就像我們學(xué)習(xí)繪畫需要大量觀察真實(shí)的人臉一樣,AI 也需要通過學(xué)習(xí)海量的人臉視頻來理解人臉的結(jié)構(gòu)、表情變化、說話時(shí)的口型變化等細(xì)節(jié)。
這些數(shù)據(jù)集通常包含:
視頻片段:記錄人物說話、微笑、轉(zhuǎn)頭等自然動(dòng)作
音頻信息:與視頻同步的語音內(nèi)容
標(biāo)注信息:標(biāo)記人物的年齡、性別、表情、動(dòng)作等屬性
數(shù)據(jù)集的質(zhì)量和多樣性直接決定了 AI 的“認(rèn)知能力”。如果訓(xùn)練數(shù)據(jù)偏向某一類人群,AI生成的結(jié)果也會(huì)出現(xiàn)相應(yīng)的偏差。
現(xiàn)狀:AI 的“偏見”源于數(shù)據(jù)失衡
目前,全球主流的開源人臉數(shù)據(jù)集面臨著三大瓶頸:規(guī)模有限、質(zhì)量與數(shù)量失衡、以及亞洲人臉數(shù)據(jù)嚴(yán)重不足,這極大制約了生成效果的公平性與實(shí)用性。讓我們看看現(xiàn)有主流數(shù)據(jù)集的情況:
1. CelebV-HQ
總時(shí)長(zhǎng):僅 68 小時(shí);
分辨率:512×512;
問題:數(shù)據(jù)量太小,難以支撐基座模型訓(xùn)練。
2. VoxCeleb2
總時(shí)長(zhǎng):2442 小時(shí);
分辨率:僅 224p;
問題:畫質(zhì)太差,生成的人臉缺乏細(xì)節(jié)。
3. CelebV-Text
亞洲人占比:不足 30%;
問題:族群分布嚴(yán)重失衡。
數(shù)據(jù)集的族群數(shù)據(jù)失衡帶來的后果是顯而易見的。當(dāng)一個(gè)AI模型用 90% 的歐美面孔和 10% 的亞洲面孔訓(xùn)練時(shí),它對(duì)亞洲面孔的理解自然是“一知半解”。這就像一個(gè)只在西餐廳實(shí)習(xí)的廚師,你讓他做中餐,結(jié)果可想而知。
另一方面,這些公開的數(shù)據(jù)集,包括 CelebV-Text 在內(nèi),其通常包含了下圖中列舉的多種噪音,如隨機(jī)出現(xiàn)在畫面中的人手等:
公開數(shù)據(jù)集中的多種噪音
以音頻驅(qū)動(dòng)的人臉生成任務(wù)為例,上述的存在于數(shù)據(jù)集中的噪音會(huì)一致地出現(xiàn)在模型的生成結(jié)果中,影響生成效果與質(zhì)量。
突破:1200 小時(shí)亞洲面孔“教科書”
DH-FaceVid-1K 的出現(xiàn),徹底改變了這一局面。研究團(tuán)隊(duì)用數(shù)據(jù)說話:
規(guī)模之最
1200 小時(shí)視頻內(nèi)容,相當(dāng)于連續(xù)觀看 50 天
27 萬個(gè)視頻片段,每個(gè)都經(jīng)過精心篩選
2 萬個(gè)不同身份,涵蓋各年齡層、各種職業(yè)
質(zhì)量保證
46.5% 的視頻達(dá)到 1080×1080 高清標(biāo)準(zhǔn)
最低分辨率也保證在 512×512 以上
所有視頻都包含清晰的語音內(nèi)容
族群平衡
83% 亞洲面孔,真正的“亞洲面孔大全”
同時(shí)包含 11% 白人、4% 非洲人等,保持適度多樣性
性別分布均衡:男性 55%,女性 45%
和主流數(shù)據(jù)集對(duì)比,DH-FaceVid-1K 無疑在各方面實(shí)現(xiàn)了壓倒性超越。
表1:主流數(shù)據(jù)集與 DH-FaceVid-1K 信息對(duì)比
圖1 主流數(shù)據(jù)集與 DH-FaceVid-1K 的視頻分辨率及時(shí)長(zhǎng)對(duì)比
這些數(shù)字背后,是對(duì)“讓 AI 公平認(rèn)識(shí)世界上每一張面孔”這一理念的堅(jiān)持。
技術(shù)實(shí)現(xiàn):不只是“大”,更要“精”
傳統(tǒng)數(shù)據(jù)集制作的困境
人臉視頻數(shù)據(jù)對(duì) AI 的訓(xùn)練至關(guān)重要,但要獲取高質(zhì)量的數(shù)據(jù)集卻充滿挑戰(zhàn)。傳統(tǒng)方法通常面臨諸多挑戰(zhàn):
數(shù)據(jù)收集難題:之前的人臉視頻數(shù)據(jù)集,比如 CCv2,VoxCeleb2 等,其數(shù)據(jù)來源可以分成兩種,即雇傭?qū)I(yè)演員在攝影棚或綠幕錄制與在網(wǎng)絡(luò)爬取,其中前者的問題有:
錄制環(huán)境與實(shí)際模型推理環(huán)境差異較大,如綠幕的背景單一,影響模型的泛化性能。
數(shù)據(jù)來源單一,通常是數(shù)名到數(shù)百名演員協(xié)作錄制,同時(shí)也難以保證數(shù)據(jù)集的總時(shí)長(zhǎng)。
演員錄制的視頻自然程度通常低于來自網(wǎng)絡(luò)或數(shù)據(jù)眾包平臺(tái)的數(shù)據(jù),通俗點(diǎn)講,就是“演出來的終究沒有發(fā)生的自然”。
而在網(wǎng)絡(luò)爬取的數(shù)據(jù)集突出的問題有:
版權(quán)與隱私風(fēng)險(xiǎn)高:直接從網(wǎng)絡(luò)抓取視頻存在顯著的版權(quán)侵權(quán)風(fēng)險(xiǎn),且難以保證個(gè)人隱私得到充分保護(hù)。
原始質(zhì)量參差不齊:網(wǎng)絡(luò)視頻來源復(fù)雜,分辨率和清晰度差異巨大,混雜著大量不符合要求的內(nèi)容。
目前幾乎所有的公開人臉視頻數(shù)據(jù)集都面臨上述問題,難以同時(shí)保證數(shù)據(jù)安全性、多樣性、質(zhì)量與總時(shí)長(zhǎng)。
數(shù)據(jù)處理方面:以 prompt 提取為例,目前公開數(shù)據(jù)集也大致可以分成手工處理和全自動(dòng)化處理兩種,二者共同面臨下面的問題:
人工依賴重、成本高:篩選清洗海量視頻極度依賴人力,消耗巨大。
缺乏統(tǒng)一篩選標(biāo)準(zhǔn):缺乏系統(tǒng)化的評(píng)估框架,導(dǎo)致數(shù)據(jù)篩選標(biāo)準(zhǔn)主觀隨意,影響數(shù)據(jù)集質(zhì)量的一致性。
效率極其低下:傳統(tǒng)手工作業(yè)模式下,清洗 1 小時(shí)的原始視頻內(nèi)容,甚至可能需要消耗 10 小時(shí)人工,成為規(guī)?;a(chǎn)的巨大障礙。
自動(dòng)化處理則缺乏人工監(jiān)管的介入,導(dǎo)致提取出的 prompt 信息等數(shù)據(jù)失真。
三階段嚴(yán)格篩選流程
為突破以上困境,我們?cè)O(shè)計(jì)并實(shí)施了行業(yè)內(nèi)極其嚴(yán)格的三階段數(shù)據(jù)處理流程,核心目標(biāo)就是在確保數(shù)據(jù)安全合規(guī)的前提下,精準(zhǔn)提取高質(zhì)量?jī)?nèi)容。
圖2 數(shù)據(jù)處理流程示意圖
階段一:高質(zhì)數(shù)據(jù)采集與安全初篩
從合規(guī)數(shù)據(jù)眾包平臺(tái)收集 2000+ 小時(shí) 1080p 原始視頻,確保了原始數(shù)據(jù)的質(zhì)量。
內(nèi)容以單人采訪節(jié)目和 Vlog 為主,確保收集的數(shù)據(jù)符合當(dāng)前主流人臉生成模型的應(yīng)用場(chǎng)景。
人臉區(qū)域檢測(cè)裁剪,強(qiáng)制年齡過濾(剔除<22歲個(gè)體),保證了數(shù)據(jù)的安全性。
確保人臉區(qū)域 ≥256×256 像素,保證人臉區(qū)域的清晰度。
階段二:多維度噪聲過濾與質(zhì)量增強(qiáng)
自動(dòng)化過濾:OCR 字幕檢測(cè)、黑邊識(shí)別、多臉剔除,主動(dòng)過濾掉開源人臉視頻數(shù)據(jù)集中存在的諸多問題。
人工精篩:百人團(tuán)隊(duì)歷時(shí)半年交叉審核。
模糊修復(fù):對(duì)殘留模糊樣本采用 CodeFormer 超分辨率增強(qiáng)。
階段三:多模態(tài)標(biāo)注與音頻對(duì)齊
視覺標(biāo)注:DWPose 提取面部關(guān)鍵點(diǎn),PLLaVA 自動(dòng)生成初步屬性標(biāo)簽,并由人工檢查、篩選自動(dòng)生成的標(biāo)簽以確保其質(zhì)量和保真度。
音頻對(duì)齊:基于重訓(xùn)的 SyncNet 模型計(jì)算唇語同步分?jǐn)?shù),確保說話音頻與嘴唇的對(duì)齊程度。
安全合規(guī):全程匿名化處理,禁止深度偽造濫用。
與傳統(tǒng)數(shù)據(jù)集的處理流程比,DH-FaceVid-1K 的分階段、分層次、半自動(dòng)數(shù)據(jù)預(yù)處理流程的優(yōu)勢(shì)在于:
1.從源頭上解決了合規(guī)性與自然度的雙重難題。我們摒棄了網(wǎng)絡(luò)爬取的版權(quán)風(fēng)險(xiǎn)與演員錄制的場(chǎng)景失真,通過合規(guī)眾包平臺(tái)定向采集Vlog、采訪等真實(shí)世界內(nèi)容,確保數(shù)據(jù)來源合法、場(chǎng)景真實(shí),其表情與姿態(tài)的自然度遠(yuǎn)非“扮演”可比。
2.建立了系統(tǒng)化、可量化的質(zhì)量標(biāo)尺,告別主觀篩選。我們摒棄了傳統(tǒng)手工作業(yè)的隨意性,通過人臉尺寸、唇語同步分?jǐn)?shù)等硬性指標(biāo)進(jìn)行自動(dòng)化過濾,再結(jié)合多輪人工交叉審核,形成了一套標(biāo)準(zhǔn)統(tǒng)一、可復(fù)現(xiàn)的質(zhì)量評(píng)估框架,從根本上保證了數(shù)據(jù)集的“精”。
3.實(shí)現(xiàn)了“機(jī)器跑量、人工把關(guān)”的人機(jī)協(xié)同模式,兼顧效率與精度。我們利用自動(dòng)化技術(shù)處理海量的重復(fù)性篩選與初步標(biāo)注工作,再將人力投入到最關(guān)鍵的審核與精校環(huán)節(jié)。這種模式既打破了傳統(tǒng)手工作業(yè)的效率瓶頸,又通過人工監(jiān)督避免了“全自動(dòng)”流程帶來的數(shù)據(jù)失真。
4.交付了即用型(Ready-to-use)的多模態(tài)數(shù)據(jù),極大降低下游應(yīng)用門檻。我們不止提供清洗后的視頻,更交付了一套包含動(dòng)態(tài)面部關(guān)鍵點(diǎn)、視覺屬性、音視頻同步分?jǐn)?shù)等在內(nèi)的結(jié)構(gòu)化標(biāo)簽。開發(fā)者無需再進(jìn)行繁瑣的數(shù)據(jù)預(yù)處理,可直接將數(shù)據(jù)用于模型訓(xùn)練,真正做到“開箱即用”。
數(shù)據(jù)多樣性的全面覆蓋
為了構(gòu)建真正具有實(shí)際應(yīng)用價(jià)值的人臉視頻數(shù)據(jù)集,研究團(tuán)隊(duì)不僅在“量”上達(dá)標(biāo),更在“質(zhì)”與“多樣性”上下足功夫,力求全面覆蓋真實(shí)世界中的人臉特性與行為模式:
年齡分布:從青年到老年四個(gè)階段全覆蓋,真實(shí)反映現(xiàn)實(shí)社會(huì)的年齡結(jié)構(gòu)。
性別平衡:男性 55%,女性 45%,最大程度避免了性別偏見。
表情完整:以中性表情為主,同時(shí)包含了快樂、憤怒等多種豐富的自然情緒狀態(tài),更貼近實(shí)際應(yīng)用場(chǎng)景。
動(dòng)作多樣:涵蓋說話、微笑、頭部運(yùn)動(dòng)等自然行為,增強(qiáng)了數(shù)據(jù)集的活力和應(yīng)用潛力。
外觀特征:30 類特征呈現(xiàn)自然的長(zhǎng)尾分布,尤其強(qiáng)化亞洲相關(guān)屬性。
圖3 數(shù)據(jù)集統(tǒng)計(jì)指標(biāo)
應(yīng)用效果:AI 生成質(zhì)量的飛躍
理解關(guān)鍵評(píng)估指標(biāo)
在展示效果之前,我們需要理解幾個(gè)關(guān)鍵的評(píng)估指標(biāo),它們就像是 AI 生成質(zhì)量的“體檢報(bào)告”:
FID (Fréchet Inception Distance)
含義:衡量生成圖像與真實(shí)圖像的相似度;
原理:計(jì)算兩組圖像在特征空間中的距離;
解讀:分?jǐn)?shù)越低越好,低于50可認(rèn)為質(zhì)量?jī)?yōu)秀;
類比:就像比較仿制品與正品的相似度。
FVD (Fréchet Video Distance)
含義:FID在視頻領(lǐng)域的擴(kuò)展,評(píng)估視頻質(zhì)量;
特點(diǎn):不僅看單幀質(zhì)量,還考慮時(shí)間連貫性;
解讀:分?jǐn)?shù)越低,視頻越自然流暢;
類比:檢查動(dòng)畫是否流暢,有無跳幀或閃爍。
CLIPScore
含義:評(píng)估生成內(nèi)容與文本描述的匹配度;
原理:使用 CLIP 模型計(jì)算圖文相似性;
解讀:分?jǐn)?shù)越高,說明AI越“聽話”;
類比:測(cè)試 AI 是否真正理解了你的需求。
量化指標(biāo)全面提升
使用 DH-FaceVid-1K 訓(xùn)練的模型,在關(guān)鍵指標(biāo)上均有顯著提升:
FID(單幀質(zhì)量):提升 15-20% 的生成的人臉更加真實(shí)細(xì)膩。
FVD(視頻質(zhì)量):提升 20-30% 的動(dòng)作更自然,沒有詭異的抖動(dòng)。
CLIPScore(指令理解):提升 10-15%,更準(zhǔn)確地生成用戶想要的效果。
表2 T2V(Text-to-Video)模型性能對(duì)比
表3 I2V(Image-to-Video)模型性能對(duì)比
在生成“年輕亞洲女性說話”的任務(wù)中,使用新數(shù)據(jù)集訓(xùn)練的模型生成的人臉更加自然、細(xì)節(jié)更加豐富,徹底告別了以往的“AI 臉”痕跡。
圖4 T2V(Text-to-Video)模型生成畫面對(duì)比
圖5 I2V(Image-to-Video)模型生成畫面對(duì)比
意義深遠(yuǎn):推動(dòng) AI 公平性發(fā)展
技術(shù)民主化
DH-FaceVid-1K 的開源發(fā)布,不僅是技術(shù)突破,更是推動(dòng) AI 公平性和包容性發(fā)展的重要里程碑。此次發(fā)布意味著:
全球研究者都能獲得高質(zhì)量的亞洲人臉訓(xùn)練數(shù)據(jù)。
中小團(tuán)隊(duì)也能開發(fā)出優(yōu)秀的亞洲人臉生成模型。
推動(dòng) AI 技術(shù)更加包容和公平。
應(yīng)用場(chǎng)景廣闊
DH-FaceVid-1K 的開源發(fā)布,將為全球研究者提供更公平、更全面的訓(xùn)練資源,推動(dòng)人像生成技術(shù)在虛擬人、遠(yuǎn)程會(huì)議、內(nèi)容創(chuàng)作等領(lǐng)域的廣泛應(yīng)用,除此之外,這一突破將也會(huì)在以下多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響:
虛擬人產(chǎn)業(yè):更真實(shí)的亞洲虛擬主播和數(shù)字人,提升用戶的文化認(rèn)同感。
內(nèi)容創(chuàng)作:為亞洲影視內(nèi)容提供更好的AI工具,降低內(nèi)容制作成本。
教育培訓(xùn):開發(fā)貼近亞洲用戶的虛擬教師,提升在線教育的親和力。
游戲娛樂:創(chuàng)造更真實(shí)的亞洲游戲角色,增強(qiáng)游戲的沉浸感。
結(jié)語
DH-FaceVid-1K 的發(fā)布,不僅是一個(gè)技術(shù)里程碑,更是推動(dòng) AI 向著更加公平、包容方向發(fā)展的重要一步。當(dāng) AI 真正“認(rèn)識(shí)”了全世界的面孔,它才能更好地為全人類服務(wù)。( 投稿或?qū)で髨?bào)道:zhanghy@csdn.net )
2025 全球產(chǎn)品經(jīng)理大會(huì)
8 月 15–16 日
北京·威斯汀酒店
互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人
12 大專題分享,洞察趨勢(shì)、拆解路徑、對(duì)話未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.