99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大施柏鑫團隊、貝式計算CVPR研究:視頻里輕松換衣服、加柯基

0
分享至



視頻是信息密度最高、情感表達最豐富的媒介之一,高度還原現實的復雜性與細節。正因如此,視頻也是編輯難度最高的一類數字內容。在傳統的視頻編輯流程中,若要調整或替換主體、場景、色彩或是移除一個物體,往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊,也很難在復雜場景中保持編輯內容的時間一致性。

近年來,生成式 AI 尤其是擴散模型與多模態大模型的快速迭代,為視頻編輯帶來了全新的解題思路。從早期基于規則的特效工具,到目標識別與自動分割,再到基于文本指令的視頻生成與重繪,盡管 AI 已經為視頻編輯帶來了效率與可控性的雙重提升,但在精度要求較高的場景中仍存在一系列挑戰,例如當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍;對于背景復雜或多目標場景,可能會出現錯位、模糊或語義偏差。

針對于此,北京大學相機智能實驗室(施柏鑫團隊)聯合 OpenBayes貝式計算,以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊,共同提出了一種結合草圖與文本引導的視頻實例重繪方法 VIRES,支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。該方法利用文本生成視頻模型的先驗知識,確保時間上的一致性,同時還提出了帶有標準化自適應縮放機制的 Sequential ControlNet,能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。更進一步地,研究團隊在 DiT(diffusion transformer) backbone 中引入草圖注意力機制,以解讀并注入細顆粒度的草圖語義。實驗結果表明,VIRES 在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有 SOTA 模型。



VIRES 與 5 種現有方法在不同數據集上的多類指標得分

相關研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」為題,已入選 CVPR 2025。



  • 論文主頁:https://hjzheng.net/projects/VIRES/
  • 項目開源地址:https://github.com/suimuc/VIRES
  • Hugging Face地址:https://huggingface.co/suimu/VIRES
  • 研究所用數據集下載地址:https://go.hyper.ai/n5pgy

大規模視頻實例數據集 VireSet

為了實現精準的可控視頻實例重繪,研究團隊標注了大量視頻實例的 Sketch 序列、Mask 以及文本描述,提出了一個配備詳細注釋的大規模視頻實例數據集 VireSet。其中包含了 86k 視頻片段、連續的視頻 Mask、詳細的草圖序列,以及高質量的文本描述。

此前,Meta 曾開源了一個大規模視頻分割數據集 Segment Anything Video dataset(SA-V 數據集),提供了 51k 個視頻以及 643k 個實例 Mask。然而,其中實例 Mask 的標注是間隔 4 幀標注一次,因此 FPS 為 6,導致 Mask 非常不連貫。為了得到連貫的視頻實例 Mask,研究團隊利用預訓練的 SAM-2 模型,對中間幀進行標注,從而將 Mask 的 FPS 提高到 24。效果對比如下所示:


原視頻


SA-V 提供的 Mask


研究團隊標注的 Mask

隨后,研究團隊采用預訓練的 PLLaVA 模型為每個視頻片段生成文本描述,并利用邊緣檢測算法 HED 提取每個視頻實例的 Sketch 序列,為每個實例提供結構上的指導信息。


The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.

結合草圖與文本引導的視頻實例重繪方法 VIRES

VIRES 主要由 3 大模塊組成:帶有標準化自適應縮放的 Sequential ControlNet,帶有草圖注意力機制的 DiT backbone,以及用于改進解碼過程的草圖感知編碼器,VIRES 的工作流程如下圖所示。



VIRES 的工作流程

如圖 a 所示,輸入視頻首先被 VAE 壓縮 64 倍空間緯度和 4 倍時間緯度,變成潛碼,噪聲會根據 Mask 序列被選擇性地添加到潛碼中。隨后,該噪聲潛碼被送入去噪網絡(Denoising network)進行去噪,如圖 b 所示。該網絡由多個具有時間和空間注意力機制的 Transformer 塊堆疊組成。

為了實現對實例屬性的精確控制,研究團隊提出了 Sequential ControlNet,從 Sketch 序列中提取結構布局,如圖 c 所示。為了自適應地捕捉 Sketch 序列中的細節,團隊引入了 Standardized self-scaling 來增強 Sketch 序列中黑色邊緣線與白色背景之間的高對比度過渡。此外,為了確保穩定且高效的訓練,其根據視頻潛碼特征的均值,對齊處理后的 Sketch 特征與視頻潛碼特征,確保 Sketch 特征和視頻潛碼特征具有相似的數據分布。

為了在潛在空間中解釋和注入細粒度的草圖語義,研究團隊設計了 Sketch Attention 來增強去噪網絡的空間注意力塊,如圖 d 所示,Sketch Attention 結合了一個預定義的二進制矩陣 A ,以指示視頻潛碼與 Sketch 序列之間的對應關系。

最后,為了在潛空間內將編輯結果與 Sketch 序列進一步對齊,團隊引入了草圖感知編碼器,提取多級 Sketch 特征來指導解碼過程,如圖 e 所示。

VIRES 的 4 個應用場景:重繪,替換,生成與消除

文本指令可以傳達一般的視頻編輯目標,但在用戶意圖解釋方面仍留有相當大的進步空間。因此,最近的研究引入了額外的引導信息(例如,草圖)以實現更精確的控制。

部分現有的方法,如 RAVE,利用 Zero-Shot 的方式,將圖片編輯模型擴展成視頻編輯模型,但由于依賴預訓練的文本到圖像模型,該方法在時間一致性上表現不佳,不可避免地導致畫面閃爍。


A light orange and white fish swimming in an aquarium

VIRES 通過利用文本到視頻模型的生成先驗,保持了時間一致性并生成了令人滿意的結果。


A light orange and white fish swimming in an aquarium

另外一些方法,如 VideoComposer,在文本到圖像模型中引入時間建模層并微調,但該方法對組合性的關注限制了編輯視頻與提供的 Sketch 序列之間的準確對齊,導致細粒度編輯效果不佳,如下圖所示效果,人物衣服的袖子消失。


A players wears a light green jersey with the white number 1 on the back

VIRES 提出 Sequential ControlNet 和定制的模塊來有效處理 Sketch 序列,將編輯視頻與提供的 Sketch 序列準確對齊,實現細粒度編輯。效果如下圖所示:


A players wears a light green jersey with the white number 1 on the back

對于每個視頻實例,提供重繪的控制條件,包括 Sketch 序列、Mask 序列和相應的文本描述,VIRES 能夠生成與條件一致的編輯視頻。

如下所示,VIRES 有 4 個主要應用場景,首先是視頻實例重繪,例如更換人物身著衣服的材質和顏色;其次是視頻實例替換,例如將視頻中的紅色皮卡替換成黑色 SUV。


第三是定制實例生成,如演示視頻中在戶外雪地增加一只柯基;最后一個場景是指定實例消除,例如刪除視頻中的足球。


VIRES 在多項指標上超越現有 SOTA 模型

研究團隊將 VIRES 與 5 種目前最先進的方法進行了比較,包括 Rerender(SIGGRAPH Asia’23),VidToMe(CVPR’24),Text2Video-zero(ICCV’23),RAVE(ICCV’23),VideoComposer(NeurIPS’24)。

為了確保詳細的比較,其不僅在 VireSet 數據集上進行測試,還在業內廣泛使用的 DAVIS(CVPR’16)數據集上進行了測試。實驗結果顯示,VIRES 在客觀評價指標:視覺感知質量(PSNR)、空間結構一致性(SSIM)、幀運動準確性(WE)、幀間一致性(FC)和文本描述一致性(TC)方面均取得了最佳結果。

此外,團隊還進行了兩項用戶調研,其一是視覺質量評估(VQE),參與者會看到由 VIRES 和對比編輯方法生成的編輯結果,需要選擇最具視覺吸引力的視頻片段。其二是文本對齊評估(TAE),給定一個對應的文本描述,要求參與者從同一組編輯后的結果中選擇最符合該描述的視頻片段。在用戶調研中,VIRES 均取得了最佳結果。

VIRES 與 5 種現有方法在外觀編輯上的表現對比:



VIRES 與 5 種現有方法在結構編輯上的效果對比:



另外值得一提的是,在 Sketch 引導視頻生成方面,VIRES 還支持根據文本描述直接從 Sketch 序列生成完整視頻。在稀疏幀引導視頻編輯方面,VIRES 支持只提供第一幀的 Sketch 來編輯視頻。效果如下所示。



可控視頻生成領域的持續探索

總結來看,VIRES 在草圖與文本引導下實現了實例結構一致性,而從某種角度來看,其也是面向「如何讓空間結構信息在視頻生成中穩定傳遞」這一重要挑戰,給出了一種可靠的解決方案。與此同時,該研究團隊步履不停,在突破這一類目標級控制之后,還將目光投向了全景級別的可控視頻生成。

該研究團隊提出了一種能夠以最小改動,有效將預訓練文本生成視頻模型擴展至全景領域的方法,并將其命名為 PanoWan。該方法采用了緯度感知采樣(latitude-aware sampling)以避免緯度方向的圖像畸變,同時引入旋轉語義去噪機制(rotated semantic denoising)和像素級填充解碼策略(padded pixel-wise decoding),以實現經度邊界的無縫過渡。實驗結果表明,PanoWan 在全景視頻生成任務中的表現達 SOTA 級別,并在零樣本下游任務中展現出良好的泛化能力。相關論文現已發布于 arXiv:https://arxiv.org/abs/2505.22016。

聚焦該研究團隊,北京大學相機智能實驗室(http://camera.pku.edu.cn),負責人施柏鑫,北京大學計算機學院視頻與視覺技術研究所副所長,長聘副教授(研究員)、博士生導師;北京智源學者;北大 - 智平方具身智能聯合實驗室主任。日本東京大學博士,麻省理工學院媒體實驗室博士后。研究方向為計算攝像學與計算機視覺,發表論文 200 余篇(包括 TPAMI 論文 30 篇,計算機視覺三大頂級會議論文 92 篇)。論文獲評 IEEE/CVF 計算機視覺與模式識別會議(CVPR)2024 最佳論文亞軍(Best Paper, Runners-Up)、國際計算攝像會議(ICCP)2015 最佳論文亞軍、國際計算機視覺會議(ICCV)2015 最佳論文候選,獲得日本大川研究助成獎(2021)、中國電子學會青年科學家獎(2024)。科技部人工智能重大專項首席科學家,國家自然科學基金重點項目負責人,國家級青年人才計劃入選者。擔任國際頂級期刊 TPAMI、IJCV 編委,頂級會議 CVPR、ICCV、ECCV 領域主席。APSIPA 杰出講者、CCF 杰出會員、IEEE/CSIG 高級會員。



主要合作者 OpenBayes貝式計算作為國內領先的人工智能服務商,深耕工業研究與科研支持領域,通過為新一代異構芯片嫁接經典軟件生態及機器學習模型,進而為工業企業及高校科研機構等提供更加快速、易用的數據科學計算產品,其產品已被數十家大型工業場景或頭部科研院所采用。

雙方共同在可控視頻生成領域的探索已經取得了階段性成果,相信在這一校企合作模式下,也將加速推進高質量成果早日落地產業。

文中視頻鏈接:

https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今年天津的高考分數線讓無數落戶天津的家長痛哭不已

今年天津的高考分數線讓無數落戶天津的家長痛哭不已

史書無明
2025-06-24 19:27:58
谷歌華人工程師殺妻案再開庭,更多細節披露:案發當晚,遇害者向朋友透露打算離婚

谷歌華人工程師殺妻案再開庭,更多細節披露:案發當晚,遇害者向朋友透露打算離婚

紅星新聞
2025-06-24 17:12:08
官方:個人養老金領取時需繳3%個稅

官方:個人養老金領取時需繳3%個稅

南方都市報
2025-06-24 15:47:31
太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
伊朗宣布將繼續鈾濃縮活動

伊朗宣布將繼續鈾濃縮活動

環球網資訊
2025-06-23 15:13:11
渾身漏成篩子!伊朗10天揪出22名以色列間諜,接連兩天處決兩人

渾身漏成篩子!伊朗10天揪出22名以色列間諜,接連兩天處決兩人

派大星紀錄片
2025-06-24 16:12:22
決裂?曝皇馬9000萬歐巨星惹怒佛爺:訓練擺爛 讓父親找高層抱怨

決裂?曝皇馬9000萬歐巨星惹怒佛爺:訓練擺爛 讓父親找高層抱怨

風過鄉
2025-06-24 21:32:14
稅率3%,養老金要交個人所得稅?真相來了

稅率3%,養老金要交個人所得稅?真相來了

財話連篇
2025-06-24 20:32:59
馬斯克財富激增千億

馬斯克財富激增千億

魯中晨報
2025-06-24 15:23:12
當地回應貴州一高架大橋垮塌!

當地回應貴州一高架大橋垮塌!

MC洋洋拍客
2025-06-24 11:57:11
大利好!央行等六部門重磅發布

大利好!央行等六部門重磅發布

21世紀經濟報道
2025-06-24 19:13:14
“以伊沖突”的3個贏家,兩個輸家

“以伊沖突”的3個贏家,兩個輸家

史政先鋒
2025-06-24 16:45:07
12秒96!陳圓將打破男子110米欄亞洲青年紀錄&成功奪冠

12秒96!陳圓將打破男子110米欄亞洲青年紀錄&成功奪冠

直播吧
2025-06-24 18:12:08
伊朗在屈辱中停火,誰簽了美以“動武通行證”?遞刀者浮出水面

伊朗在屈辱中停火,誰簽了美以“動武通行證”?遞刀者浮出水面

蔣曉峰Terry
2025-06-24 14:03:54
外國留學生闖紅燈撞死人,無證駕駛不服定責,想分期支付16萬了事

外國留學生闖紅燈撞死人,無證駕駛不服定責,想分期支付16萬了事

禾寒敘
2025-06-24 13:37:31
中國擬立法規定:任何單位和個人發現發生或可能發生突發公共衛生事件時應立即報告

中國擬立法規定:任何單位和個人發現發生或可能發生突發公共衛生事件時應立即報告

環球網資訊
2025-06-24 11:09:15
已確認!中國首富換人

已確認!中國首富換人

深圳晚報
2025-06-24 19:21:39
打了12天,特朗普“變卦”了多少回

打了12天,特朗普“變卦”了多少回

中國新聞周刊
2025-06-24 21:38:42
“新型腐敗”盛行,專家怒斥:濫造的新詞讓老百姓討厭!應該嚴懲

“新型腐敗”盛行,專家怒斥:濫造的新詞讓老百姓討厭!應該嚴懲

清游說娛
2025-06-24 13:33:21
網傳扁擔女孩高考728分?已被武漢大學錄取?真相來了!

網傳扁擔女孩高考728分?已被武漢大學錄取?真相來了!

曉風說
2025-06-24 13:16:29
2025-06-24 22:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10709文章數 142343關注度
往期回顧 全部

科技要聞

從十輛到幾百萬輛,中間隔著什么?

頭條要聞

媒體:伊以停火"剛實施就破裂" 特朗普的憤怒不難想象

頭條要聞

媒體:伊以停火"剛實施就破裂" 特朗普的憤怒不難想象

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

6部門:支持居民就業增收 增強消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

健康
教育
旅游
游戲
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

河南2025年高考分數線公布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

狂撒350萬美金的電競比賽,能讓格斗游戲“再次偉大”嗎?

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青铜峡市| 彰武县| 台中县| 本溪| 闸北区| 贵德县| 桂东县| 寻乌县| 华池县| 大荔县| 乳山市| 台中市| 惠州市| 白玉县| 通道| 江达县| 裕民县| 大城县| 徐汇区| 古田县| 邵阳县| 罗定市| 仪陇县| 九龙县| 凤冈县| 长宁县| 德江县| 福清市| 章丘市| 正镶白旗| 克东县| 鄂托克旗| 墨脱县| 铅山县| 莲花县| 兴隆县| 太仆寺旗| 都昌县| 九江市| 黄大仙区| 临清市|