99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Sci-Fi:對稱約束讓視頻過渡更自然 - 北京大學等機構研究突破

0
分享至

如果你曾經看過電影制作或動畫創作的幕后花絮,你可能注意到了一個有趣的現象:專業人士常常只需要繪制關鍵幀,而中間的過渡動作則由技術來補充。這項被稱為"幀間插值"(Frame Inbetweening)的技術,長期以來一直是計算機視覺領域的重要研究方向。近期,來自北京大學深圳研究生院、偉灣大學、騰訊ARC實驗室和兔小貝智能的研究團隊聯合發布了一項名為"Sci-Fi"的創新研究,顯著提高了這一技術的效果。這項研究發表于2025年5月,可通過論文標題《Sci-Fi: Symmetric Constraint for Frame Inbetweening》在arXiv預印本平臺(arXiv:2505.21205v1)上查閱。

想象一下,你有一段視頻的第一幀和最后一幀,然后希望計算機能夠自動生成中間的所有畫面,讓整個視頻看起來流暢自然。這聽起來簡單,但實際上涉及極其復雜的技術挑戰。以往的方法常常產生不自然的過渡效果,就像你看到一個人從站立姿勢突然跳到奔跑姿勢,中間缺少了自然的動作連接。

為什么會這樣呢?研究團隊發現了一個關鍵問題:現有的基于圖像到視頻擴散模型(I2V-DM)的方法存在不對稱約束。簡單來說,就像是一個拔河比賽,起始幀的"拉力"遠大于結束幀,導致生成的中間內容更傾向于跟隨起始幀的發展軌跡,而不是平滑地過渡到結束幀。

北京大學的研究團隊提出的"Sci-Fi"方法巧妙地解決了這個問題。就像平衡天平的兩端,他們設計了一種方法,讓起始幀和結束幀對中間內容的影響力達到平衡。具體來說,他們開發了一個名為"EF-Net"的輕量級模塊,專門用來增強結束幀的約束力,使其能與起始幀形成對稱的影響。

這種創新方法不需要大規模的特定訓練,就能讓生成的視頻呈現出更加和諧的過渡效果。無論是車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色。實驗結果顯示,與現有方法相比,Sci-Fi在各項指標上都取得了顯著提升,特別是在復雜場景的處理上更具優勢。

這項技術的應用前景十分廣闊,不僅可以用于電影制作、動畫創作,還能應用于視頻內容編輯等領域,大大節省人力成本。接下來,讓我們深入了解這項創新研究的細節。

一、幀間插值的挑戰:不平衡的拔河比賽

想象一下,你是一個拔河比賽的裁判,需要確保兩隊力量平衡,比賽才能精彩。在視頻幀間插值技術中,起始幀和結束幀就像拔河的兩端,它們共同決定中間畫面的生成方向。然而,現有技術就像一場不公平的拔河賽,一端的力量遠大于另一端。

傳統的幀間插值方法主要基于光流估計,就像是通過觀察云朵的移動來預測它們在未來幾分鐘的位置。這些方法在處理簡單的剛性運動(如攝像機平移)時表現不錯,但面對復雜場景(如人物快速運動或表情變化)時往往力不從心,生成的中間幀看起來扭曲不自然。

近年來,隨著擴散模型在圖像和視頻生成領域的突破,研究人員開始將大規模預訓練的圖像到視頻擴散模型(I2V-DM)應用于幀間插值任務。這些方法大致可分為兩類:一類是采用雙向采樣策略,將結束幀視為反向視頻的起始幀;另一類是直接微調現有的I2V-DM模型,引入結束幀約束。

然而,研究團隊發現了這些方法的一個共同缺陷:它們用于注入結束幀約束的機制與注入起始幀約束的機制相同,但訓練規模卻有天壤之別。原始的I2V-DM經過了大規模預訓練,專門針對起始幀約束進行了充分訓練,而結束幀約束的訓練規模則小得多(有些甚至沒有專門訓練)。

這就像一個健身教練(起始幀)和一個普通人(結束幀)在拔河,顯然健身教練會占據絕對優勢。在這種不平衡的情況下,生成的中間幀更傾向于遵循起始幀的發展軌跡,導致與結束幀之間存在巨大差距,最終表現為不一致的運動或外觀崩潰。

二、Sci-Fi:重新平衡拔河比賽的創新方法

面對這一挑戰,研究團隊提出了一個關鍵洞察:對于訓練規模較小的約束,應該采用更強的注入機制。就像給拔河比賽中較弱的一方提供更好的裝備或技術,以平衡雙方力量。

基于這一思路,團隊提出了Sci-Fi框架。這個框架保持了對起始幀的處理方式不變,同時引入了一種改進的機制來增強結束幀的約束力。這種做法避免了大規模專門訓練的需求,實現了高效的對稱起始-結束幀約束。

Sci-Fi框架的核心是一個名為EF-Net的輕量級模塊。這個模塊就像一個專門的翻譯官,能夠高效地編碼結束幀,并將其擴展為時間自適應的幀級特征,然后注入到I2V-DM中。通過這種方式,結束幀能夠強有力地影響中間內容,使其約束力與起始幀相當。

想象一下,如果幀間插值是一次從A點到B點的旅行,傳統方法就像是先確定了從A出發的大致方向,然后期望能偶然到達B點。而Sci-Fi則同時考慮了A點和B點的位置,規劃出一條平滑的路徑,確保旅程既從A點開始,也必定到達B點,中間的每一步都在這條合理路徑上。

這種對稱約束的設計使得Sci-Fi能夠生成更加和諧的過渡效果。無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色,生成的中間幀自然流暢,與起始幀和結束幀形成一個連貫的整體。

三、EF-Net:加強弱隊的秘密武器

EF-Net是Sci-Fi框架的核心組件,它的設計靈感來自于可控圖像和視頻生成領域的成功經驗,如ControlNet和T2I-Adapter等。這些模塊通常將控制信號轉換為像素級或幀級特征,然后通過直接添加或交叉注意力的方式注入到基礎模型中。

但EF-Net面臨的挑戰更復雜:它需要將單個圖像(結束幀)轉換為時間自適應的幀級特征,以便注入到I2V-DM中。這就像是根據目的地(結束幀)推斷出整個旅程中每一步應該看到的景象。

具體來說,EF-Net的工作流程如下:

首先,EF-Net接收結束幀作為輸入,并通過一系列變換器(Transformer)模塊將其轉換為多個序列特征。這些特征包含了結束幀的豐富語義信息,就像是對目的地進行了多角度、多層次的分析。

然后,EF-Net使用線性投影預測基于令牌的時間系數。這些系數可以將結束幀特征在時間上擴展f倍(視頻幀數),通過一個外積操作實現。這就像是根據目的地繪制了一份詳細的路線圖,標明了從起點到終點的每一步應該呈現的樣子。

為了使這些特征在時間上更具適應性,EF-Net還將噪聲潛變量zt(代表整個視頻內容)與擴展后的特征連接起來,通過非線性MLP生成最終的幀級特征。這一步驟就像是將路線圖與實際地形和天氣條件相結合,生成更加實用和適應性強的行程指南。

最后,這些生成的幀級特征被直接添加到I2V-DM的前M個模塊的輸出特征中,對模型生成過程產生直接影響。這就像是在旅程的關鍵節點上設置了指示牌,確保旅行者不會偏離正確的路線。

為了保持EF-Net的輕量級特性,研究團隊將M設置為4,遠小于I2V-DM中的模塊總數(N=42)。這種設計使得EF-Net能夠在不增加太多計算負擔的情況下,有效增強結束幀的約束力。

四、實驗結果:創新方法的有效性驗證

為了驗證Sci-Fi的有效性,研究團隊進行了廣泛的實驗。他們從公開可用的創意材料平臺iStock收集了訓練數據,并從DAVIS數據集和Pexels平臺分別篩選了119和100個視頻片段用于評估。測試數據集涵蓋了各種場景,包括人類動作、動物運動、車輛移動和自然場景等。

Sci-Fi模型的訓練過程非常高效,僅需6,000次迭代,總批量大小為4。研究團隊使用AdamW優化器同時更新EF-Net和整個基礎模型(CogVideoX-5B-I2V)的參數,采用余弦退火學習率,初始值為3e-5。推理步數為50,與官方推薦設置一致。

在定量比較方面,研究團隊將Sci-Fi與九種先進的基線方法進行了對比,包括基于光流的方法(FILM、EMA-VFI)、基于直接微調的方法(DynamiCrafter、MoG)、基于雙向采樣策略的方法(TRF、GI、ViBiDSampler)以及結合額外條件的方法(FCVG、CogVideoX-FT)。

評估指標包括LPIPS(評估單幀質量)、FID(評估單幀質量)、FVD(評估整體視頻質量)和VBench(一個綜合評估框架,從多個維度評估視頻質量)。結果顯示,Sci-Fi在所有指標上都取得了最佳表現。例如,在DAVIS數據集上,Sci-Fi的LPIPS為0.2096,FID為22.30,FVD為382.03,VBench為0.8240,明顯優于第二好的方法CogVideoX-FT(LPIPS為0.2349,FID為26.46,FVD為449.02,VBench為0.8104)。

定性比較進一步證實了Sci-Fi的優勢。當起始幀和結束幀之間存在較大差距時,其他方法生成的中間內容往往包含不協調的運動或崩潰的外觀。而Sci-Fi則能提供更加平滑的過渡效果。例如,在處理人物運動時,其他方法生成的中間幀往往包含不適當的運動軌跡或扭曲的內容,而Sci-Fi能夠實現更加和諧的動態效果。

研究團隊還進行了用戶研究,測量人類對模型輸出的偏好。他們使用Sci-Fi和其他四種方法為30對起始-結束幀生成相應的結果。然后,對于具有相同起始和結束幀的視頻,參與者分別基于三個維度(運動質量、內容保真度和整體吸引力)選擇最佳視頻。共有32名參與者參與了這項實驗,提供了2,880個評分。結果顯示,在每個評估維度上,Sci-Fi被選擇的比例都超過四分之三,表明人們強烈偏好Sci-Fi生成的輸出。

此外,研究團隊還測試了Sci-Fi和其他基于I2V-DM的方法的推理時間。盡管Sci-Fi使用與CogVideoX-FT相同的基礎I2V-DM并增強了結束幀注入,但它僅增加了很少的推理時間,表明所提出的方法非常高效。

五、卡通幀間插值:方法的泛化能力

幀間插值技術在卡通創作中也具有重要意義。雖然Sci-Fi是在真實世界數據上訓練的,但它展示了對卡通幀間插值的強大泛化能力。

研究團隊收集了100個卡通視頻片段進行定量比較,包括日本、美國和中國動畫。結果顯示,Sci-Fi在所有指標上都取得了最佳成績。例如,Sci-Fi的LPIPS為0.1959,FID為37.39,FVD為439.63,VBench為0.8403,明顯優于第二好的方法CogVideoX-FT(LPIPS為0.2350,FID為40.72,FVD為466.50,VBench為0.8230)。

視覺比較進一步證實了Sci-Fi在卡通幀間插值中的優勢。例如,在處理船只運動時,其他方法生成的中間幀中船只的動態和外觀往往雜亂無章。相比之下,Sci-Fi能夠實現更好的效果,包含和諧的中間過渡,具有一致的動態和外觀。這種泛化能力使Sci-Fi成為卡通創作的有力工具。

六、消融實驗:方法設計的合理性驗證

為了驗證EF-Net設計的合理性,研究團隊進行了多項消融實驗:

首先,他們比較了幾種不同的EF-Net變體:(1) 完全移除EF-Net;(2) 移除EF-Net中對噪聲潛變量zt的結合;(3) 在EF-Net中添加可學習的時間位置嵌入,以在時間上變化幀級特征。結果表明,完全移除EF-Net導致了最差的結果,表明使用額外模塊增強結束幀約束注入的重要性。與第二和第三種變體相比,除了FVD略低于第三種變體外,研究團隊的方法在其他三個指標上都取得了最佳結果。這表明噪聲潛變量的結合是有效的,而時間位置嵌入則不是必需的。

其次,研究團隊探索了通過因子w縮放EF-Net產生的幀級特征的效果。結果表明,簡單的縮放可能會降低Sci-Fi的性能。因此,在大多數情況下,保持w=1.0與訓練設置一致可能是最佳選擇。

這些消融實驗證實了EF-Net設計的合理性和有效性,表明研究團隊提出的方法在各個方面都經過了精心考慮和優化。

七、方法局限性與未來方向

盡管Sci-Fi在幀間插值任務上取得了顯著成功,但它的性能仍受到其基礎模型(CogVideoX-5B-I2V)生成能力的限制。在處理涉及快速或大規模人體運動以及小物體運動的場景時,保持一致的動態和外觀仍然具有挑戰性。

一種潛在的改進方法是擴大模型規模,但這會帶來更多的計算成本。例如,最近提出的工業模型Wan2.1-FLF2V-14B能夠帶來更好的視覺效果,減少中間內容的失真,但其推理消耗也大大增加。

對于幀間插值,設計在各種場景中都能很好工作的高效方法仍然具有挑戰性,值得社區進一步研究。

八、總結與展望

Sci-Fi框架通過實現對稱的起始-結束幀約束,顯著提高了幀間插值的質量。它處理起始幀的方式與以往相同,同時使用改進的注入機制增強結束幀的約束力。這種創新方法在不增加大量訓練消耗的情況下,生成了更加和諧的過渡效果。

研究團隊提出的EF-Net模塊能夠高效地編碼結束幀并將其擴展為時間自適應的幀級特征,注入到I2V-DM中。這使得結束幀能夠強有力地影響中間內容,與起始幀形成對稱約束。

廣泛的實驗證實了Sci-Fi在各種場景下的優越性,無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色。此外,用戶研究也表明,人們強烈偏好Sci-Fi生成的視頻。

這項技術的應用前景十分廣闊,不僅可以用于電影制作、動畫創作,還能應用于視頻內容編輯等領域,大大節省人力成本。未來的研究方向包括進一步提高模型在處理復雜場景時的性能,以及設計更加高效的算法,在保持生成質量的同時減少計算消耗。

對于有興趣深入了解這項研究的讀者,可以訪問項目GitHub頁面:https://github.com/GVCLab/Sci-Fi,或通過arXiv平臺(arXiv:2505.21205v1)查閱完整論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗外長最新表態:不確定是否仍能信任美國、若美動武伊朗保留報復權利

伊朗外長最新表態:不確定是否仍能信任美國、若美動武伊朗保留報復權利

環球網資訊
2025-06-21 11:22:34
當清華大學的刑法學教授懷疑自己的手機被監聽后

當清華大學的刑法學教授懷疑自己的手機被監聽后

鄒談
2025-06-21 10:11:39
懷集哄搶事件后續:幾千元現金被順走,老板怒發四問,當地人發聲

懷集哄搶事件后續:幾千元現金被順走,老板怒發四問,當地人發聲

鋭娛之樂
2025-06-21 11:02:43
重磅!羅馬仕充電寶3C證書幾乎全數被撤銷!

重磅!羅馬仕充電寶3C證書幾乎全數被撤銷!

鞭牛士
2025-06-20 16:41:18
福建南安發生重大車禍!肇事者醉酒后駕車,凈資產超過二十億

福建南安發生重大車禍!肇事者醉酒后駕車,凈資產超過二十億

社會醬
2025-06-20 17:45:10
她被封禁!徹底涼涼

她被封禁!徹底涼涼

瀟湘晨報
2025-06-21 07:58:06
廣東高校排名變了:7校大跌!深大惜敗暨大,汕大廣海上升

廣東高校排名變了:7校大跌!深大惜敗暨大,汕大廣海上升

金哥說新能源車
2025-06-21 12:06:53
這一次,被官方除名的曾毅,終究為自己的“無知”付出了代價

這一次,被官方除名的曾毅,終究為自己的“無知”付出了代價

簡讀視覺
2025-06-20 19:03:10
伊朗10名核科學家“在睡覺時被殺”!是什么特殊武器?

伊朗10名核科學家“在睡覺時被殺”!是什么特殊武器?

新民晚報
2025-06-20 21:51:04
司機刮落李子被訛2000后續!司機發聲,樹主人身份曝光,難怪囂張

司機刮落李子被訛2000后續!司機發聲,樹主人身份曝光,難怪囂張

楊哥歷史
2025-06-21 10:15:27
央視取消播出易建聯專訪,各方均未回應

央視取消播出易建聯專訪,各方均未回應

大象新聞
2025-06-21 11:59:18
伊朗外交部發言人:以色列襲擊醫務人員是“戰爭罪”

伊朗外交部發言人:以色列襲擊醫務人員是“戰爭罪”

澎湃新聞
2025-06-21 11:14:13
安克移動電源存在巨大安全隱患

安克移動電源存在巨大安全隱患

爆角追蹤
2025-06-21 09:04:28
湖北美女悅悅去世!僅25歲,當天就下葬惹爭議,媽媽曝原因太可惜

湖北美女悅悅去世!僅25歲,當天就下葬惹爭議,媽媽曝原因太可惜

裕豐娛間說
2025-06-21 09:18:45
伊朗突發地震 核試驗猜測頻出!

伊朗突發地震 核試驗猜測頻出!

看看新聞Knews
2025-06-21 14:04:07
RMC:周通頭部遭球重擊后激動地朝隊醫喊“請不要換下我!”

RMC:周通頭部遭球重擊后激動地朝隊醫喊“請不要換下我!”

懂球帝
2025-06-21 15:01:02
確認了:夫妻倆已被封禁!徹底涼涼!

確認了:夫妻倆已被封禁!徹底涼涼!

澄海圈
2025-06-21 12:23:58
捐精生下超100個子女,“電報”創始人寫遺囑:都有資格繼承財產

捐精生下超100個子女,“電報”創始人寫遺囑:都有資格繼承財產

瀟湘晨報
2025-06-21 11:29:41
長沙一女孩稱到中醫院頸椎正骨后生活無法自理,且病歷“消失”

長沙一女孩稱到中醫院頸椎正骨后生活無法自理,且病歷“消失”

極目新聞
2025-06-20 23:51:41
中紀委網站通報:“交通大學”副校長,任上被查!

中紀委網站通報:“交通大學”副校長,任上被查!

雙一流高校
2025-06-21 11:35:40
2025-06-21 16:36:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
5416文章數 527關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

貴州一落馬女干部被通報搞權色交易、公器私用

頭條要聞

貴州一落馬女干部被通報搞權色交易、公器私用

體育要聞

文班品嘗水席 "很享受在中國的時光"

娛樂要聞

70歲寇振海跳舞,網友:和依萍搶飯碗

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

親子
數碼
健康
家居
公開課

親子要聞

踩氣球贏獎勵挑戰!

數碼要聞

初探蘋果 macOS 26游戲表現:M1 Max跑《黑神話:悟空》超 60 FPS

呼吸科專家破解呼吸道九大謠言!

家居要聞

山水之間 墨染風雨云間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德格县| 淮北市| 平阳县| 亚东县| 孟村| 化德县| 二连浩特市| 健康| 东乌| 海兴县| 探索| 浏阳市| 大足县| 湖北省| 江陵县| 千阳县| 罗城| 陇西县| 隆德县| 建阳市| 仪陇县| 潼南县| 万年县| 阿拉善左旗| 平和县| 根河市| 体育| 铜梁县| 贺州市| 威信县| 桂东县| 莱阳市| 郯城县| 白河县| 恩施市| 横峰县| 阜康市| 衡阳市| 集安市| 崇明县| 肃北|