網易首頁 > 網易號 > 正文申請入駐

Sci-Fi：對稱約束讓視頻過渡更自然 - 北京大學等機構研究突破

2025-05-30 22:56:32　來源: 科技行者

天津舉報

分享至

如果你曾經看過電影制作或動畫創作的幕后花絮，你可能注意到了一個有趣的現象：專業人士常常只需要繪制關鍵幀，而中間的過渡動作則由技術來補充。這項被稱為"幀間插值"（Frame Inbetweening）的技術，長期以來一直是計算機視覺領域的重要研究方向。近期，來自北京大學深圳研究生院、偉灣大學、騰訊ARC實驗室和兔小貝智能的研究團隊聯合發布了一項名為"Sci-Fi"的創新研究，顯著提高了這一技術的效果。這項研究發表于2025年5月，可通過論文標題《Sci-Fi: Symmetric Constraint for Frame Inbetweening》在arXiv預印本平臺（arXiv:2505.21205v1）上查閱。

想象一下，你有一段視頻的第一幀和最后一幀，然后希望計算機能夠自動生成中間的所有畫面，讓整個視頻看起來流暢自然。這聽起來簡單，但實際上涉及極其復雜的技術挑戰。以往的方法常常產生不自然的過渡效果，就像你看到一個人從站立姿勢突然跳到奔跑姿勢，中間缺少了自然的動作連接。

為什么會這樣呢？研究團隊發現了一個關鍵問題：現有的基于圖像到視頻擴散模型（I2V-DM）的方法存在不對稱約束。簡單來說，就像是一個拔河比賽，起始幀的"拉力"遠大于結束幀，導致生成的中間內容更傾向于跟隨起始幀的發展軌跡，而不是平滑地過渡到結束幀。

北京大學的研究團隊提出的"Sci-Fi"方法巧妙地解決了這個問題。就像平衡天平的兩端，他們設計了一種方法，讓起始幀和結束幀對中間內容的影響力達到平衡。具體來說，他們開發了一個名為"EF-Net"的輕量級模塊，專門用來增強結束幀的約束力，使其能與起始幀形成對稱的影響。

這種創新方法不需要大規模的特定訓練，就能讓生成的視頻呈現出更加和諧的過渡效果。無論是車輛移動、人物動作、動物奔跑還是卡通角色的表情變化，Sci-Fi都能表現出色。實驗結果顯示，與現有方法相比，Sci-Fi在各項指標上都取得了顯著提升，特別是在復雜場景的處理上更具優勢。

這項技術的應用前景十分廣闊，不僅可以用于電影制作、動畫創作，還能應用于視頻內容編輯等領域，大大節省人力成本。接下來，讓我們深入了解這項創新研究的細節。

一、幀間插值的挑戰：不平衡的拔河比賽

想象一下，你是一個拔河比賽的裁判，需要確保兩隊力量平衡，比賽才能精彩。在視頻幀間插值技術中，起始幀和結束幀就像拔河的兩端，它們共同決定中間畫面的生成方向。然而，現有技術就像一場不公平的拔河賽，一端的力量遠大于另一端。

傳統的幀間插值方法主要基于光流估計，就像是通過觀察云朵的移動來預測它們在未來幾分鐘的位置。這些方法在處理簡單的剛性運動（如攝像機平移）時表現不錯，但面對復雜場景（如人物快速運動或表情變化）時往往力不從心，生成的中間幀看起來扭曲不自然。

近年來，隨著擴散模型在圖像和視頻生成領域的突破，研究人員開始將大規模預訓練的圖像到視頻擴散模型（I2V-DM）應用于幀間插值任務。這些方法大致可分為兩類：一類是采用雙向采樣策略，將結束幀視為反向視頻的起始幀；另一類是直接微調現有的I2V-DM模型，引入結束幀約束。

然而，研究團隊發現了這些方法的一個共同缺陷：它們用于注入結束幀約束的機制與注入起始幀約束的機制相同，但訓練規模卻有天壤之別。原始的I2V-DM經過了大規模預訓練，專門針對起始幀約束進行了充分訓練，而結束幀約束的訓練規模則小得多（有些甚至沒有專門訓練）。

這就像一個健身教練（起始幀）和一個普通人（結束幀）在拔河，顯然健身教練會占據絕對優勢。在這種不平衡的情況下，生成的中間幀更傾向于遵循起始幀的發展軌跡，導致與結束幀之間存在巨大差距，最終表現為不一致的運動或外觀崩潰。

二、Sci-Fi：重新平衡拔河比賽的創新方法

面對這一挑戰，研究團隊提出了一個關鍵洞察：對于訓練規模較小的約束，應該采用更強的注入機制。就像給拔河比賽中較弱的一方提供更好的裝備或技術，以平衡雙方力量。

基于這一思路，團隊提出了Sci-Fi框架。這個框架保持了對起始幀的處理方式不變，同時引入了一種改進的機制來增強結束幀的約束力。這種做法避免了大規模專門訓練的需求，實現了高效的對稱起始-結束幀約束。

Sci-Fi框架的核心是一個名為EF-Net的輕量級模塊。這個模塊就像一個專門的翻譯官，能夠高效地編碼結束幀，并將其擴展為時間自適應的幀級特征，然后注入到I2V-DM中。通過這種方式，結束幀能夠強有力地影響中間內容，使其約束力與起始幀相當。

想象一下，如果幀間插值是一次從A點到B點的旅行，傳統方法就像是先確定了從A出發的大致方向，然后期望能偶然到達B點。而Sci-Fi則同時考慮了A點和B點的位置，規劃出一條平滑的路徑，確保旅程既從A點開始，也必定到達B點，中間的每一步都在這條合理路徑上。

這種對稱約束的設計使得Sci-Fi能夠生成更加和諧的過渡效果。無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化，Sci-Fi都能表現出色，生成的中間幀自然流暢，與起始幀和結束幀形成一個連貫的整體。

三、EF-Net：加強弱隊的秘密武器

EF-Net是Sci-Fi框架的核心組件，它的設計靈感來自于可控圖像和視頻生成領域的成功經驗，如ControlNet和T2I-Adapter等。這些模塊通常將控制信號轉換為像素級或幀級特征，然后通過直接添加或交叉注意力的方式注入到基礎模型中。

但EF-Net面臨的挑戰更復雜：它需要將單個圖像（結束幀）轉換為時間自適應的幀級特征，以便注入到I2V-DM中。這就像是根據目的地（結束幀）推斷出整個旅程中每一步應該看到的景象。

具體來說，EF-Net的工作流程如下：

首先，EF-Net接收結束幀作為輸入，并通過一系列變換器（Transformer）模塊將其轉換為多個序列特征。這些特征包含了結束幀的豐富語義信息，就像是對目的地進行了多角度、多層次的分析。

然后，EF-Net使用線性投影預測基于令牌的時間系數。這些系數可以將結束幀特征在時間上擴展f倍（視頻幀數），通過一個外積操作實現。這就像是根據目的地繪制了一份詳細的路線圖，標明了從起點到終點的每一步應該呈現的樣子。

為了使這些特征在時間上更具適應性，EF-Net還將噪聲潛變量zt（代表整個視頻內容）與擴展后的特征連接起來，通過非線性MLP生成最終的幀級特征。這一步驟就像是將路線圖與實際地形和天氣條件相結合，生成更加實用和適應性強的行程指南。

最后，這些生成的幀級特征被直接添加到I2V-DM的前M個模塊的輸出特征中，對模型生成過程產生直接影響。這就像是在旅程的關鍵節點上設置了指示牌，確保旅行者不會偏離正確的路線。

為了保持EF-Net的輕量級特性，研究團隊將M設置為4，遠小于I2V-DM中的模塊總數（N=42）。這種設計使得EF-Net能夠在不增加太多計算負擔的情況下，有效增強結束幀的約束力。

四、實驗結果：創新方法的有效性驗證

為了驗證Sci-Fi的有效性，研究團隊進行了廣泛的實驗。他們從公開可用的創意材料平臺iStock收集了訓練數據，并從DAVIS數據集和Pexels平臺分別篩選了119和100個視頻片段用于評估。測試數據集涵蓋了各種場景，包括人類動作、動物運動、車輛移動和自然場景等。

Sci-Fi模型的訓練過程非常高效，僅需6,000次迭代，總批量大小為4。研究團隊使用AdamW優化器同時更新EF-Net和整個基礎模型（CogVideoX-5B-I2V）的參數，采用余弦退火學習率，初始值為3e-5。推理步數為50，與官方推薦設置一致。

在定量比較方面，研究團隊將Sci-Fi與九種先進的基線方法進行了對比，包括基于光流的方法（FILM、EMA-VFI）、基于直接微調的方法（DynamiCrafter、MoG）、基于雙向采樣策略的方法（TRF、GI、ViBiDSampler）以及結合額外條件的方法（FCVG、CogVideoX-FT）。

評估指標包括LPIPS（評估單幀質量）、FID（評估單幀質量）、FVD（評估整體視頻質量）和VBench（一個綜合評估框架，從多個維度評估視頻質量）。結果顯示，Sci-Fi在所有指標上都取得了最佳表現。例如，在DAVIS數據集上，Sci-Fi的LPIPS為0.2096，FID為22.30，FVD為382.03，VBench為0.8240，明顯優于第二好的方法CogVideoX-FT（LPIPS為0.2349，FID為26.46，FVD為449.02，VBench為0.8104）。

定性比較進一步證實了Sci-Fi的優勢。當起始幀和結束幀之間存在較大差距時，其他方法生成的中間內容往往包含不協調的運動或崩潰的外觀。而Sci-Fi則能提供更加平滑的過渡效果。例如，在處理人物運動時，其他方法生成的中間幀往往包含不適當的運動軌跡或扭曲的內容，而Sci-Fi能夠實現更加和諧的動態效果。

研究團隊還進行了用戶研究，測量人類對模型輸出的偏好。他們使用Sci-Fi和其他四種方法為30對起始-結束幀生成相應的結果。然后，對于具有相同起始和結束幀的視頻，參與者分別基于三個維度（運動質量、內容保真度和整體吸引力）選擇最佳視頻。共有32名參與者參與了這項實驗，提供了2,880個評分。結果顯示，在每個評估維度上，Sci-Fi被選擇的比例都超過四分之三，表明人們強烈偏好Sci-Fi生成的輸出。

此外，研究團隊還測試了Sci-Fi和其他基于I2V-DM的方法的推理時間。盡管Sci-Fi使用與CogVideoX-FT相同的基礎I2V-DM并增強了結束幀注入，但它僅增加了很少的推理時間，表明所提出的方法非常高效。

五、卡通幀間插值：方法的泛化能力

幀間插值技術在卡通創作中也具有重要意義。雖然Sci-Fi是在真實世界數據上訓練的，但它展示了對卡通幀間插值的強大泛化能力。

研究團隊收集了100個卡通視頻片段進行定量比較，包括日本、美國和中國動畫。結果顯示，Sci-Fi在所有指標上都取得了最佳成績。例如，Sci-Fi的LPIPS為0.1959，FID為37.39，FVD為439.63，VBench為0.8403，明顯優于第二好的方法CogVideoX-FT（LPIPS為0.2350，FID為40.72，FVD為466.50，VBench為0.8230）。

視覺比較進一步證實了Sci-Fi在卡通幀間插值中的優勢。例如，在處理船只運動時，其他方法生成的中間幀中船只的動態和外觀往往雜亂無章。相比之下，Sci-Fi能夠實現更好的效果，包含和諧的中間過渡，具有一致的動態和外觀。這種泛化能力使Sci-Fi成為卡通創作的有力工具。

六、消融實驗：方法設計的合理性驗證

為了驗證EF-Net設計的合理性，研究團隊進行了多項消融實驗：

首先，他們比較了幾種不同的EF-Net變體：(1) 完全移除EF-Net；(2) 移除EF-Net中對噪聲潛變量zt的結合；(3) 在EF-Net中添加可學習的時間位置嵌入，以在時間上變化幀級特征。結果表明，完全移除EF-Net導致了最差的結果，表明使用額外模塊增強結束幀約束注入的重要性。與第二和第三種變體相比，除了FVD略低于第三種變體外，研究團隊的方法在其他三個指標上都取得了最佳結果。這表明噪聲潛變量的結合是有效的，而時間位置嵌入則不是必需的。

其次，研究團隊探索了通過因子w縮放EF-Net產生的幀級特征的效果。結果表明，簡單的縮放可能會降低Sci-Fi的性能。因此，在大多數情況下，保持w=1.0與訓練設置一致可能是最佳選擇。

這些消融實驗證實了EF-Net設計的合理性和有效性，表明研究團隊提出的方法在各個方面都經過了精心考慮和優化。

七、方法局限性與未來方向

盡管Sci-Fi在幀間插值任務上取得了顯著成功，但它的性能仍受到其基礎模型（CogVideoX-5B-I2V）生成能力的限制。在處理涉及快速或大規模人體運動以及小物體運動的場景時，保持一致的動態和外觀仍然具有挑戰性。

一種潛在的改進方法是擴大模型規模，但這會帶來更多的計算成本。例如，最近提出的工業模型Wan2.1-FLF2V-14B能夠帶來更好的視覺效果，減少中間內容的失真，但其推理消耗也大大增加。

對于幀間插值，設計在各種場景中都能很好工作的高效方法仍然具有挑戰性，值得社區進一步研究。

八、總結與展望

Sci-Fi框架通過實現對稱的起始-結束幀約束，顯著提高了幀間插值的質量。它處理起始幀的方式與以往相同，同時使用改進的注入機制增強結束幀的約束力。這種創新方法在不增加大量訓練消耗的情況下，生成了更加和諧的過渡效果。

研究團隊提出的EF-Net模塊能夠高效地編碼結束幀并將其擴展為時間自適應的幀級特征，注入到I2V-DM中。這使得結束幀能夠強有力地影響中間內容，與起始幀形成對稱約束。

廣泛的實驗證實了Sci-Fi在各種場景下的優越性，無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化，Sci-Fi都能表現出色。此外，用戶研究也表明，人們強烈偏好Sci-Fi生成的視頻。

這項技術的應用前景十分廣闊，不僅可以用于電影制作、動畫創作，還能應用于視頻內容編輯等領域，大大節省人力成本。未來的研究方向包括進一步提高模型在處理復雜場景時的性能，以及設計更加高效的算法，在保持生成質量的同時減少計算消耗。

對于有興趣深入了解這項研究的讀者，可以訪問項目GitHub頁面：https://github.com/GVCLab/Sci-Fi，或通過arXiv平臺（arXiv:2505.21205v1）查閱完整論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.