如果你曾經看過電影制作或動畫創作的幕后花絮,你可能注意到了一個有趣的現象:專業人士常常只需要繪制關鍵幀,而中間的過渡動作則由技術來補充。這項被稱為"幀間插值"(Frame Inbetweening)的技術,長期以來一直是計算機視覺領域的重要研究方向。近期,來自北京大學深圳研究生院、偉灣大學、騰訊ARC實驗室和兔小貝智能的研究團隊聯合發布了一項名為"Sci-Fi"的創新研究,顯著提高了這一技術的效果。這項研究發表于2025年5月,可通過論文標題《Sci-Fi: Symmetric Constraint for Frame Inbetweening》在arXiv預印本平臺(arXiv:2505.21205v1)上查閱。
想象一下,你有一段視頻的第一幀和最后一幀,然后希望計算機能夠自動生成中間的所有畫面,讓整個視頻看起來流暢自然。這聽起來簡單,但實際上涉及極其復雜的技術挑戰。以往的方法常常產生不自然的過渡效果,就像你看到一個人從站立姿勢突然跳到奔跑姿勢,中間缺少了自然的動作連接。
為什么會這樣呢?研究團隊發現了一個關鍵問題:現有的基于圖像到視頻擴散模型(I2V-DM)的方法存在不對稱約束。簡單來說,就像是一個拔河比賽,起始幀的"拉力"遠大于結束幀,導致生成的中間內容更傾向于跟隨起始幀的發展軌跡,而不是平滑地過渡到結束幀。
北京大學的研究團隊提出的"Sci-Fi"方法巧妙地解決了這個問題。就像平衡天平的兩端,他們設計了一種方法,讓起始幀和結束幀對中間內容的影響力達到平衡。具體來說,他們開發了一個名為"EF-Net"的輕量級模塊,專門用來增強結束幀的約束力,使其能與起始幀形成對稱的影響。
這種創新方法不需要大規模的特定訓練,就能讓生成的視頻呈現出更加和諧的過渡效果。無論是車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色。實驗結果顯示,與現有方法相比,Sci-Fi在各項指標上都取得了顯著提升,特別是在復雜場景的處理上更具優勢。
這項技術的應用前景十分廣闊,不僅可以用于電影制作、動畫創作,還能應用于視頻內容編輯等領域,大大節省人力成本。接下來,讓我們深入了解這項創新研究的細節。
一、幀間插值的挑戰:不平衡的拔河比賽
想象一下,你是一個拔河比賽的裁判,需要確保兩隊力量平衡,比賽才能精彩。在視頻幀間插值技術中,起始幀和結束幀就像拔河的兩端,它們共同決定中間畫面的生成方向。然而,現有技術就像一場不公平的拔河賽,一端的力量遠大于另一端。
傳統的幀間插值方法主要基于光流估計,就像是通過觀察云朵的移動來預測它們在未來幾分鐘的位置。這些方法在處理簡單的剛性運動(如攝像機平移)時表現不錯,但面對復雜場景(如人物快速運動或表情變化)時往往力不從心,生成的中間幀看起來扭曲不自然。
近年來,隨著擴散模型在圖像和視頻生成領域的突破,研究人員開始將大規模預訓練的圖像到視頻擴散模型(I2V-DM)應用于幀間插值任務。這些方法大致可分為兩類:一類是采用雙向采樣策略,將結束幀視為反向視頻的起始幀;另一類是直接微調現有的I2V-DM模型,引入結束幀約束。
然而,研究團隊發現了這些方法的一個共同缺陷:它們用于注入結束幀約束的機制與注入起始幀約束的機制相同,但訓練規模卻有天壤之別。原始的I2V-DM經過了大規模預訓練,專門針對起始幀約束進行了充分訓練,而結束幀約束的訓練規模則小得多(有些甚至沒有專門訓練)。
這就像一個健身教練(起始幀)和一個普通人(結束幀)在拔河,顯然健身教練會占據絕對優勢。在這種不平衡的情況下,生成的中間幀更傾向于遵循起始幀的發展軌跡,導致與結束幀之間存在巨大差距,最終表現為不一致的運動或外觀崩潰。
二、Sci-Fi:重新平衡拔河比賽的創新方法
面對這一挑戰,研究團隊提出了一個關鍵洞察:對于訓練規模較小的約束,應該采用更強的注入機制。就像給拔河比賽中較弱的一方提供更好的裝備或技術,以平衡雙方力量。
基于這一思路,團隊提出了Sci-Fi框架。這個框架保持了對起始幀的處理方式不變,同時引入了一種改進的機制來增強結束幀的約束力。這種做法避免了大規模專門訓練的需求,實現了高效的對稱起始-結束幀約束。
Sci-Fi框架的核心是一個名為EF-Net的輕量級模塊。這個模塊就像一個專門的翻譯官,能夠高效地編碼結束幀,并將其擴展為時間自適應的幀級特征,然后注入到I2V-DM中。通過這種方式,結束幀能夠強有力地影響中間內容,使其約束力與起始幀相當。
想象一下,如果幀間插值是一次從A點到B點的旅行,傳統方法就像是先確定了從A出發的大致方向,然后期望能偶然到達B點。而Sci-Fi則同時考慮了A點和B點的位置,規劃出一條平滑的路徑,確保旅程既從A點開始,也必定到達B點,中間的每一步都在這條合理路徑上。
這種對稱約束的設計使得Sci-Fi能夠生成更加和諧的過渡效果。無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色,生成的中間幀自然流暢,與起始幀和結束幀形成一個連貫的整體。
三、EF-Net:加強弱隊的秘密武器
EF-Net是Sci-Fi框架的核心組件,它的設計靈感來自于可控圖像和視頻生成領域的成功經驗,如ControlNet和T2I-Adapter等。這些模塊通常將控制信號轉換為像素級或幀級特征,然后通過直接添加或交叉注意力的方式注入到基礎模型中。
但EF-Net面臨的挑戰更復雜:它需要將單個圖像(結束幀)轉換為時間自適應的幀級特征,以便注入到I2V-DM中。這就像是根據目的地(結束幀)推斷出整個旅程中每一步應該看到的景象。
具體來說,EF-Net的工作流程如下:
首先,EF-Net接收結束幀作為輸入,并通過一系列變換器(Transformer)模塊將其轉換為多個序列特征。這些特征包含了結束幀的豐富語義信息,就像是對目的地進行了多角度、多層次的分析。
然后,EF-Net使用線性投影預測基于令牌的時間系數。這些系數可以將結束幀特征在時間上擴展f倍(視頻幀數),通過一個外積操作實現。這就像是根據目的地繪制了一份詳細的路線圖,標明了從起點到終點的每一步應該呈現的樣子。
為了使這些特征在時間上更具適應性,EF-Net還將噪聲潛變量zt(代表整個視頻內容)與擴展后的特征連接起來,通過非線性MLP生成最終的幀級特征。這一步驟就像是將路線圖與實際地形和天氣條件相結合,生成更加實用和適應性強的行程指南。
最后,這些生成的幀級特征被直接添加到I2V-DM的前M個模塊的輸出特征中,對模型生成過程產生直接影響。這就像是在旅程的關鍵節點上設置了指示牌,確保旅行者不會偏離正確的路線。
為了保持EF-Net的輕量級特性,研究團隊將M設置為4,遠小于I2V-DM中的模塊總數(N=42)。這種設計使得EF-Net能夠在不增加太多計算負擔的情況下,有效增強結束幀的約束力。
四、實驗結果:創新方法的有效性驗證
為了驗證Sci-Fi的有效性,研究團隊進行了廣泛的實驗。他們從公開可用的創意材料平臺iStock收集了訓練數據,并從DAVIS數據集和Pexels平臺分別篩選了119和100個視頻片段用于評估。測試數據集涵蓋了各種場景,包括人類動作、動物運動、車輛移動和自然場景等。
Sci-Fi模型的訓練過程非常高效,僅需6,000次迭代,總批量大小為4。研究團隊使用AdamW優化器同時更新EF-Net和整個基礎模型(CogVideoX-5B-I2V)的參數,采用余弦退火學習率,初始值為3e-5。推理步數為50,與官方推薦設置一致。
在定量比較方面,研究團隊將Sci-Fi與九種先進的基線方法進行了對比,包括基于光流的方法(FILM、EMA-VFI)、基于直接微調的方法(DynamiCrafter、MoG)、基于雙向采樣策略的方法(TRF、GI、ViBiDSampler)以及結合額外條件的方法(FCVG、CogVideoX-FT)。
評估指標包括LPIPS(評估單幀質量)、FID(評估單幀質量)、FVD(評估整體視頻質量)和VBench(一個綜合評估框架,從多個維度評估視頻質量)。結果顯示,Sci-Fi在所有指標上都取得了最佳表現。例如,在DAVIS數據集上,Sci-Fi的LPIPS為0.2096,FID為22.30,FVD為382.03,VBench為0.8240,明顯優于第二好的方法CogVideoX-FT(LPIPS為0.2349,FID為26.46,FVD為449.02,VBench為0.8104)。
定性比較進一步證實了Sci-Fi的優勢。當起始幀和結束幀之間存在較大差距時,其他方法生成的中間內容往往包含不協調的運動或崩潰的外觀。而Sci-Fi則能提供更加平滑的過渡效果。例如,在處理人物運動時,其他方法生成的中間幀往往包含不適當的運動軌跡或扭曲的內容,而Sci-Fi能夠實現更加和諧的動態效果。
研究團隊還進行了用戶研究,測量人類對模型輸出的偏好。他們使用Sci-Fi和其他四種方法為30對起始-結束幀生成相應的結果。然后,對于具有相同起始和結束幀的視頻,參與者分別基于三個維度(運動質量、內容保真度和整體吸引力)選擇最佳視頻。共有32名參與者參與了這項實驗,提供了2,880個評分。結果顯示,在每個評估維度上,Sci-Fi被選擇的比例都超過四分之三,表明人們強烈偏好Sci-Fi生成的輸出。
此外,研究團隊還測試了Sci-Fi和其他基于I2V-DM的方法的推理時間。盡管Sci-Fi使用與CogVideoX-FT相同的基礎I2V-DM并增強了結束幀注入,但它僅增加了很少的推理時間,表明所提出的方法非常高效。
五、卡通幀間插值:方法的泛化能力
幀間插值技術在卡通創作中也具有重要意義。雖然Sci-Fi是在真實世界數據上訓練的,但它展示了對卡通幀間插值的強大泛化能力。
研究團隊收集了100個卡通視頻片段進行定量比較,包括日本、美國和中國動畫。結果顯示,Sci-Fi在所有指標上都取得了最佳成績。例如,Sci-Fi的LPIPS為0.1959,FID為37.39,FVD為439.63,VBench為0.8403,明顯優于第二好的方法CogVideoX-FT(LPIPS為0.2350,FID為40.72,FVD為466.50,VBench為0.8230)。
視覺比較進一步證實了Sci-Fi在卡通幀間插值中的優勢。例如,在處理船只運動時,其他方法生成的中間幀中船只的動態和外觀往往雜亂無章。相比之下,Sci-Fi能夠實現更好的效果,包含和諧的中間過渡,具有一致的動態和外觀。這種泛化能力使Sci-Fi成為卡通創作的有力工具。
六、消融實驗:方法設計的合理性驗證
為了驗證EF-Net設計的合理性,研究團隊進行了多項消融實驗:
首先,他們比較了幾種不同的EF-Net變體:(1) 完全移除EF-Net;(2) 移除EF-Net中對噪聲潛變量zt的結合;(3) 在EF-Net中添加可學習的時間位置嵌入,以在時間上變化幀級特征。結果表明,完全移除EF-Net導致了最差的結果,表明使用額外模塊增強結束幀約束注入的重要性。與第二和第三種變體相比,除了FVD略低于第三種變體外,研究團隊的方法在其他三個指標上都取得了最佳結果。這表明噪聲潛變量的結合是有效的,而時間位置嵌入則不是必需的。
其次,研究團隊探索了通過因子w縮放EF-Net產生的幀級特征的效果。結果表明,簡單的縮放可能會降低Sci-Fi的性能。因此,在大多數情況下,保持w=1.0與訓練設置一致可能是最佳選擇。
這些消融實驗證實了EF-Net設計的合理性和有效性,表明研究團隊提出的方法在各個方面都經過了精心考慮和優化。
七、方法局限性與未來方向
盡管Sci-Fi在幀間插值任務上取得了顯著成功,但它的性能仍受到其基礎模型(CogVideoX-5B-I2V)生成能力的限制。在處理涉及快速或大規模人體運動以及小物體運動的場景時,保持一致的動態和外觀仍然具有挑戰性。
一種潛在的改進方法是擴大模型規模,但這會帶來更多的計算成本。例如,最近提出的工業模型Wan2.1-FLF2V-14B能夠帶來更好的視覺效果,減少中間內容的失真,但其推理消耗也大大增加。
對于幀間插值,設計在各種場景中都能很好工作的高效方法仍然具有挑戰性,值得社區進一步研究。
八、總結與展望
Sci-Fi框架通過實現對稱的起始-結束幀約束,顯著提高了幀間插值的質量。它處理起始幀的方式與以往相同,同時使用改進的注入機制增強結束幀的約束力。這種創新方法在不增加大量訓練消耗的情況下,生成了更加和諧的過渡效果。
研究團隊提出的EF-Net模塊能夠高效地編碼結束幀并將其擴展為時間自適應的幀級特征,注入到I2V-DM中。這使得結束幀能夠強有力地影響中間內容,與起始幀形成對稱約束。
廣泛的實驗證實了Sci-Fi在各種場景下的優越性,無論是處理車輛移動、人物動作、動物奔跑還是卡通角色的表情變化,Sci-Fi都能表現出色。此外,用戶研究也表明,人們強烈偏好Sci-Fi生成的視頻。
這項技術的應用前景十分廣闊,不僅可以用于電影制作、動畫創作,還能應用于視頻內容編輯等領域,大大節省人力成本。未來的研究方向包括進一步提高模型在處理復雜場景時的性能,以及設計更加高效的算法,在保持生成質量的同時減少計算消耗。
對于有興趣深入了解這項研究的讀者,可以訪問項目GitHub頁面:https://github.com/GVCLab/Sci-Fi,或通過arXiv平臺(arXiv:2505.21205v1)查閱完整論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.