網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全面升級(jí)的“新清影”，給AI生成視頻帶來了哪些新玩法？

2024-11-08 16:45:39　來源: Alter聊科技

浙江舉報(bào)

分享至

就在剛剛，智譜清言App上線了“新清影”，同時(shí)對(duì)外開源了智譜最新的圖生視頻模型CogVideoX v1.5。

3個(gè)多月前的智譜Open Day上，視頻創(chuàng)作智能體清影正式在智譜清言上線，只需30秒即可生成時(shí)長6秒、1440x960清晰度的高精視頻，隨即涌現(xiàn)出了短視頻、表情包梗圖、廣告制作等創(chuàng)新玩法。

短短一個(gè)多月的時(shí)間，智譜就將清影背后的圖生視頻模型CogVideoX 2B和5B版本給開源了，可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行，陸續(xù)衍生出了CogVideoX-factory等大量二次開發(fā)項(xiàng)目。

經(jīng)過3個(gè)多月打磨和進(jìn)化的“新清影”，都有什么能力上的提升，又將帶來哪些有趣的新體驗(yàn)?zāi)兀?/p>

我們有幸拿到了提前內(nèi)測的資格，下面和大家一起來揭曉答案。

01 更高清、更快速、更逼真的圖生視頻

在和多位內(nèi)容創(chuàng)作者的溝通中，我們了解到：相較于文生視頻的趣味性，大家對(duì)圖生視頻有著更高頻的需求，因?yàn)閳D生視頻進(jìn)一步提高了生成視頻的控制和一致性，可以快速生成可用的視頻素材。

“新清影”的第一個(gè)亮點(diǎn)，正是“圖生視頻”能力的全面提升，確切地說可以歸納為四個(gè)方面：

一是4K超高清分辨率，相較于清影6秒、1440x960的清晰度，“新清影”支持生成10s、4K、60幀超高清視頻。

二是可變比例，用戶可以上傳任意比例的圖像生成視頻，哪怕是超寬畫幅，都可以生成對(duì)應(yīng)比例的視頻。

三是多通道生成能力，以往的圖生視頻類產(chǎn)品，一次只能生成一個(gè)，“新清影”可以一次性生成4個(gè)視頻。

四是模型能力的提升，CogVideoX在內(nèi)容連貫性、可控性和訓(xùn)練效率等方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新，讓“新清影”的圖像質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性、復(fù)雜提示詞的語義理解等能力顯著提升；同時(shí)有著更強(qiáng)的人物面部、表演細(xì)節(jié)、動(dòng)作連貫性和物理特性模擬。簡而言之就是更加自然和逼真。

前三個(gè)方面的提升很容易判斷，需要驗(yàn)證的創(chuàng)新點(diǎn)恰恰是視頻質(zhì)量和逼真度，也是視頻生成類產(chǎn)品最核心的價(jià)值。于是我們找到了幾組圖片，輸入對(duì)應(yīng)的提示詞，來驗(yàn)證“新清影”是否言過其實(shí)。

第一組照片是站在木樁上的倉鸮，后面的背景被虛化了，給出的提示詞也很簡單——“讓圖片中的動(dòng)物動(dòng)起來”，以此來驗(yàn)證“新清影”在運(yùn)動(dòng)合理性、動(dòng)作連貫性和圖像質(zhì)量等方面的表現(xiàn)。

視頻的整體表現(xiàn)可圈可點(diǎn)，倉鸮轉(zhuǎn)頭的動(dòng)作自然連貫，每一根毛發(fā)、每一道紋路、每一處細(xì)節(jié)都清晰可見。即使背景做了虛化處理，也能感受到有風(fēng)吹動(dòng)樹葉，倉鸮腳上的綁帶也在隨風(fēng)晃動(dòng)，近乎可以充當(dāng)真實(shí)拍攝的視頻。

第二組是一張?jiān)谘┑乩镄旭偟钠嚕跇?gòu)圖上比前面要復(fù)雜的多，主體是一臺(tái)黑色汽車，遠(yuǎn)處隱約可見一片森林，同時(shí)在提示詞上也更復(fù)雜一些——“在雪地里彈射起步的汽車，掀起了滾滾煙塵”。

這次生成的視頻超出了我們的預(yù)期：盡管汽車有一點(diǎn)點(diǎn)形變，但起步時(shí)輪胎轉(zhuǎn)動(dòng)濺起的殘雪、汽車起步的速度、汽車駛遠(yuǎn)后逐漸消失的煙塵等等，都遵循了物理規(guī)律，甚至可以清晰的看到遠(yuǎn)處被汽車遮擋的樹木，并且符合冬天的場景。

做一個(gè)總結(jié)的話，“新清影”生成的視頻在畫面上高度還原了輸入圖像，光影和色調(diào)自然地融入了場景中，視頻的自然度和逼真度極大提升。更重要的是，視頻生成不再需要不停“抽卡”和二次剪輯，生成的素材幾乎可以直接使用。

02 “無聲視頻”一步跨越到“有聲時(shí)代”

“新清影”的另一大亮點(diǎn)，在于即將上線的音效功能。

目前AI生成的視頻還處于“默片”時(shí)代，抑或是人為添加一段背景音樂，并沒有解決音效問題。“新清影”即將填補(bǔ)市場空白，可自動(dòng)生成與畫面匹配的音效，讓AI視頻一步跨越到了“有聲時(shí)代”。

為了驗(yàn)證音效功能的效果，我們從Pixabay上下載了三段無聲的視頻片段，然后用智譜的音效模型CogSound匹配了音效。

第一個(gè)片段是田野中工作的收割機(jī)，并不是一個(gè)常見的場景，但CogSound準(zhǔn)確生成了拖拉機(jī)轟隆隆的引擎聲，音效和畫面的連貫性、平滑過渡完成地很好，讓人仿佛置身于秋收的熱鬧場景里。

第二個(gè)片段是篝火旁倒水的場景，CogSound的表現(xiàn)再次令人驚艷，一開始是木柴燃燒的噼啪聲響，在水倒出的時(shí)候，恰如其分地出現(xiàn)了倒水的聲音，聲音和畫面幾乎沒有任何偏差和失配。

第三個(gè)片段是大雪中站在木樁上的鳥，也是一個(gè)語義理解的“陷阱”，很可能會(huì)出現(xiàn)音效的錯(cuò)配，譬如森林里的鳥鳴聲。結(jié)果超出了我們的想象，可以聽到風(fēng)雪天熟悉的“白噪音”，并且伴隨著嘈雜的鳥叫。

如果說“新清影”的圖生視頻能力，解決了內(nèi)容創(chuàng)作中對(duì)高質(zhì)量素材的需求，音效功能上線后，進(jìn)一步讓外界看到了更大的應(yīng)用空間。

比如電影中大規(guī)模戰(zhàn)斗、災(zāi)難等場景，現(xiàn)在可以直接用AI生成音效，不僅將縮短制作周期，還將極大地降低制作成本，在提升產(chǎn)能和效率的同時(shí)，加速電影制作從流水線時(shí)代進(jìn)入到智能化時(shí)代。

再比如游戲、廣告等內(nèi)容的音效制作，過去需要專業(yè)的技術(shù)團(tuán)隊(duì)，利用專業(yè)的設(shè)備才能完成，現(xiàn)在只需要一個(gè)音效模型CogSound。創(chuàng)作門檻的降低，對(duì)一個(gè)行業(yè)繁榮度的催化作用不言而喻。

可能很多人會(huì)產(chǎn)生這樣的疑問：既然音效制作是一個(gè)復(fù)雜的系統(tǒng)性工程，CogSound是怎么實(shí)現(xiàn)的？

這里就涉及到大模型中常用的Diffusion架構(gòu)。

核心思想是將擴(kuò)散過程從高維原始音頻空間轉(zhuǎn)移到低維潛空間中進(jìn)行，可以在保持生成質(zhì)量的同時(shí)，實(shí)現(xiàn)高效的音頻合成。

智譜的研發(fā)團(tuán)隊(duì)采用了基于Unet的Latent Diffusion潛空間擴(kuò)散，同時(shí)引入分塊時(shí)序?qū)R交叉注意力機(jī)制，在架構(gòu)中整合了旋轉(zhuǎn)位置編碼技術(shù)，確保了生成音效與視頻內(nèi)容在語義上的高度一致，并在連貫性和平滑過渡方面效果顯著。

通俗一些的解釋，智譜的CogSound是這樣工作的：

先基于GLM-4V的視頻理解能力，準(zhǔn)確識(shí)別并理解視頻背后的語義和情感，再由音頻模型根據(jù)視頻內(nèi)容生成音效、節(jié)奏，甚至是復(fù)雜的混合音效，包括爆炸聲、水流、樂器、動(dòng)物叫聲、交通工具的聲音等等。

03 內(nèi)容創(chuàng)作“All in One”已不再遙遠(yuǎn)

年初視頻生成模型剛誕生時(shí)，吸引了無數(shù)人的興趣，其中暢想最多的一個(gè)方向，正是越來越多人參與到視頻內(nèi)容的生產(chǎn)創(chuàng)作。

可惜到目前為止，大多數(shù)產(chǎn)品還只是生成短小片段的“創(chuàng)意玩具”，在社交平臺(tái)上進(jìn)行輕量化的應(yīng)用，和生產(chǎn)力仍然有相當(dāng)大的距離：需要花費(fèi)大量的時(shí)間進(jìn)行視頻剪輯和合成，才能制作出一個(gè)看起來還行的短視頻。

對(duì)于其中存在的癥結(jié)，可以大致分為兩個(gè)方面：

一個(gè)是模型本身的能力局限，比如語義理解能力，能否準(zhǔn)確理解用戶的指令；視頻生成效果，涉及畫面流暢度、人物穩(wěn)定性、動(dòng)作連貫性、光影一致性、風(fēng)格準(zhǔn)確性等等；以及生成視頻的時(shí)長和分辨率。

另一個(gè)是產(chǎn)品的易用性，相較于PR、AE等專業(yè)的制作工具，AI生成視頻極大地降低了門檻，只需輸入簡短的指令，即可實(shí)現(xiàn)豐富的效果。但距離普通小白快速生成高質(zhì)量視頻，還有很長一段路要走。

樂觀的是，技術(shù)的每一次迭代，都讓理想離用戶更近一步。

以智譜為例，不到一年時(shí)間里，就在視頻時(shí)長、生成速度、分辨率、一致性等方面實(shí)現(xiàn)了長足的進(jìn)步，驗(yàn)證了scaling law在視頻生成方面的有效性，不排除模型能力在很短時(shí)間里再一次創(chuàng)新升級(jí)的可能。

畢竟3個(gè)多月前的清影，還是國內(nèi)最早全量上線 C 端、人人可用的生成視頻功能，剛剛實(shí)現(xiàn)技術(shù)的從0到1，僅一個(gè)季度就完成了能力的全面升級(jí)。在這個(gè)“技術(shù)大爆炸”的時(shí)代，所有的技術(shù)難題，在根結(jié)上不過是時(shí)間早晚的問題。

而在產(chǎn)品易用性上，也傳出了一些利好的“小道消息”。

聯(lián)想到智譜在半個(gè)月前上線的情感語音模型GLM-4-Voice，和“新清影”一同亮相的音效模型CogSound、音樂模型CogMusic，已然構(gòu)建了基于 GLM 原創(chuàng)可控技術(shù)的，覆蓋文本、圖像、視頻和聲音的多模態(tài)模型矩陣。

于是我們進(jìn)行了進(jìn)一步的測試：讓“新清影”將圖片生成視頻，同時(shí)用CogSound給視頻生成對(duì)應(yīng)的音效。

除了效果依舊讓人驚艷，更直觀的體驗(yàn)是效率，整個(gè)過程只有幾分鐘的時(shí)間。可以預(yù)見，將照片素材批量生成自帶音效的視頻，或是接下來一段時(shí)間里一個(gè)重要的應(yīng)用方向。

進(jìn)一步猜測：是否存在用工具流同步調(diào)用多個(gè)模型，只需一個(gè)指令就能生成畫面和音效同步的視頻呢？

借用智譜官方的表態(tài)來看：“我們的理想狀態(tài)是，只需一個(gè)好的創(chuàng)意，剩下的事AI都能輔助搞定，輕松將一個(gè) idea、一張圖，變成一段自帶 bgm 的影片。”言外之意，從腳本、視頻畫面到聲音和音效，過去需要整個(gè)團(tuán)隊(duì)分工協(xié)作完成的任務(wù)，以后都可以交給大模型，實(shí)現(xiàn)全流程自動(dòng)化。

一個(gè)All in One的視頻創(chuàng)作平臺(tái)，注定不再遙遠(yuǎn)。

04 寫在最后

也許過不了多久，短視頻的創(chuàng)作模式就將被重構(gòu)。

創(chuàng)作者們不再需要親自出鏡，不再需要奔赴拍攝地點(diǎn)；只要通過語言清晰描述自己所需的場景與內(nèi)容，就可以輕松批量生成符合需求的短視頻。

內(nèi)容創(chuàng)作不再拘泥于專業(yè)群體，普通用戶也可以通過簡單、直觀的工具，用AI視頻表達(dá)自己的創(chuàng)意和想法。

這是大模型的機(jī)會(huì)，也是所有創(chuàng)作者的機(jī)會(huì)。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.