就在剛剛,智譜清言App上線了“新清影”,同時(shí)對(duì)外開源了智譜最新的圖生視頻模型CogVideoX v1.5。
3個(gè)多月前的智譜Open Day上,視頻創(chuàng)作智能體清影正式在智譜清言上線,只需30秒即可生成時(shí)長6秒、1440x960清晰度的高精視頻,隨即涌現(xiàn)出了短視頻、表情包梗圖、廣告制作等創(chuàng)新玩法。
短短一個(gè)多月的時(shí)間,智譜就將清影背后的圖生視頻模型CogVideoX 2B和5B版本給開源了,可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行,陸續(xù)衍生出了CogVideoX-factory等大量二次開發(fā)項(xiàng)目。
經(jīng)過3個(gè)多月打磨和進(jìn)化的“新清影”,都有什么能力上的提升,又將帶來哪些有趣的新體驗(yàn)?zāi)兀?/p>
我們有幸拿到了提前內(nèi)測的資格,下面和大家一起來揭曉答案。
01 更高清、更快速、更逼真的圖生視頻
在和多位內(nèi)容創(chuàng)作者的溝通中,我們了解到:相較于文生視頻的趣味性,大家對(duì)圖生視頻有著更高頻的需求,因?yàn)閳D生視頻進(jìn)一步提高了生成視頻的控制和一致性,可以快速生成可用的視頻素材。
“新清影”的第一個(gè)亮點(diǎn),正是“圖生視頻”能力的全面提升,確切地說可以歸納為四個(gè)方面:
一是4K超高清分辨率,相較于清影6秒、1440x960的清晰度,“新清影”支持生成10s、4K、60幀超高清視頻。
二是可變比例,用戶可以上傳任意比例的圖像生成視頻,哪怕是超寬畫幅,都可以生成對(duì)應(yīng)比例的視頻。
三是多通道生成能力,以往的圖生視頻類產(chǎn)品,一次只能生成一個(gè),“新清影”可以一次性生成4個(gè)視頻。
四是模型能力的提升,CogVideoX在內(nèi)容連貫性、可控性和訓(xùn)練效率等方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,讓“新清影”的圖像質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性、復(fù)雜提示詞的語義理解等能力顯著提升;同時(shí)有著更強(qiáng)的人物面部、表演細(xì)節(jié)、動(dòng)作連貫性和物理特性模擬。簡而言之就是更加自然和逼真。
前三個(gè)方面的提升很容易判斷,需要驗(yàn)證的創(chuàng)新點(diǎn)恰恰是視頻質(zhì)量和逼真度,也是視頻生成類產(chǎn)品最核心的價(jià)值。于是我們找到了幾組圖片,輸入對(duì)應(yīng)的提示詞,來驗(yàn)證“新清影”是否言過其實(shí)。
第一組照片是站在木樁上的倉鸮,后面的背景被虛化了,給出的提示詞也很簡單——“讓圖片中的動(dòng)物動(dòng)起來”,以此來驗(yàn)證“新清影”在運(yùn)動(dòng)合理性、動(dòng)作連貫性和圖像質(zhì)量等方面的表現(xiàn)。
視頻的整體表現(xiàn)可圈可點(diǎn),倉鸮轉(zhuǎn)頭的動(dòng)作自然連貫,每一根毛發(fā)、每一道紋路、每一處細(xì)節(jié)都清晰可見。即使背景做了虛化處理,也能感受到有風(fēng)吹動(dòng)樹葉,倉鸮腳上的綁帶也在隨風(fēng)晃動(dòng),近乎可以充當(dāng)真實(shí)拍攝的視頻。
第二組是一張?jiān)谘┑乩镄旭偟钠嚕跇?gòu)圖上比前面要復(fù)雜的多,主體是一臺(tái)黑色汽車,遠(yuǎn)處隱約可見一片森林,同時(shí)在提示詞上也更復(fù)雜一些——“在雪地里彈射起步的汽車,掀起了滾滾煙塵”。
這次生成的視頻超出了我們的預(yù)期:盡管汽車有一點(diǎn)點(diǎn)形變,但起步時(shí)輪胎轉(zhuǎn)動(dòng)濺起的殘雪、汽車起步的速度、汽車駛遠(yuǎn)后逐漸消失的煙塵等等,都遵循了物理規(guī)律,甚至可以清晰的看到遠(yuǎn)處被汽車遮擋的樹木,并且符合冬天的場景。
做一個(gè)總結(jié)的話,“新清影”生成的視頻在畫面上高度還原了輸入圖像,光影和色調(diào)自然地融入了場景中,視頻的自然度和逼真度極大提升。更重要的是,視頻生成不再需要不停“抽卡”和二次剪輯,生成的素材幾乎可以直接使用。
02 “無聲視頻”一步跨越到“有聲時(shí)代”
“新清影”的另一大亮點(diǎn),在于即將上線的音效功能。
目前AI生成的視頻還處于“默片”時(shí)代,抑或是人為添加一段背景音樂,并沒有解決音效問題。“新清影”即將填補(bǔ)市場空白,可自動(dòng)生成與畫面匹配的音效,讓AI視頻一步跨越到了“有聲時(shí)代”。
為了驗(yàn)證音效功能的效果,我們從Pixabay上下載了三段無聲的視頻片段,然后用智譜的音效模型CogSound匹配了音效。
第一個(gè)片段是田野中工作的收割機(jī),并不是一個(gè)常見的場景,但CogSound準(zhǔn)確生成了拖拉機(jī)轟隆隆的引擎聲,音效和畫面的連貫性、平滑過渡完成地很好,讓人仿佛置身于秋收的熱鬧場景里。
第二個(gè)片段是篝火旁倒水的場景,CogSound的表現(xiàn)再次令人驚艷,一開始是木柴燃燒的噼啪聲響,在水倒出的時(shí)候,恰如其分地出現(xiàn)了倒水的聲音,聲音和畫面幾乎沒有任何偏差和失配。
第三個(gè)片段是大雪中站在木樁上的鳥,也是一個(gè)語義理解的“陷阱”,很可能會(huì)出現(xiàn)音效的錯(cuò)配,譬如森林里的鳥鳴聲。結(jié)果超出了我們的想象,可以聽到風(fēng)雪天熟悉的“白噪音”,并且伴隨著嘈雜的鳥叫。
如果說“新清影”的圖生視頻能力,解決了內(nèi)容創(chuàng)作中對(duì)高質(zhì)量素材的需求,音效功能上線后,進(jìn)一步讓外界看到了更大的應(yīng)用空間。
比如電影中大規(guī)模戰(zhàn)斗、災(zāi)難等場景,現(xiàn)在可以直接用AI生成音效,不僅將縮短制作周期,還將極大地降低制作成本,在提升產(chǎn)能和效率的同時(shí),加速電影制作從流水線時(shí)代進(jìn)入到智能化時(shí)代。
再比如游戲、廣告等內(nèi)容的音效制作,過去需要專業(yè)的技術(shù)團(tuán)隊(duì),利用專業(yè)的設(shè)備才能完成,現(xiàn)在只需要一個(gè)音效模型CogSound。創(chuàng)作門檻的降低,對(duì)一個(gè)行業(yè)繁榮度的催化作用不言而喻。
可能很多人會(huì)產(chǎn)生這樣的疑問:既然音效制作是一個(gè)復(fù)雜的系統(tǒng)性工程,CogSound是怎么實(shí)現(xiàn)的?
這里就涉及到大模型中常用的Diffusion架構(gòu)。
核心思想是將擴(kuò)散過程從高維原始音頻空間轉(zhuǎn)移到低維潛空間中進(jìn)行,可以在保持生成質(zhì)量的同時(shí),實(shí)現(xiàn)高效的音頻合成。
智譜的研發(fā)團(tuán)隊(duì)采用了基于Unet的Latent Diffusion潛空間擴(kuò)散,同時(shí)引入分塊時(shí)序?qū)R交叉注意力機(jī)制,在架構(gòu)中整合了旋轉(zhuǎn)位置編碼技術(shù),確保了生成音效與視頻內(nèi)容在語義上的高度一致,并在連貫性和平滑過渡方面效果顯著。
通俗一些的解釋,智譜的CogSound是這樣工作的:
先基于GLM-4V的視頻理解能力,準(zhǔn)確識(shí)別并理解視頻背后的語義和情感,再由音頻模型根據(jù)視頻內(nèi)容生成音效、節(jié)奏,甚至是復(fù)雜的混合音效,包括爆炸聲、水流、樂器、動(dòng)物叫聲、交通工具的聲音等等。
03 內(nèi)容創(chuàng)作“All in One”已不再遙遠(yuǎn)
年初視頻生成模型剛誕生時(shí),吸引了無數(shù)人的興趣,其中暢想最多的一個(gè)方向,正是越來越多人參與到視頻內(nèi)容的生產(chǎn)創(chuàng)作。
可惜到目前為止,大多數(shù)產(chǎn)品還只是生成短小片段的“創(chuàng)意玩具”,在社交平臺(tái)上進(jìn)行輕量化的應(yīng)用,和生產(chǎn)力仍然有相當(dāng)大的距離:需要花費(fèi)大量的時(shí)間進(jìn)行視頻剪輯和合成,才能制作出一個(gè)看起來還行的短視頻。
對(duì)于其中存在的癥結(jié),可以大致分為兩個(gè)方面:
一個(gè)是模型本身的能力局限,比如語義理解能力,能否準(zhǔn)確理解用戶的指令;視頻生成效果,涉及畫面流暢度、人物穩(wěn)定性、動(dòng)作連貫性、光影一致性、風(fēng)格準(zhǔn)確性等等;以及生成視頻的時(shí)長和分辨率。
另一個(gè)是產(chǎn)品的易用性,相較于PR、AE等專業(yè)的制作工具,AI生成視頻極大地降低了門檻,只需輸入簡短的指令,即可實(shí)現(xiàn)豐富的效果。但距離普通小白快速生成高質(zhì)量視頻,還有很長一段路要走。
樂觀的是,技術(shù)的每一次迭代,都讓理想離用戶更近一步。
以智譜為例,不到一年時(shí)間里,就在視頻時(shí)長、生成速度、分辨率、一致性等方面實(shí)現(xiàn)了長足的進(jìn)步,驗(yàn)證了scaling law在視頻生成方面的有效性,不排除模型能力在很短時(shí)間里再一次創(chuàng)新升級(jí)的可能。
畢竟3個(gè)多月前的清影,還是國內(nèi)最早全量上線 C 端、人人可用的生成視頻功能,剛剛實(shí)現(xiàn)技術(shù)的從0到1,僅一個(gè)季度就完成了能力的全面升級(jí)。在這個(gè)“技術(shù)大爆炸”的時(shí)代,所有的技術(shù)難題,在根結(jié)上不過是時(shí)間早晚的問題。
而在產(chǎn)品易用性上,也傳出了一些利好的“小道消息”。
聯(lián)想到智譜在半個(gè)月前上線的情感語音模型GLM-4-Voice,和“新清影”一同亮相的音效模型CogSound、音樂模型CogMusic,已然構(gòu)建了基于 GLM 原創(chuàng)可控技術(shù)的,覆蓋文本、圖像、視頻和聲音的多模態(tài)模型矩陣。
于是我們進(jìn)行了進(jìn)一步的測試:讓“新清影”將圖片生成視頻,同時(shí)用CogSound給視頻生成對(duì)應(yīng)的音效。
除了效果依舊讓人驚艷,更直觀的體驗(yàn)是效率,整個(gè)過程只有幾分鐘的時(shí)間。可以預(yù)見,將照片素材批量生成自帶音效的視頻,或是接下來一段時(shí)間里一個(gè)重要的應(yīng)用方向。
進(jìn)一步猜測:是否存在用工具流同步調(diào)用多個(gè)模型,只需一個(gè)指令就能生成畫面和音效同步的視頻呢?
借用智譜官方的表態(tài)來看:“我們的理想狀態(tài)是,只需一個(gè)好的創(chuàng)意,剩下的事AI都能輔助搞定,輕松將一個(gè) idea、一張圖,變成一段自帶 bgm 的影片。”言外之意,從腳本、視頻畫面到聲音和音效,過去需要整個(gè)團(tuán)隊(duì)分工協(xié)作完成的任務(wù),以后都可以交給大模型,實(shí)現(xiàn)全流程自動(dòng)化。
一個(gè)All in One的視頻創(chuàng)作平臺(tái),注定不再遙遠(yuǎn)。
04 寫在最后
也許過不了多久,短視頻的創(chuàng)作模式就將被重構(gòu)。
創(chuàng)作者們不再需要親自出鏡,不再需要奔赴拍攝地點(diǎn);只要通過語言清晰描述自己所需的場景與內(nèi)容,就可以輕松批量生成符合需求的短視頻。
內(nèi)容創(chuàng)作不再拘泥于專業(yè)群體,普通用戶也可以通過簡單、直觀的工具,用AI視頻表達(dá)自己的創(chuàng)意和想法。
這是大模型的機(jī)會(huì),也是所有創(chuàng)作者的機(jī)會(huì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.