作者|陶然 編輯|魏曉
年末補(bǔ)課AI的騰訊,在各條細(xì)分賽道快速追進(jìn)。
繼11月推出AI工作臺 ima.copilot 之后,12月3日,已有劇透的AI視頻生成功能終于被鵝廠放出,官方名稱仍是混元(HunYuan Video),目前可在騰訊元寶APP內(nèi)體驗,
3號發(fā)布當(dāng)天,用戶僅有三次體驗機(jī)會,包括一次高品質(zhì)生成;4號騰訊增加了體驗次數(shù),改成了每天四次標(biāo)準(zhǔn)+兩次高品質(zhì),總共六次,直接翻了一倍。
騰訊元寶-AI應(yīng)用-AI視頻
直接看演示:模型成功理解了提示詞中外部全景到內(nèi)部近景的視角切換,質(zhì)量也比較不錯。
提示詞:一座懸浮于云端的未來都市,高樓大廈皆由透明能量晶體構(gòu)建。全景展現(xiàn)都市的宏偉,飛行器在樓間穿梭。隨后拉近鏡頭至一個神秘的科技實(shí)驗室,一位年輕的女科學(xué)家身著銀色防護(hù)服,正在操作一臺散發(fā)著幽藍(lán)光芒的大型儀器,特寫她專注的眼神與儀器上閃爍的復(fù)雜數(shù)據(jù)符文,整體畫面以冷色調(diào)為主,科技感。
必須承認(rèn),大廠就是大廠,技術(shù)能力方面事兒大可不必?fù)?dān)心。
可玩性很高的模型
視頻生成大模型曾在今年年中經(jīng)歷過一段時間的集中發(fā)布,大廠和初創(chuàng)公司接連掏出了自家版本的“Sora”。
行業(yè)短暫沉默幾個月之后,騰訊進(jìn)場似乎預(yù)示著新一輪國產(chǎn)Sora競爭的開啟(豆包和Kimi近期也都有動作)。
只不過,或許是用戶等得太久熱情太高,又或許是騰訊算力準(zhǔn)備不夠充足,混元大模型生成視頻的等待時間,一度格外漫長:之前體驗過的模型最多十幾分鐘也就出來一條了,而發(fā)布當(dāng)天的混元大模型,想體驗需要做好等幾個小時的準(zhǔn)備。
12月3日 等待超過一小時
好在,后續(xù)官方應(yīng)該是對算力進(jìn)行了優(yōu)化,或者單純加開了一些服務(wù)器,等待時間過長的問題已經(jīng)解決。
12月4日 等待不超過十分鐘
以及,生成的視頻質(zhì)量在線,不然用戶體驗真的會嚴(yán)重扣分。
提示詞:一位身著古裝的書生在庭院中散步,中景呈現(xiàn)書生手持書卷,步伐輕盈。隨后切換到近景,聚焦他抬頭思考,鏡頭以平移運(yùn)鏡為主,跟隨書生的行動軌跡。
與目前市面上已有的快手可靈、字節(jié)即夢、MiniMax海螺和智譜清影相比,騰訊混元在“高級指令”里給出的調(diào)節(jié)選項最為全面,包含風(fēng)格、比例、景別、光線和運(yùn)鏡五個類別。
上面這段提示詞,本身已經(jīng)給了鏡頭視角的設(shè)置(可惜這次AI并沒有做出來切換效果),在下面的“高級指令”選項里,除了打開所有能增強(qiáng)質(zhì)感的開關(guān)外,只額外設(shè)定了一個“自然光”。
混元AI視頻 高級指令界面
同賽道其他產(chǎn)品,雖或多或少都會給一些預(yù)設(shè)選項,但對比混元都相對有限。
從左至右依次為即夢、海螺和清影
更新后的可靈1.5模型,在PC端選擇高品質(zhì)模式下,額外增加了運(yùn)鏡控制選項,標(biāo)準(zhǔn)模式目前不支持調(diào)節(jié)。
可靈1.5
顯而易見,混元視頻模型最大限度的把AI創(chuàng)作的控制權(quán)開放給了用戶,有點(diǎn)類似能在手機(jī)里找到的“開發(fā)者模式”,用戶可以對很多進(jìn)行細(xì)節(jié)具體設(shè)置,再交由AI執(zhí)行命令。
這種自由度帶來的可玩性,理論上會非常高。
比如,用不同畫風(fēng)和景別跑同一段提示詞,最終給出的視頻會有明顯區(qū)別,但帽子等等細(xì)節(jié)又都能呈現(xiàn)。
賽博朋克 近景 明亮
寫實(shí)風(fēng)格 廣角 柔和
提示詞:車水馬龍的時尚都市街頭,站著一位背著專業(yè)相機(jī)、身著個性潮牌服飾且頭戴時尚棒球帽的年輕攝影師,他微微仰頭,尋找拍攝充滿現(xiàn)代活力與時尚氣息的城市街頭夜景。
混元模型對這些預(yù)設(shè)的執(zhí)行力尚可,要求基本都加進(jìn)去了,第二段還用了類似延時攝影的效果,這種“可玩性”帶來的好處就是,用戶可以拿同一段提示詞組合出很多完全不同的視頻內(nèi)容,獲得更大的調(diào)整空間。
這帶來的應(yīng)用潛力,非常可觀。
AI視頻
離能用還有多遠(yuǎn)?
當(dāng)然,如果真的要AI視頻可用,風(fēng)格是只是大面,畫面一致性等等細(xì)節(jié)還是最終的決定因素。
從以往大量案例中不難看出,手部等四肢部位的生成一直是視頻生成模型的薄弱環(huán)節(jié)。AI在生成這些細(xì)節(jié)時常常出現(xiàn)問題,例如人物出現(xiàn)六根手指,或者四肢部分扭曲變形等情況。
本身AI對肢體細(xì)節(jié)的刻畫就是難點(diǎn),在文生圖模型上已經(jīng)頗為明顯,而視頻生成對動態(tài)性和連續(xù)性的要求,又進(jìn)一步放大了這種困難。
驚喜的是,諸如手部畸變、面部不自然等問題,在混元模型中幾乎沒有出現(xiàn),前面幾個案例中,人物面部在運(yùn)動過后未有太多明顯不合邏輯的變化,人物的動作姿態(tài),身體其他部位與物體及周圍環(huán)境存在的交互關(guān)系也比較合理。
下面這個片段構(gòu)圖看起來并不復(fù)雜,但細(xì)節(jié)絕對可以算得上驚艷。
提示詞:一位住在木屋的中年人,睡醒后從床上坐起來,雙手抱頭,表情失落。近景 / 自然光 / 固定鏡頭
人物面部表情,手指運(yùn)動和雙手抱頭的過程,毛發(fā)細(xì)節(jié)的處理近乎以假亂真。
模型需要對細(xì)節(jié)有更深入的理解和精準(zhǔn)的把握,才能生成趨近現(xiàn)實(shí)的人物動作。這種細(xì)節(jié)部分的穩(wěn)定連貫,讓混元生成的視頻前后畫面一致性相當(dāng)不錯——主體、場景、風(fēng)格、運(yùn)鏡、光效等方面都能保持一致,觀感上就會比較流暢、自然,減少畫面的“AI味”,那種肉眼可見的突兀變化。
不過,以目前視頻模型所能生成的短短幾秒內(nèi)容為樣本,包括畫面也包括時長,AI視頻未來一段時間內(nèi)仍會是以技術(shù)探索為主,或者在一些例如廣告片的設(shè)計中作為補(bǔ)充元素,離獨(dú)當(dāng)一面還有不小距離,成規(guī)模的商業(yè)化仍有難度。
既然難以直接實(shí)現(xiàn)盈利,不妨先把用戶和開發(fā)者生態(tài)盡可能打開,騰訊就選擇開源了這個參數(shù)量達(dá)130億的HunYuan Video模型。
吸引更多用戶和開發(fā)者,集思廣益探索基于模型所能衍生出的創(chuàng)新應(yīng)用與新穎玩法,或許才是破局的關(guān)鍵所在。
Lanmeih/今日話題
你對國產(chǎn)AI視頻模型的體驗如何?
咱們評論區(qū)聊聊~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.