朋友們好,我是歸藏(guizang)。
今天上午的火山引擎Force原動力大會上字節發布了 Seedance 1.0 Pro 視頻生成模型。
也就是即夢里面的視頻3.0 pro 模型。
我也提前測試了一下,發現這次字節的視頻模型真的站起來了。
在圖生和文生的提示詞理解、畫面細節、物理表現一致性理解等方面都無可挑剔,非常強悍,而且還是原生 1080P 分辨率。
在 Artificial Analysis 上,Seedance 1.0 文生視頻、圖生視頻的成績都在第一,比 Veo 3 高了很多。
先介紹一下 Seedance 1.0 Pro 模型特色:
- 目前模型想支持文生視頻、首幀圖生視頻,輸出分辨率為 1080P,最長生成 10 秒
- 支持單次生成無縫切換的多鏡頭敘事視頻,而且可以保持人物場景一致性
- 在多主體動作和復雜運鏡提示詞的表現上非常好
- 畫面與主體動態效果更自然,結構性更好,崩壞率更低
- 生成速度超快,1080P 分辨率的 5 秒視頻生成只需要 40 秒
- 價格有優勢,在如此高質量的前提下,通過火山引擎調用 Seedance 1.0 Pro 5 秒 1080P 視頻 API 價格僅為 3.67 元
01 多鏡頭生成測試
先來看看字節的看家本事吧,哈哈。
Seedance 1.0 Pro 這次單次生成多鏡頭的能力更加穩定和可用。
下面這個圖生視頻 Seedance 1.0 Pro 對于提示詞的理解都非常到位。
三段完全不同景別和運鏡的分鏡都完美實現了。
而且由于是圖生很考驗場景和人物一致性,人物的裝束和這種酒店的設計風格三個分鏡都很一致沒啥問題。
圖生視頻|故事:緊急撤離 (The Extraction)
分鏡一 (0-4秒): 一個身穿黑色戰術裝備、頭戴紅色鏡面頭盔的人,手持手槍,在酒店的走廊里高速奔跑。鏡頭以與他同樣的速度進行橫向跟拍,背景因運動而模糊,營造出緊張的急迫感。
分鏡二 (4-7秒): 鏡頭切換到一個固定的機位,位于走廊拐角的一組電梯門前。奔跑者沖入畫面,一個急剎停在電梯門前,他用空著的手反復、用力地按著下行按鈕,同時身體緊繃,不時回頭望向來時的走廊方向。
分鏡三 (7-10秒): 切換到電梯內部的視角,從一個較低的角度向外拍攝。電梯門“叮”的一聲打開,門外的奔跑者立刻沖了進來,與電梯里幾位目瞪口呆的普通乘客擦肩而過。他一進入電梯就立刻轉身面向門口,電梯門隨即開始關閉,切斷了外部的視野。
以往我們很少用文生,主要是視頻生成成本高,崩壞概率大,文生不好控制。
但是隨著像 Seedance 1.0 Pro 這樣的提示詞遵循非常好的模型不斷出現,視頻成本不斷降低,文生在普通用戶這里可能是主流。
下面這個一段提示詞就搞定了一個餐飲宣傳片的常見鏡頭,而且菜品的樣式都能做到三個分鏡是一樣的。
文生視頻|最后的點綴 (The Final Touch)
分鏡一 (0-4秒): 在明亮的廚房里,一位穿著白色廚師服的廚師正低頭審視著一個白色盤子里的菜肴。鏡頭為中景,展示了廚師的專注。
分鏡二 (4-7秒): 鏡頭切換為極端特寫。廚師的手用一把鑷子,小心翼翼地夾起一小片綠色草本葉,并將其精確地放置在菜肴頂部的某個特定位置。
分鏡三 (7-10秒): 切換為對整個菜肴的正上方俯拍鏡頭。盤子被緩慢地旋轉,我們可以清晰地看到,上一鏡頭中那片綠葉正完好地停留在它被放下的位置上。
注意看女生帶著的耳機,在第二個分鏡耳機的細節依然可以保持一致。
同時第三個分鏡下手指打字這么精細的動作一點問題沒有。
文生視頻|緊急回復 (The Urgent Reply)
分鏡一 (0-3秒): 咖啡館窗邊,一個留著短發、戴著耳機的年輕女子正看著窗外。她面前桌上的手機屏幕突然亮起,顯示一條新消息。鏡頭為中景,從側面拍攝。
分鏡二 (3-7秒): 立即切換為對她面部的正面特寫。她的表情從平靜變為驚訝,眉頭微皺,眼神緊盯屏幕。
分鏡三 (7-10秒): 切換為過肩鏡頭,從她的身后拍攝手機屏幕。我們看到她的雙手快速舉起手機,拇指開始在鍵盤上打字回復,屏幕上出現輸入的字符。
整個布景和物品都非常到位,符合古裝劇的場景。
無論海外視頻模型如何進步,在中國特色的文化內容上肯定是不行的,還是得指望 Seedance 1.0 Pro 這種國產模型。
文生視頻|開啟機關 (Opening the Mechanism)
分鏡一 (0-3秒): 在一間光線昏暗的書房里,一個身著古裝的人正用袖子拂去一個布滿灰塵的木盒上的灰塵。鏡頭為中景,能看到人物和木盒。
分鏡二 (3-7秒): 鏡頭切換為木盒的特寫。一雙手正在上面摸索,手指按下一個隱藏的按鈕,盒子的側面彈出一個小巧的榫卯結構。
分鏡三 (7-10秒): 切換為人物面部的特寫。他的眼睛因驚訝而睜大,嘴角露出一絲微笑,視線向下看著剛剛打開的盒子(盒子本身在畫外)。
一般我們短視頻也就十幾秒的時間,也就是說你只需要兩次生成就可以講個完整的故事了。
這個能力未來在 C 端非專業用戶的使用中一定會大放異彩,因為基本不需要剪輯。
而且即夢還支持 AI 配音,幾次點擊就能完講一個完整的故事,期待有專門針對這個能力優化的產品出現。
然后來分別看一下圖生和文生的能力測試,運鏡和表演能力等綜合測試都融合在里面了。
02 圖生視頻測試
首先是藏師傅的老測試集,這個怪獸圖你們應該見過很多次了。
但是每次出現,視頻的質量依然可以看出非常明顯的變化。
仔細看怪獸的毛發,光照在上面的質感非常真實,遠處云霧也在緩慢的運動,下雨的時候他自己給補上了應該有的云層一點都不突兀。
可以說現在提示詞遵循已經是最基本的要求了,更好的模型需要生成提示詞中沒說但是畫面中應該有的內容。
鏡頭拉遠,猛獸站起來,然后開始抬頭咆哮,咆哮后開始下雨
第一次有模型把這張圖和這個提示詞完美的生成出來。
鏡頭確實是在向左環繞,而且鏡頭運動過程中周圍的人物一直呈現運動模糊狀態。
人物也在轉身,在停下來的時候周圍的人物變清晰,而且還是大幅度運動,表現出類似時停的感覺,所有的細節都這么完美。
鏡頭向左環繞,人物轉身,背景是快速穿行的人流,人物相對靜止。
這張圖很難,因為整個的姿勢是一個側面而且周圍還有這種非常規的水流,很考驗模型的補全和想象能力。
可以看到 Seedance 1.0 Pro 非常順滑的讓人物完成了轉身,而且頭飾的細節非常優秀,以往的模型一般這種都會糊掉。
畫面中的主體在水中優美、緩慢地漂浮,頭部輕輕轉向一側,而鏡頭則采用平滑、盤旋的跟蹤拍攝,營造出夢幻般的神秘氛圍。
高風格化上的表現也非常亮眼,這種非常見風格寫實和平面融合的很難搞。
Seedance 1.0 Pro 在風格上維持的相當完美,即使是大景別運動下依然保持了風格一致性。
而且手部握劍姿勢沒啥問題,劍身冒出的藍光都是這個風格的。
極其緩慢地向角色堅毅的雙眼推近。他發梢的光蝶加速振翅,劍刃上的輝光也隨之明滅流轉。
瞬息之間,角色引身揮劍,劍鋒在空中劃出絢爛的藍色光弧。
然后是傳統的 2D 動漫風格,也沒啥問題,大景別的變化依然可以維持。
鏡頭將開始以一個高速的弧線圍繞角色運動,從他的側后方掃向正前方,完美地跟隨他周身螺旋升騰的熾熱氣浪。與此同時,角色本身會有一個從極靜到極動的爆發,他將身體完全舒展開,完成這記威力萬鈞的斬擊。
03 文生視頻測試
先來試試前幾天在推上看到的一個 POV 運鏡提示詞,這個提示詞非常考驗運鏡和提示詞理解能力。
雖然受限于視頻長度最后沒有進入到胡同,但是已經看到入口了。
整個場景相當復雜,而且貓咪運動速度很快,但是從香料到噴泉到打瞌睡老人再到市場的其他人全都的細節都非常清晰,根本沒有崩的跡象,相當穩定。
運鏡的跟隨也完成的很好,一直鎖定著貓咪。
電影般的連續單鏡頭拍攝,以一只自由奔放的姜黃色虎斑貓的視角,探索了一座充滿活力的北非古城。鏡頭跟隨著貓咪小巧、敏捷的身影,它眼神好奇,性格大膽而獨立,動作自然流暢。
旅程始于一個熙熙攘攘的香料市場,穿梭于堆積如金字塔的香料、懸掛的黃銅燈籠和行人的長袍下擺之間。
它突然沖進一個寧靜的、陽光普照的庭院(里亞德),悄然滑過中央的馬賽克瓷磚噴泉,驚醒了一位正邊喝薄荷茶邊打瞌E的老人。進入了一條狹窄、陰涼、墻壁被粉刷成藍色的胡同。
然后是另一快速運鏡方式 FPV 無人機運鏡。
非常精髓的鹿在鏡頭在從對著鹿身前再轉到鹿生后的時候鏡頭的機動動作非常的無人機。
整個森林的植物細節和清晰度,真的太豐富了,而且可以長時間維持。
在深秋時分的金色夕陽下,陽光穿過茂密的森林,在鋪滿落葉的地面上投下斑駁的光影。一只長著雄偉鹿角的雄鹿被驚擾,突然從林中猛沖而出,鏡頭以一種極具侵略性的第一人稱(FPV)穿越機視角,緊緊跟在鹿的后方展開了一場驚心動魄的追逐。攝像機的運動極度迅猛流暢,它緊貼地面,隨著雄鹿的每一次跳躍和轉向而靈活地調整方向,時而從倒下的樹干下呼嘯穿過,時而以一個驚險的側傾姿態繞開粗壯的樹干。
然后是一個既考驗運動精細度,又考驗物理特性,還考驗中國文化理解的測試。
這里龍字沒有寫出來,當然讓視頻模型寫出具體的中文幾乎在現階段是不可能的。
但是墨跡是否跟筆手部握筆姿勢和寫字姿勢其實也很難做到很好。
當然 Seedance 1.0 Pro 都搞定了,握筆姿勢和墨跡在紙上的暈染都無可挑剔,甚至每個筆畫的筆記都能跟運筆姿勢對上。
一張宣紙在桌上鋪開,旁邊是硯臺和毛筆。一只手握著毛筆,筆尖在硯臺中蘸滿墨。手腕移動,筆尖在紙上寫下一個“龍”字。運筆過程包含起筆、轉折和收筆的動作,墨跡在紙上滲透。鏡頭從桌面的正上方俯拍開始,然后緩慢推近,成為對筆尖的特寫,并跟隨筆尖的運動軌跡移動,最后停留在寫好的字上。
然后是考驗物理特性和多人運動的場景,一般這種場景很容易出現肢體崩壞和穿幫。
但是 Seedance 1.0 Pro 就非常自然所有人的一致性都保持的很好,運動幅度很大的情況下物理碰撞也沒問題。
在擁擠的地鐵車廂里,急剎車導致所有乘客不由自主地向前傾倒,并相互推擠。
測試到這里就結束了,整體來看 Seedance 1.0 Pro 在畫質和穩定性上的表現是獨一份的,而這兩個也是用戶最關注的部分,我這里的案例基本都沒有抽卡。
另外生成是真的快,一個 1080P 原生的視頻模型能有這么快的速度,只能說字節還是非常猛的,算法和卡都要下功夫才行。
在保證質量的前提下,影響模型推廣的主要因素就是速度、穩定性、價格這三者,Seedance 1.0 Pro 都已經相較于其他模型邁出了一大步。
相信 AI 視頻即將迎來相當一大波受眾拓展,期待字節在視頻的多模態融合上繼續發力,繼續降低普通用戶出片門檻。
6 月 11 日也就是今天,Seedance 1.0 Pro 將通過火山引擎開放給企業用戶,并且已經上線了豆包 App。
打開對話框,選擇“照片動起來”,輸入提示詞或者上傳你的圖片,就能體驗。
如果你覺的內容對你有幫助的話可以幫我點個贊或者喜歡,也可以推薦給你需要的朋友們!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.