AI 視頻,還能往哪個(gè)方向卷?Luma AI 的答案有些與眾不同。對(duì)手還在練一招一式,它卻像風(fēng)清揚(yáng)傳授獨(dú)孤九劍,講究靈活變通,如行云流水,任意所之。
Luma AI 或許不如可靈、Runway 知名,但論實(shí)力也在第一梯隊(duì),它的視頻模型叫作 Dream Machine,今年 6 月發(fā)布,最近進(jìn)行了重磅升級(jí),是推出產(chǎn)品以來聲勢(shì)最大的一次。
其中包括兩項(xiàng)更新,一是發(fā)布自己的圖像模型 Luma Photon,將文字、圖像、視頻一鍋端;二是打造了生成 AI 視頻的全新工作流,我們可以像和 ChatGPT 聊天一樣,讓 AI 生成視頻,不用對(duì)提示詞字斟句酌。
對(duì)于生成視頻這件事,Dream Machine 首創(chuàng)了一種很新的方式。
指路https://dream-machine.lumalabs.ai/
聊著聊著,就把視頻給生成了
打開 Dream Machine,我們先看到的是「Board」,可以將它理解為無限的創(chuàng)意畫布,在這里,我們使用自然語言,自由地生成圖像或者視頻。
開始一塊 Board,我的提示詞寫得非常簡(jiǎn)單:「創(chuàng)建一個(gè)日式懸疑少年漫畫的角色?!?/p>
AI 擴(kuò)寫了我的提示詞,一次生成了 4 張圖片,但是不行,年代不對(duì)。
沒關(guān)系,再在對(duì)話框輸入一句,「放在現(xiàn)代背景」。
AI 表示懂了,又生成了 4 張圖片,右上這張孤身走暗巷,已經(jīng)接近我想要的感覺了,但仍然不夠,我想要他抬起頭,露出五官。
不難,繼續(xù)微調(diào),忘掉復(fù)雜的提示詞,和 AI 打直球就可以。
右下這張不錯(cuò),雖然形象幼態(tài)了點(diǎn)。接下來,我想讓 AI 生成一個(gè)視頻,主角在同一條巷子里從白天走到黑夜。
Dream Machine 生成視頻的首尾幀功能,就是為這種需求準(zhǔn)備的——我們挑好頭尾的兩張圖片,讓 AI 補(bǔ)足中間的過程。
那么,我們只需基于滿意的圖片,讓 AI 生成幾張白天場(chǎng)景的,溝通方式還是一樣的簡(jiǎn)單粗暴。最終選定的兩張圖片,細(xì)節(jié)略有落差,但同框也不違和。
萬事俱備,只等生成視頻,AI 過渡得還算自然。
看到這里,你應(yīng)該明白 Dream Machine 和其他視頻工具的區(qū)別了。
其他視頻工具,通常是給你一個(gè)填入提示詞的文本框,然后讓你設(shè)置運(yùn)鏡、時(shí)長等參數(shù)。設(shè)置一次,生成一次。
但 Dream Machine 的界面,看起來非常像和聊天機(jī)器人交互,底部是輸入框,文生圖、圖生圖、圖生視頻、文生視頻,都可以在這里進(jìn)行。
專業(yè)創(chuàng)作者可以繼續(xù)寫傳統(tǒng)的提示詞,但我們也擁有了「講人話」的權(quán)利,壓力給到 AI,Dream Machine 能夠理解上下文,幫我們完善提示詞,我們可以從一個(gè)非常粗糙的想法開始,和它邊聊邊改邊優(yōu)化。
又因?yàn)?Dream Machine 是無限畫布形式的,我們可能在一個(gè)環(huán)節(jié)反復(fù)生成,素材都會(huì)保留下來,不會(huì)互相覆蓋。
我們的思維,不會(huì)局限在一段提示詞、一個(gè)視頻,而是像水一樣流淌,更多的想法,可能就在這個(gè)過程里產(chǎn)生了。
更可控的圖片,更可控的視頻
Dream Machine 的全新工作流就像大樹的主干,其中一些好玩且實(shí)用的功能則像枝椏,相得益彰,才能枝繁葉茂。
起到關(guān)鍵作用的,就是 Dream Machine 最新發(fā)布的圖像模型 Luma Photon。
圖片怎么生成得更符合我們的審美?Dream Machine 支持風(fēng)格參考和角色參考功能。
先說風(fēng)格參考,我們可以導(dǎo)入自己的圖片,AI 會(huì)將風(fēng)格融入到創(chuàng)作中。官方給出了一個(gè)例子:按蒙德里安風(fēng)格,生成小鳥版的《戴珍珠耳環(huán)的少女》。
按這個(gè)思路實(shí)操一下,基于男性偵探的形象,參考梵高《星月夜》的風(fēng)格,生成女性偵探。
二次元遇上后印象派,化學(xué)反應(yīng)很奇妙。
角色參考功能,則可以通過一張圖片,就實(shí)現(xiàn)角色的一致性,讓這個(gè)角色出現(xiàn)在更多的圖片和視頻里。
馬斯克是行走的素材庫,這樣的例子太沒挑戰(zhàn)性了,我決定讓甄嬛瞬移到哈利波特的世界,看場(chǎng)景變了之后,她還能不能氣場(chǎng)兩米八。
結(jié)果有些不好評(píng)價(jià),看得出來是甄嬛的面容,但娘娘的長相入鄉(xiāng)隨俗,五官尤其眼睛,變得更像歐美人了。
其實(shí),不另外找圖片參考,Dream Machine 也可以讓圖片、視頻不泯然于眾人,這時(shí)候就要用到「頭腦風(fēng)暴」功能,它會(huì)根據(jù)你生成的圖片,推薦一些藝術(shù)家的風(fēng)格。
就像甄嬛進(jìn)霍格沃茨這張,我們可以用吉卜力工作室風(fēng)格二創(chuàng)。宮崎駿說過,AI 是對(duì)生命本身的侮辱,但現(xiàn)實(shí)是,吉卜力已經(jīng)是 AI 的一個(gè)選項(xiàng),盡管有形無神。
不僅如此,提示詞里的一些關(guān)鍵詞,被框選了起來,能用下拉的選項(xiàng)替換,Dream Machine 稱之為「概念藥丸」,我們不用自己手寫提示詞,一鍵更換藝術(shù)風(fēng)格,或者畫面元素。
把「吉卜力」換成「新海誠」,把「獨(dú)角獸」換成「龍」,不過點(diǎn)擊幾下的功夫。
Luma Photon 模型,基于 Luma 的通用 Transformer 架構(gòu)構(gòu)建。通過開發(fā)自己的圖像模型,Luma AI 可以減少對(duì) Midjourney 等外部圖像模型的依賴,同時(shí)也能解決文生視頻不穩(wěn)定的問題。
當(dāng)然,視頻是老本行,鏡頭運(yùn)動(dòng)這種可控性功能,Dream Machine 也少不了。
紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能實(shí)現(xiàn)絲滑的轉(zhuǎn)場(chǎng)呢?用推拉鏡頭,畫面有動(dòng)感,人物沒有嚴(yán)重的變形,可以打個(gè) 80 分。
視覺的思維,講故事的方式
巧的是,前兩天 Runway 也官宣了自己的圖像生成模型 Frame,和 Luma 更新是同一個(gè)晚上,看演示就知道非常注重審美,目前正逐步向 Gen-3 Alpha 開放資格。
Runway Frame
圖片的生成質(zhì)量、美學(xué)高度,以及視覺風(fēng)格的一致性和可控性,越來越被視覺模型重視了。
這對(duì)創(chuàng)作者來說是好事,當(dāng)我們用 AI 進(jìn)行平面設(shè)計(jì)、角色設(shè)定時(shí),其實(shí)就是在生成一個(gè)獨(dú)特的世界,講一個(gè)獨(dú)特的故事。
Runway 的 CEO Cristóbal Valenzuela 認(rèn)為,Runway 不是一家 AI 公司,而是一家媒體和娛樂公司,AI 公司的時(shí)代已經(jīng)結(jié)束了。
他不是在唱衰 AI,恰恰相反,他認(rèn)為 AI 是一種基礎(chǔ)設(shè)施,真正的革命不在于技術(shù)本身,而在于它所實(shí)現(xiàn)的東西:新的表達(dá)形式、講述故事的新方式、連接人類體驗(yàn)的新方法。這和 Luma 的進(jìn)化方向不謀而合。
這次更新之后,Luma AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Amit Jain,給 Dream Machine 下了一個(gè)很有趣的定義——視覺思維合作伙伴。
概念有些抽象,他的意思其實(shí)就是,讓生成圖片、視頻這樣的視覺創(chuàng)作,像聊天一樣簡(jiǎn)單、直觀。
交互的方式,影響著我們思考的方式。畫布式的工作流,能將腦洞可視化,記錄所有的創(chuàng)作過程和結(jié)果,呈現(xiàn)生成視頻的完整思路。
無限畫布通常在圖像模型較為常見,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的畫布更加規(guī)整,相同提示詞生成的素材和變體橫向排列,不同的則豎向排列。
邊聊邊生成邊優(yōu)化的過程,會(huì)讓人覺得,一個(gè)獨(dú)立的小世界仿佛在畫布里誕生。
先讓 Dream Machine 用超寫實(shí)電影 CG 風(fēng)格,創(chuàng)造一個(gè)工業(yè)廢土背景游戲的主角。
然后用環(huán)繞鏡頭,讓主角動(dòng)起來,并塑造環(huán)境的空間感。
接著,我們可以再和 AI 聊,讓 AI 繼續(xù)生成廢土世界觀里室內(nèi)室外的各種場(chǎng)景,讓 AI 建議我們?cè)趺此茉斓酶心┤諝庀ⅰ?/p>
某種程度上,這個(gè)畫布,就是我們個(gè)人故事的設(shè)定集。
當(dāng)然,Luma AI 的 bug 也很多,包括但不限于,用一張圖片實(shí)現(xiàn)角色一致性,效果并不理想;積分如流水,圖片和視頻還是要反復(fù)抽卡;圖片模型可以生成準(zhǔn)確的英文,但中文不行......
但意思傳達(dá)到位了——少談參數(shù),以交互為出發(fā)點(diǎn),構(gòu)建一個(gè) AI 創(chuàng)作工具。
更好的視頻模型,不只是有更快的生成速度、更可控的鏡頭運(yùn)動(dòng)、更獨(dú)特的美學(xué),它應(yīng)該也提供更好的講故事的方式,讓文字、圖像、視頻都作為表達(dá)想法的工具。
Dream Machine,造夢(mèng)機(jī)器。
只管去創(chuàng)作吧,如同 Luma AI 的這句話:「不需要寫復(fù)雜的提示詞,問就好了。」未來 AI 留給我們的問題,不再關(guān)于技術(shù),而是關(guān)于我們用它構(gòu)建什么。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.