文:王智遠(yuǎn) | ID:Z201440
AI圈,時(shí)不時(shí)來(lái)點(diǎn)驚喜。
上周五中午,騰訊發(fā)布一款新的圖像生成模型,名字叫騰訊混元圖像 2.0 (Hunyuan Image 2.0)。
大家都知道,文生圖AI 已經(jīng)不少了;但騰訊這次發(fā)布的模型,功能上有點(diǎn)新東西。
不僅能用文字生成圖片,還能直接用嘴巴說(shuō)圖。你只要說(shuō)出想要的圖片內(nèi)容,它就能給你生成出來(lái)。
更厲害的是,上傳一張照片,或者隨便涂鴉兩筆,它也能根據(jù)這些生成新的圖像。是不是挺有意思?這個(gè)全新混元 2.0 模型,到底和以前用的圖像生成工具有什么不同?
01
我拿到體驗(yàn)資格后,馬上試了試。第一感覺(jué)是:快。
也沒(méi)想好要做什么圖,就試著輸入「一條狗」。結(jié)果,幾乎零延遲,一個(gè)毛茸茸的小家伙頭像就出現(xiàn)在屏幕上。
這還沒(méi)完。
我又想試試,它是不是只能理解簡(jiǎn)單的物體。于是,輸入了一個(gè)更有意思的描述:一只顏色很奇怪的,抽象的狗。
它居然準(zhǔn)確地理解了「抽象」和「顏色奇怪」這兩個(gè)關(guān)鍵詞,生成了一張色彩斑斕、形狀也很有藝術(shù)感的狗狗圖像,完全不是那種生硬的扭曲變形,而是帶著一種設(shè)計(jì)感。
后來(lái),我開(kāi)始「腦洞大開(kāi)」,想看看它對(duì)天馬行空的指令會(huì)作何反應(yīng)。我輸入了「一個(gè)宇航員在月球上遛著一只巨大的粉紅色兔子」。
說(shuō)實(shí)話,我真沒(méi)指望它能生成什么靠譜的東西,結(jié)果它竟然真的給「畫(huà)」出來(lái)了;雖然場(chǎng)景設(shè)定有點(diǎn)科幻加無(wú)厘頭,但宇航員的細(xì)節(jié)、那粉色兔子的輪廓感都還在,甚至連月球表面的紋理都挺像那么回事兒。
這讓我覺(jué)得,它對(duì)于不合常理的描述,也能進(jìn)行理解和一定的想象創(chuàng)作,這里面還蘊(yùn)含著一些藝術(shù)性。
最讓我印象深刻的,還是對(duì)細(xì)節(jié)的把握。
我特意試著生成人像,想看看效果如何。就輸入了一些非常細(xì)致的描述,比如:一個(gè)年輕女孩的側(cè)臉,夕陽(yáng)的柔和光暈灑在她的臉上,她的眼神帶著一絲淡淡的猶豫,嘴角微微上揚(yáng)。
結(jié)果出來(lái)的照片,光影的過(guò)渡非常自然,臉部輪廓在夕陽(yáng)的映襯下顯得柔和,眼神里那種細(xì)膩的情緒,甚至連嘴角的細(xì)微紋路都基本能捕捉到。
我又嘗試添加更細(xì)節(jié)的描述,比如:黑色的卷發(fā),有幾縷隨意地散落在臉頰旁。
它也能精準(zhǔn)地呈現(xiàn)出來(lái)。這種對(duì)光線、表情、發(fā)絲等細(xì)節(jié)的細(xì)膩刻畫(huà),確實(shí)讓生成的圖像看起來(lái)更有質(zhì)感,非常逼真。
除了這些,它還支持上傳參考圖,調(diào)整生成圖像的尺寸等;上傳參考圖后,它提供了兩個(gè)參考模式,一個(gè)是參考整個(gè)圖片的風(fēng)格和構(gòu)圖,另一個(gè)是僅參考圖片主體的輪廓。
更強(qiáng)大的是,上傳參考圖同時(shí),我還可以輸入提示詞,然后實(shí)時(shí)生成圖片;這意味著它可以做到「實(shí)時(shí)的提示詞 + 參考圖結(jié)合生成」,這在創(chuàng)作上提供了更大的靈活性。
還有,界面右邊巨大的語(yǔ)音輸入按鈕,我體驗(yàn)了一下,感覺(jué)確實(shí)非常絲滑流暢,識(shí)別率也很高。
它還提供一個(gè)“實(shí)時(shí)畫(huà)板”功能,我覺(jué)得這個(gè)功能對(duì)于有一定設(shè)計(jì)基礎(chǔ)的用戶來(lái)說(shuō)會(huì)很有幫助,它能實(shí)時(shí)上色、調(diào)整光影和材質(zhì),支持圖層疊加和局部調(diào)整。
簡(jiǎn)單來(lái)說(shuō),直接從一個(gè)草圖開(kāi)始,快速合成最終圖像,有點(diǎn)打破傳統(tǒng)繪制后等待修改的步驟。
說(shuō)完這么多優(yōu)點(diǎn),也要客觀地談?wù)勊牟蛔阒帯?/p>
它有時(shí)的理解能力很強(qiáng),但理解的可能并不完全精準(zhǔn),最終生成的圖像和最初的想法可能會(huì)有一些偏差。
第二,生成的人像整體風(fēng)格偏西方化,對(duì)于東方人物的呈現(xiàn)可能還稍顯不足,有時(shí)候會(huì)顯得有些抽象感;所以,整體看,騰訊混元圖像 2.0 的體驗(yàn),在速度、細(xì)節(jié)性能上都非常不錯(cuò)。
02
體驗(yàn)完之后,我一直在想,這種“快”的背后,到底藏著什么技術(shù)優(yōu)勢(shì)?
騰訊混元官方說(shuō),他們用一個(gè)超厲害的圖像編解碼器,這東西像一個(gè)超級(jí)“瘦身大師”。
你可以想象一下,把一件厚厚的棉襖壓縮成一件輕薄的T恤,這樣一來(lái),圖片數(shù)據(jù)量就大大減少了,數(shù)據(jù)量小,傳輸和處理起來(lái)自然就更快了。
所以,當(dāng)我們讓模型生成一張圖片時(shí),速度自然上去了。
更重要的是,為了讓模型快速又準(zhǔn)確地理解我們想要什么樣的圖片,混元圖像2.0又用了一個(gè)特別聰明的「大腦」多模態(tài)大語(yǔ)言模型(MLLM)作為文本編碼器。
你可以把“大腦”想象成一個(gè)超級(jí)厲害的「翻譯官」,它能迅速理解輸入的文字或語(yǔ)音指令的字面意思,還能準(zhǔn)確把握我們語(yǔ)言中的「感覺(jué)」和「意圖」。
這樣,模型就能在極短的時(shí)間內(nèi),生成出更符合我們要求的圖片。這就是,有效提升模型的語(yǔ)義理解和匹配能力,實(shí)現(xiàn)快速理解實(shí)時(shí)生圖的原因。
簡(jiǎn)單講,高效的數(shù)據(jù)壓縮保證速度,聰明的“大腦”保證理解的準(zhǔn)確性,這才讓騰訊混元圖像2.0能夠做到又快又好的實(shí)時(shí)生成圖像。
這個(gè)技術(shù)到底效果怎么樣呢?官方也給出了一大堆數(shù)據(jù)評(píng)測(cè)。說(shuō)實(shí)話,我也不是技術(shù)從業(yè)者,也很難從各家技術(shù)差異上給出答案。
從體感上,明顯不同。
現(xiàn)在AI生成圖像領(lǐng)域基本上百花齊放了,OpenAI 前段時(shí)間剛調(diào)整了文生圖的技術(shù)架構(gòu),把 DALL-E 模型升級(jí)成了非自回歸模型。
這種架構(gòu)有點(diǎn)像學(xué)生做題,先聽(tīng)完題目再動(dòng)筆。它先勾勒出圖像的輪廓,再一點(diǎn)點(diǎn)填充細(xì)節(jié)。
它的編碼器負(fù)責(zé)理解文字提示,解碼器負(fù)責(zé)根據(jù)文字生成圖像。這種模型最大的好處是對(duì)復(fù)雜場(chǎng)景里多個(gè)人物關(guān)系的理解更到位。
我之前體驗(yàn)過(guò),生成的圖片確實(shí)不錯(cuò)。
table Diffusion的厲害之處在于開(kāi)源。因?yàn)殚_(kāi)源,所以吸引了好多開(kāi)發(fā)者,大家開(kāi)發(fā)出了各種插件和模型。它的定制性和靈活性特別高,生成的效果很不錯(cuò),適合開(kāi)發(fā)者。
我覺(jué)得Midjourney的核心競(jìng)爭(zhēng)力是審美能力特別強(qiáng)。在生成抽象或者特別有創(chuàng)意的圖片方面,它表現(xiàn)得很棒,很多藝術(shù)愛(ài)好者都喜歡用它。
國(guó)內(nèi)產(chǎn)品,我覺(jué)得最早在市場(chǎng)上讓人印象最深的是即夢(mèng)、可靈。
豆包大模型用在了即夢(mèng)、抖音、剪映、豆包這些產(chǎn)品里,可靈是快手的生態(tài)里;它們一開(kāi)始模型不多,但最近兩年發(fā)展很快,現(xiàn)在也能生成人物和各種場(chǎng)景的圖像了。
比如:
最近比較火的豆包,提示詞生圖功能特別好玩,尤其生成有點(diǎn)朦朧感、超真實(shí)氛圍的照片,給人很大驚喜,這種有點(diǎn)模糊的藝術(shù)效果,反而成了它獨(dú)特的用戶體驗(yàn)。
我認(rèn)為,C 端用戶體驗(yàn)非常重要,因?yàn)橛脩舻姆答伩梢灾苯臃床傅侥P陀?xùn)練上,從而讓模型得到更好的迭代,用戶用得多了,反而可能在更廣泛的市場(chǎng)中占據(jù)更大的心智。
這次騰訊的混元圖像 2.0 最讓人關(guān)注的地方,是它的實(shí)時(shí)生成能力和多模態(tài)輸入的創(chuàng)新,特別是「嘴生圖」,讓人機(jī)交互有了更多的想象空間。
03
所以,這種強(qiáng)大的圖像生成能力在特定商業(yè)場(chǎng)景下,究竟會(huì)釋放出什么樣的潛力?它會(huì)不會(huì)帶來(lái)一些讓人眼前一亮的變化?
我接觸電商、營(yíng)銷(xiāo)領(lǐng)域比較多。我認(rèn)為:
以前,廣告營(yíng)銷(xiāo)的流程特別復(fù)雜。創(chuàng)意團(tuán)隊(duì)得花好多時(shí)間,從最開(kāi)始的想法構(gòu)思,到拍攝素材,再到后期修改調(diào)整,整個(gè)過(guò)程特別漫長(zhǎng)。
混元圖像 2.0 這個(gè)模型,說(shuō)不定能在整個(gè)流程里,大大提高效率。
現(xiàn)在,好多產(chǎn)品都在往「產(chǎn)品 + AI」的方向發(fā)展。要把混元圖像 2.0 這樣的模型加進(jìn)去,廣告營(yíng)銷(xiāo)的團(tuán)隊(duì)在做廣告時(shí),就不需要花那么多時(shí)間和精力去搞抽象的概念設(shè)計(jì)了。
他們可以直接用嘴巴說(shuō),或者用文字寫(xiě),快速搭起一個(gè)最基礎(chǔ)的視覺(jué)框架。這是大變革。
再說(shuō)說(shuō)它的快速生成能力。這就意味著營(yíng)銷(xiāo)人員能更快地把想法變成實(shí)實(shí)在在的圖片。
比如,要策劃一個(gè)新的廣告活動(dòng),創(chuàng)意人員可以直接用文字描述,或者直接說(shuō)出口,一下子能生成好幾個(gè)不同的視覺(jué)概念稿,這些稿子可以拿去內(nèi)部討論,或者給客戶看。
這種幾乎能實(shí)時(shí)反饋的能力,能大大縮短創(chuàng)意周期,讓團(tuán)隊(duì)更快地驗(yàn)證想法,做出決定。
還有,它的多模態(tài)交互能力也很有價(jià)值。
手里已經(jīng)有一個(gè)產(chǎn)品的實(shí)物圖,我們只要把圖上傳上去,然后用文字描述,加上不同的場(chǎng)景、背景或者人物,就能快速生成更多符合不同營(yíng)銷(xiāo)需求的宣傳素材。
以前拍一個(gè)易拉罐,還得摳圖,再放到海報(bào)背景上,現(xiàn)在,只要上傳易拉罐的照片,然后通過(guò)語(yǔ)音或者文字指令,讓 AI 幫我們?nèi)サ舯尘埃由弦恍┰O(shè)計(jì)元素,這得多方便。
更進(jìn)一步來(lái)說(shuō),再加上它強(qiáng)大的細(xì)節(jié)把控能力,更能為營(yíng)銷(xiāo)人員提供高質(zhì)量的素材。
其實(shí),能想到的應(yīng)用場(chǎng)景可不止這些,這只是一個(gè)模型,只要把它集成到各種產(chǎn)品里,就會(huì)冒出更多用法。比如電影視覺(jué)、游戲開(kāi)發(fā)、影視制作等等。
所以,潛力并不完全取決于模型本身,在于接入模型的產(chǎn)品,產(chǎn)品能大大提升工作效率,還能激發(fā)更多創(chuàng)造力。
我覺(jué)得,每家都有自己的優(yōu)勢(shì)。
未來(lái)競(jìng)爭(zhēng),不僅在單一的技術(shù)突破,更在于怎么在保持自身模型優(yōu)勢(shì)同時(shí),不斷延伸到各種場(chǎng)景中,滿足用戶各種各樣、細(xì)小入微的需求。你怎么看?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.