網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

說(shuō)話實(shí)時(shí)生圖，騰訊又玩花活兒

2025-05-19 08:45:21　來(lái)源: 智遠(yuǎn)同學(xué)

北京舉報(bào)

分享至

文：王智遠(yuǎn) | ID:Z201440

AI圈，時(shí)不時(shí)來(lái)點(diǎn)驚喜。

上周五中午，騰訊發(fā)布一款新的圖像生成模型，名字叫騰訊混元圖像 2.0 (Hunyuan Image 2.0)。

大家都知道，文生圖AI 已經(jīng)不少了；但騰訊這次發(fā)布的模型，功能上有點(diǎn)新東西。

不僅能用文字生成圖片，還能直接用嘴巴說(shuō)圖。你只要說(shuō)出想要的圖片內(nèi)容，它就能給你生成出來(lái)。

更厲害的是，上傳一張照片，或者隨便涂鴉兩筆，它也能根據(jù)這些生成新的圖像。是不是挺有意思？這個(gè)全新混元 2.0 模型，到底和以前用的圖像生成工具有什么不同？

01

我拿到體驗(yàn)資格后，馬上試了試。第一感覺(jué)是：快。

也沒(méi)想好要做什么圖，就試著輸入「一條狗」。結(jié)果，幾乎零延遲，一個(gè)毛茸茸的小家伙頭像就出現(xiàn)在屏幕上。

這還沒(méi)完。

我又想試試，它是不是只能理解簡(jiǎn)單的物體。于是，輸入了一個(gè)更有意思的描述：一只顏色很奇怪的，抽象的狗。

它居然準(zhǔn)確地理解了「抽象」和「顏色奇怪」這兩個(gè)關(guān)鍵詞，生成了一張色彩斑斕、形狀也很有藝術(shù)感的狗狗圖像，完全不是那種生硬的扭曲變形，而是帶著一種設(shè)計(jì)感。

后來(lái)，我開(kāi)始「腦洞大開(kāi)」，想看看它對(duì)天馬行空的指令會(huì)作何反應(yīng)。我輸入了「一個(gè)宇航員在月球上遛著一只巨大的粉紅色兔子」。

說(shuō)實(shí)話，我真沒(méi)指望它能生成什么靠譜的東西，結(jié)果它竟然真的給「畫(huà)」出來(lái)了；雖然場(chǎng)景設(shè)定有點(diǎn)科幻加無(wú)厘頭，但宇航員的細(xì)節(jié)、那粉色兔子的輪廓感都還在，甚至連月球表面的紋理都挺像那么回事兒。

這讓我覺(jué)得，它對(duì)于不合常理的描述，也能進(jìn)行理解和一定的想象創(chuàng)作，這里面還蘊(yùn)含著一些藝術(shù)性。

最讓我印象深刻的，還是對(duì)細(xì)節(jié)的把握。

我特意試著生成人像，想看看效果如何。就輸入了一些非常細(xì)致的描述，比如：一個(gè)年輕女孩的側(cè)臉，夕陽(yáng)的柔和光暈灑在她的臉上，她的眼神帶著一絲淡淡的猶豫，嘴角微微上揚(yáng)。

結(jié)果出來(lái)的照片，光影的過(guò)渡非常自然，臉部輪廓在夕陽(yáng)的映襯下顯得柔和，眼神里那種細(xì)膩的情緒，甚至連嘴角的細(xì)微紋路都基本能捕捉到。

我又嘗試添加更細(xì)節(jié)的描述，比如：黑色的卷發(fā)，有幾縷隨意地散落在臉頰旁。

它也能精準(zhǔn)地呈現(xiàn)出來(lái)。這種對(duì)光線、表情、發(fā)絲等細(xì)節(jié)的細(xì)膩刻畫(huà)，確實(shí)讓生成的圖像看起來(lái)更有質(zhì)感，非常逼真。

除了這些，它還支持上傳參考圖，調(diào)整生成圖像的尺寸等；上傳參考圖后，它提供了兩個(gè)參考模式，一個(gè)是參考整個(gè)圖片的風(fēng)格和構(gòu)圖，另一個(gè)是僅參考圖片主體的輪廓。

更強(qiáng)大的是，上傳參考圖同時(shí)，我還可以輸入提示詞，然后實(shí)時(shí)生成圖片；這意味著它可以做到「實(shí)時(shí)的提示詞 + 參考圖結(jié)合生成」，這在創(chuàng)作上提供了更大的靈活性。

還有，界面右邊巨大的語(yǔ)音輸入按鈕，我體驗(yàn)了一下，感覺(jué)確實(shí)非常絲滑流暢，識(shí)別率也很高。

它還提供一個(gè)“實(shí)時(shí)畫(huà)板”功能，我覺(jué)得這個(gè)功能對(duì)于有一定設(shè)計(jì)基礎(chǔ)的用戶來(lái)說(shuō)會(huì)很有幫助，它能實(shí)時(shí)上色、調(diào)整光影和材質(zhì)，支持圖層疊加和局部調(diào)整。

簡(jiǎn)單來(lái)說(shuō)，直接從一個(gè)草圖開(kāi)始，快速合成最終圖像，有點(diǎn)打破傳統(tǒng)繪制后等待修改的步驟。

說(shuō)完這么多優(yōu)點(diǎn)，也要客觀地談?wù)勊牟蛔阒帯?/p>

它有時(shí)的理解能力很強(qiáng)，但理解的可能并不完全精準(zhǔn)，最終生成的圖像和最初的想法可能會(huì)有一些偏差。

第二，生成的人像整體風(fēng)格偏西方化，對(duì)于東方人物的呈現(xiàn)可能還稍顯不足，有時(shí)候會(huì)顯得有些抽象感；所以，整體看，騰訊混元圖像 2.0 的體驗(yàn)，在速度、細(xì)節(jié)性能上都非常不錯(cuò)。

02

體驗(yàn)完之后，我一直在想，這種“快”的背后，到底藏著什么技術(shù)優(yōu)勢(shì)？

騰訊混元官方說(shuō)，他們用一個(gè)超厲害的圖像編解碼器，這東西像一個(gè)超級(jí)“瘦身大師”。

你可以想象一下，把一件厚厚的棉襖壓縮成一件輕薄的T恤，這樣一來(lái)，圖片數(shù)據(jù)量就大大減少了，數(shù)據(jù)量小，傳輸和處理起來(lái)自然就更快了。

所以，當(dāng)我們讓模型生成一張圖片時(shí)，速度自然上去了。

更重要的是，為了讓模型快速又準(zhǔn)確地理解我們想要什么樣的圖片，混元圖像2.0又用了一個(gè)特別聰明的「大腦」多模態(tài)大語(yǔ)言模型（MLLM）作為文本編碼器。

你可以把“大腦”想象成一個(gè)超級(jí)厲害的「翻譯官」，它能迅速理解輸入的文字或語(yǔ)音指令的字面意思，還能準(zhǔn)確把握我們語(yǔ)言中的「感覺(jué)」和「意圖」。

這樣，模型就能在極短的時(shí)間內(nèi)，生成出更符合我們要求的圖片。這就是，有效提升模型的語(yǔ)義理解和匹配能力，實(shí)現(xiàn)快速理解實(shí)時(shí)生圖的原因。

簡(jiǎn)單講，高效的數(shù)據(jù)壓縮保證速度，聰明的“大腦”保證理解的準(zhǔn)確性，這才讓騰訊混元圖像2.0能夠做到又快又好的實(shí)時(shí)生成圖像。

這個(gè)技術(shù)到底效果怎么樣呢？官方也給出了一大堆數(shù)據(jù)評(píng)測(cè)。說(shuō)實(shí)話，我也不是技術(shù)從業(yè)者，也很難從各家技術(shù)差異上給出答案。

從體感上，明顯不同。

現(xiàn)在AI生成圖像領(lǐng)域基本上百花齊放了，OpenAI 前段時(shí)間剛調(diào)整了文生圖的技術(shù)架構(gòu)，把 DALL-E 模型升級(jí)成了非自回歸模型。

這種架構(gòu)有點(diǎn)像學(xué)生做題，先聽(tīng)完題目再動(dòng)筆。它先勾勒出圖像的輪廓，再一點(diǎn)點(diǎn)填充細(xì)節(jié)。

它的編碼器負(fù)責(zé)理解文字提示，解碼器負(fù)責(zé)根據(jù)文字生成圖像。這種模型最大的好處是對(duì)復(fù)雜場(chǎng)景里多個(gè)人物關(guān)系的理解更到位。

我之前體驗(yàn)過(guò)，生成的圖片確實(shí)不錯(cuò)。

table Diffusion的厲害之處在于開(kāi)源。因?yàn)殚_(kāi)源，所以吸引了好多開(kāi)發(fā)者，大家開(kāi)發(fā)出了各種插件和模型。它的定制性和靈活性特別高，生成的效果很不錯(cuò)，適合開(kāi)發(fā)者。

我覺(jué)得Midjourney的核心競(jìng)爭(zhēng)力是審美能力特別強(qiáng)。在生成抽象或者特別有創(chuàng)意的圖片方面，它表現(xiàn)得很棒，很多藝術(shù)愛(ài)好者都喜歡用它。

國(guó)內(nèi)產(chǎn)品，我覺(jué)得最早在市場(chǎng)上讓人印象最深的是即夢(mèng)、可靈。

豆包大模型用在了即夢(mèng)、抖音、剪映、豆包這些產(chǎn)品里，可靈是快手的生態(tài)里；它們一開(kāi)始模型不多，但最近兩年發(fā)展很快，現(xiàn)在也能生成人物和各種場(chǎng)景的圖像了。

比如：

最近比較火的豆包，提示詞生圖功能特別好玩，尤其生成有點(diǎn)朦朧感、超真實(shí)氛圍的照片，給人很大驚喜，這種有點(diǎn)模糊的藝術(shù)效果，反而成了它獨(dú)特的用戶體驗(yàn)。

我認(rèn)為，C 端用戶體驗(yàn)非常重要，因?yàn)橛脩舻姆答伩梢灾苯臃床傅侥Ｐ陀?xùn)練上，從而讓模型得到更好的迭代，用戶用得多了，反而可能在更廣泛的市場(chǎng)中占據(jù)更大的心智。

這次騰訊的混元圖像 2.0 最讓人關(guān)注的地方，是它的實(shí)時(shí)生成能力和多模態(tài)輸入的創(chuàng)新，特別是「嘴生圖」，讓人機(jī)交互有了更多的想象空間。

03

所以，這種強(qiáng)大的圖像生成能力在特定商業(yè)場(chǎng)景下，究竟會(huì)釋放出什么樣的潛力？它會(huì)不會(huì)帶來(lái)一些讓人眼前一亮的變化？

我接觸電商、營(yíng)銷(xiāo)領(lǐng)域比較多。我認(rèn)為：

以前，廣告營(yíng)銷(xiāo)的流程特別復(fù)雜。創(chuàng)意團(tuán)隊(duì)得花好多時(shí)間，從最開(kāi)始的想法構(gòu)思，到拍攝素材，再到后期修改調(diào)整，整個(gè)過(guò)程特別漫長(zhǎng)。

混元圖像 2.0 這個(gè)模型，說(shuō)不定能在整個(gè)流程里，大大提高效率。

現(xiàn)在，好多產(chǎn)品都在往「產(chǎn)品 + AI」的方向發(fā)展。要把混元圖像 2.0 這樣的模型加進(jìn)去，廣告營(yíng)銷(xiāo)的團(tuán)隊(duì)在做廣告時(shí)，就不需要花那么多時(shí)間和精力去搞抽象的概念設(shè)計(jì)了。

他們可以直接用嘴巴說(shuō)，或者用文字寫(xiě)，快速搭起一個(gè)最基礎(chǔ)的視覺(jué)框架。這是大變革。

再說(shuō)說(shuō)它的快速生成能力。這就意味著營(yíng)銷(xiāo)人員能更快地把想法變成實(shí)實(shí)在在的圖片。

比如，要策劃一個(gè)新的廣告活動(dòng)，創(chuàng)意人員可以直接用文字描述，或者直接說(shuō)出口，一下子能生成好幾個(gè)不同的視覺(jué)概念稿，這些稿子可以拿去內(nèi)部討論，或者給客戶看。

這種幾乎能實(shí)時(shí)反饋的能力，能大大縮短創(chuàng)意周期，讓團(tuán)隊(duì)更快地驗(yàn)證想法，做出決定。

還有，它的多模態(tài)交互能力也很有價(jià)值。

手里已經(jīng)有一個(gè)產(chǎn)品的實(shí)物圖，我們只要把圖上傳上去，然后用文字描述，加上不同的場(chǎng)景、背景或者人物，就能快速生成更多符合不同營(yíng)銷(xiāo)需求的宣傳素材。

以前拍一個(gè)易拉罐，還得摳圖，再放到海報(bào)背景上，現(xiàn)在，只要上傳易拉罐的照片，然后通過(guò)語(yǔ)音或者文字指令，讓 AI 幫我們?nèi)サ舯尘埃由弦恍┰O(shè)計(jì)元素，這得多方便。

更進(jìn)一步來(lái)說(shuō)，再加上它強(qiáng)大的細(xì)節(jié)把控能力，更能為營(yíng)銷(xiāo)人員提供高質(zhì)量的素材。

其實(shí)，能想到的應(yīng)用場(chǎng)景可不止這些，這只是一個(gè)模型，只要把它集成到各種產(chǎn)品里，就會(huì)冒出更多用法。比如電影視覺(jué)、游戲開(kāi)發(fā)、影視制作等等。

所以，潛力并不完全取決于模型本身，在于接入模型的產(chǎn)品，產(chǎn)品能大大提升工作效率，還能激發(fā)更多創(chuàng)造力。

我覺(jué)得，每家都有自己的優(yōu)勢(shì)。

未來(lái)競(jìng)爭(zhēng)，不僅在單一的技術(shù)突破，更在于怎么在保持自身模型優(yōu)勢(shì)同時(shí)，不斷延伸到各種場(chǎng)景中，滿足用戶各種各樣、細(xì)小入微的需求。你怎么看？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.