“圖片秒生”，騰訊混元圖像2.0模型正式發(fā)布，主打速度和真實(shí)感

2025-05-16 16:20:54　來源: AI科技大本營

北京舉報(bào)

分享至

AI圖像生成進(jìn)入“毫秒級”時(shí)代。

5月16日，騰訊發(fā)布最新混元圖像2.0模型（Hunyuan Image2.0），基于模型架構(gòu)創(chuàng)新，在行業(yè)內(nèi)率先實(shí)現(xiàn)實(shí)時(shí)生圖，在畫面質(zhì)感超寫實(shí)的基礎(chǔ)上，帶來全新的AI生圖交互體驗(yàn)。模型于即日起在騰訊混元官方網(wǎng)站上線，并對外開放注冊體驗(yàn)。

相比前代模型，騰訊混元圖像2.0模型參數(shù)量提升了一個(gè)數(shù)量級，得益于超高壓縮倍率的圖像編解碼器以及全新擴(kuò)散架構(gòu)，其生圖速度顯著快于行業(yè)領(lǐng)先模型，在同類商業(yè)產(chǎn)品每張圖推理速度需要5到10秒的情況下，騰訊混元可實(shí)現(xiàn)毫秒級響應(yīng)，支持用戶可以一邊打字或者一邊說話一邊出圖，改變了傳統(tǒng)“抽卡—等待—抽卡”的方式，帶來交互體驗(yàn)革新。

除了速度快以外，騰訊混元圖像2.0模型圖像生成質(zhì)量提升明顯，通過強(qiáng)化學(xué)習(xí)等算法以及引入大量人類美學(xué)知識對齊，生成的圖像可有效避免AIGC圖像中的"AI味“ ，真實(shí)感強(qiáng)、細(xì)節(jié)豐富、可用性高。

在圖像生成領(lǐng)域?qū)ｉT測試模型復(fù)雜文本指令理解與生成能力的評估基準(zhǔn) GenEval（Geneval Bench）上，騰訊混元圖像2.0模型準(zhǔn)確率超過95%，遠(yuǎn)超其他同類模型。

在騰訊混元的發(fā)布直播中，官方演示了多個(gè)不同風(fēng)格的圖片生成效果，除了速度快以外，生成的圖片在人物特寫、動(dòng)物特寫、復(fù)古攝影等領(lǐng)域都有很不錯(cuò)的表現(xiàn)，體現(xiàn)出電影級別質(zhì)感畫面水準(zhǔn)。

人像攝影風(fēng)格

動(dòng)物特寫

復(fù)古攝影

動(dòng)漫風(fēng)格

真實(shí)人物風(fēng)格

騰訊混元圖像2.0模型還發(fā)布了實(shí)時(shí)繪畫板功能，基于模型的實(shí)時(shí)生圖能力，用戶在繪制線稿或調(diào)整參數(shù)時(shí)，預(yù)覽區(qū)同步生成上色效果，突破了傳統(tǒng)“繪制-等待-修改”的線性流程，可助力專業(yè)設(shè)計(jì)師的創(chuàng)作。

實(shí)時(shí)繪畫板支持多圖融合，用戶上傳多圖后，可將多個(gè)草圖疊加至同一畫布自由創(chuàng)作，經(jīng)過AI 自動(dòng)協(xié)調(diào)透視與光影，按照提示詞內(nèi)容生成融合圖像，進(jìn)一步豐富了AI生圖的交互體驗(yàn)。

圖源自創(chuàng)作者一只小娜娜

發(fā)布會(huì)上，騰訊混元也劇透了即將發(fā)布的原生多模態(tài)圖像生成大模型，新模型在多輪圖像生成、實(shí)時(shí)交互體驗(yàn)等方面有突出表現(xiàn)。

騰訊混元在圖像、視頻等模態(tài)上持續(xù)投入，于2014年率先推出并開源了業(yè)內(nèi)首個(gè)中文原生的DiT架構(gòu)文生圖開源模型以及參數(shù)量達(dá)130億的騰訊混元視頻生成大模型。混元圖像生成2.0 模型的發(fā)布，是騰訊混元在多模態(tài)領(lǐng)域的又一里程碑事件。

體驗(yàn)地址：https://hunyuan.tencent.com/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.