AI圖像生成進入“毫秒級”時代。
5月16日,騰訊發布最新混元圖像2.0模型(Hunyuan Image2.0),基于模型架構創新,在行業內率先實現實時生圖,在畫面質感超寫實的基礎上,帶來全新的AI生圖交互體驗。模型于即日起在騰訊混元官方網站上線,并對外開放注冊體驗。
相比前代模型,騰訊混元圖像2.0模型參數量提升了一個數量級,得益于超高壓縮倍率的圖像編解碼器以及全新擴散架構,其生圖速度顯著快于行業領先模型,在同類商業產品每張圖推理速度需要5到10秒的情況下,騰訊混元可實現毫秒級響應,支持用戶可以一邊打字或者一邊說話一邊出圖,改變了傳統“抽卡—等待—抽卡”的方式,帶來交互體驗革新。
除了速度快以外,騰訊混元圖像2.0模型圖像生成質量提升明顯,通過強化學習等算法以及引入大量人類美學知識對齊,生成的圖像可有效避免AIGC圖像中的"AI味“ ,真實感強、細節豐富、可用性高。
在圖像生成領域專門測試模型復雜文本指令理解與生成能力的評估基準GenEval(Geneval Bench)上,騰訊混元圖像2.0模型準確率超過95%,遠超其他同類模型。
在騰訊混元的發布直播中,官方演示了多個不同風格的圖片生成效果,除了速度快以外,生成的圖片在人物特寫、動物特寫、復古攝影等領域都有很不錯的表現,體現出電影級別質感畫面水準。
人像攝影風格
動物特寫
復古攝影
動漫風格
真實人物風格
騰訊混元圖像2.0模型還發布了實時繪畫板功能,基于模型的實時生圖能力,用戶在繪制線稿或調整參數時,預覽區同步生成上色效果,突破了傳統“繪制-等待-修改”的線性流程,可助力專業設計師的創作。
實時繪畫板支持多圖融合,用戶上傳多圖后,可將多個草圖疊加至同一畫布自由創作,經過AI 自動協調透視與光影,按照提示詞內容生成融合圖像,進一步豐富了AI生圖的交互體驗。
圖源自創作者一只小娜娜
發布會上,騰訊混元也劇透了即將發布的原生多模態圖像生成大模型,新模型在多輪圖像生成、實時交互體驗等方面有突出表現。
騰訊混元在圖像、視頻等模態上持續投入,于2014年率先推出并開源了業內首個中文原生的DiT架構文生圖開源模型以及參數量達130億的騰訊混元視頻生成大模型。混元圖像生成2.0 模型的發布,是騰訊混元在多模態領域的又一里程碑事件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.