5月16日,騰訊推出了其新一代圖像生成模型——混元圖像2.0(Hunyuan Image 2.0),號稱將圖像生成速度提升至“毫秒級”。
何謂“毫秒級”?答案可能令人大吃一驚:當用戶在輸入提示詞的同時,即可看到圖像的實時變化,所見即所得。
騰訊表示,得益于超高壓縮倍率的圖像編解碼器以及全新擴散架構,該模型參數量提升了一個數量級,實現了毫秒級響應速度,改變了傳統“抽卡—等待—抽卡”的方式,帶來交互體驗革新。
混元圖像 2.0 不僅實現了"邊說邊畫"的實時互動,還在模型架構和生成質量上實現了全面飛躍。在GenEval基準測試中,混元圖像2.0模型的準確率超過95%,遠超其他同類模型,證明了其在復雜文本指令理解與生成方面的卓越能力。
交互革新:"邊打字邊出圖"的新范式
實際測試顯示,混元圖像2.0能夠實現"一邊打字一邊出圖"的完全實時反饋,用戶輸入提示詞的過程中,畫面會隨著文字變化而實時調整。
例如輸入"人像攝影,愛因斯坦,背景是東方明珠電視塔,自拍角度",系統能夠實時生成符合描述的圖像,并在每個新元素添加時立即更新畫面。
人物的表情也可以瞬間改變,比如讓愛因斯坦吐舌頭:
除此之外,還可以連續對畫面增加或修改多個細節:一個女生,亞洲面孔,大眼睛,笑容燦爛,長頭發,穿中式服裝,戴上帽子,手繪風格。
動漫風、編織風等,效果也都不錯:
這種實時反饋機制徹底打破了傳統"輸入提示詞→等待數秒→查看結果→調整重試"的繁瑣流程,大幅降低了創作門檻,使得創意表達更加流暢連貫。
超寫實畫質:真實感與細節的完美結合
除了速度,混元圖像2.0在圖像質量上也取得了顯著提升。
通過強化學習等算法以及引入大量人類美學知識對齊,生成的圖像有效避免了AIGC圖像的“AI味”,呈現出更真實的質感和更豐富的細節。
GenEval 評估基準測試顯示,騰訊混元圖像2.0模型準確率超過95%,遠超同類模型。 這種高保真度的圖像生成能力,對需要高質量素材的行業(如廣告、設計等)有著巨大的吸引力。
圖像二次編輯:圖生圖的強大功能
混元圖像2.0不僅支持文字生成圖像,還提供了強大的“圖生圖”功能。可提取參考圖的主體或輪廓特征,對現有圖像進行二次編輯。
這種能力極大地拓展了該模型的使用場景, 從給寵物生成個性化照片到專業的設計創作,用戶都能輕松駕馭。 比如上傳一張貓咪照片,圖像參考強度設定為92,讓貓咪眼睛變大,在草地上,戴上皇冠。
例如,用戶可以上傳一張蛋糕照片,然后通過簡單指令將巧克力味改成草莓味,同時保持形狀和擺放與參考圖一致。
還可以實時對圖片進行風格的修改,添加小元素,對比和原圖的效果。比如下面的例子,通過一張小貓的圖片,生成“家居貓、公主貓、古惑仔貓”。
此外,還支持一鍵為簡筆畫上色,以及"畫面優化"功能,自動改進構圖、景深和光影效果。
實時繪畫板:專業設計師的生產力工具
除了實時文生圖,混元圖像 2.0 還提供了實時繪畫板功能。
基于模型的實時生圖能力,用戶在繪制線稿或調整參數時,預覽區同步生成上色效果,突破了傳統“繪制-等待-修改”的線性流程,可助力專業設計師的創作。
實時繪畫板支持多圖融合,用戶上傳多圖后,可將多個草圖疊加至同一畫布自由創作,經過AI 自動協調透視與光影,按照提示詞內容生成融合圖像,進一步豐富了AI生圖的交互體驗。
這一功能特別適合有初步設計想法但缺乏專業繪畫能力的用戶。
技術進步:五大關鍵突破
據科技媒體量子位分析,混元圖像 2.0 的背后是五項關鍵技術突破:
網友靈魂畫手上線體驗
- 更大的模型尺寸:相比前代產品,參數量提升了一個數量級,顯著提高了性能上限。
- 超高壓縮倍率的圖像編解碼器:騰訊混元團隊自研編解碼器大幅降低了圖像編碼序列長度,同時通過對信息瓶頸層的優化和強化對抗訓練,保證了細節生成能力。
- 多模態大語言模型作為文本編碼器:區別于CLIP、T5等傳統架構的淺層語義解析,通過適配多模態大語言模型,顯著提升了語義匹配能力,在GenEval等客觀指標上超越同類產品。
- 全尺度多維度強化學習后訓練:基于"慢思考"獎勵模型,通過通用后訓練與美學后訓練,有效提升圖片生成的真實感。
- 自研對抗蒸餾方案:基于隱空間一致性模型,將去噪軌跡上的任意點直接映射到軌跡生成樣本,實現少步高質量生成。
有不少網友創作者發來了體驗:
圖源自創作者一只小娜娜
社交平臺X上的網友表示:
“令人印象深刻的創新!通過實時 AI 圖像生成重新定義創造力。”
還有人表示:
“虛幻\絕對虛幻。很想探索這個”
“實時圖像生成/修改有可能開辟一些瘋狂的新機會和想法。”
“這聽起來很神奇!速度和質量改變了游戲規則。迫不及待地想看看大家用它創造了什么!”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.