西風 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,鵝廠把文生圖卷出了新高度——
發布混元圖像2.0模型(Hunyuan Image 2.0),首次實現毫秒級響應,邊說邊畫,實時生成
用戶一邊描述,它緊跟著繪制,整個過程那叫一個絲滑。不用等待,專治各種沒有耐心。
有些畫面描述起來太費勁?
別急,還有實時繪畫板玩法。
用戶可以手繪想要的元素,然后輔以文字說明,在另一半畫板上它立刻就幫你按照草圖繪制出來:
昨天騰訊混元團隊發布了一小段預告視頻,吊足了大伙兒的胃口。
今天終于正式發布了,真實使用效果到底如何?
量子位已搶先拿到測試資格,一起來看看到底怎么個事兒~
一手實測實時文生圖
實測之前,先來看官方給出的一些小tips:
- 模型主打真實感、去AI味,真實場景生圖效果會更好
- 模型是英文數據訓練為主,有一些中文不能識別的概念,用英文輸入會更好
- 優先推薦16:9生圖,效果更佳
實時文生圖
打開騰訊混元官網我們就直奔實時文生圖,然后隨便輸入了一句話。
果真是一邊打字生圖直接跟著一起變換,順暢~
而且當它把“小女孩”這一主體的模樣定下來之后,我們再接著描述對畫面做補充,它角色一致性保持得也不錯。
各種風格都能駕馭:
雖然官方表示真實場景生圖效果會更好,但我們嘗試了一下動漫風、編織風等,效果也都不錯:
除了手打Prompt,解放雙手實時語音輸入也行,支持中英文,你一邊說著它一邊生成。
另外還支持上傳參考圖,可選擇提取參考圖的主體或輪廓特征,參考圖片的約束強度也能調整:
設置好參考圖后再輸入指令,Hunyuan Image 2.0就會將參考特征和文本指令相結合生成圖像。
比如上傳一塊蛋糕的照片:
參考輪廓,秒秒鐘就能把巧克力味改成草莓味的,形狀和擺放都和參考圖保持一致。
用法還有很多,再比如上傳一張簡筆畫,然后一鍵上色:
如果最后繪圖還是不滿意,還能點擊右下角“畫面優化”,它可以幫你自動優化畫面構圖、景深層次、光影效果。
實時繪畫板
實時繪畫板玩法感覺更適合有一定設計能力的童鞋。
像咱這種手殘黨畫風be like:
拿出小時候我爸教我的畫鶴本領:
畫出個大概即可,其余的交給Hunyuan Image 2.0~
同樣可以拖動設置圖片強度,越強與左側手繪的模樣就越像。
效果看完,技術方面HunyuanImage2.0有何亮點?
經過全尺度多維度強化學習后訓練
從目前資料來看,HunyuanImage2.0有以下幾個亮點。
1、具有更大的模型尺寸
相比HunyuanDiT,HunyuanImage2.0將參數提升了一個數量級,更大的模型參數保證了模型的性能上限。
2、更高壓縮倍率的圖像編解碼器
騰訊混元團隊自研了超高壓縮倍率的圖像編解碼器,大幅降低了圖像的編碼序列長度,從而加快生圖速度。
為了在提高編碼器信息壓縮率的同時減少信息丟失和保證畫面質量,他們對信息瓶頸層進行針對性優化并強化了對抗訓練以提高細節生成能力,降低了生圖時耗。
3、適配多模態大語言模型作為文本編碼器
適配了多模態大語言模型(MLLM)作為文本編碼器,使得文生圖模型的語義遵從能力大幅提升。
相較于CLIP、T5等傳統架構中的文本編碼器的淺層語義解析,MLLM通過海量跨模態預訓練和更大參數量的模型架構形成的深度表征能力, 可以更好的對文本進行解構編碼。
通過適配訓練后,HunyuanImage2.0能有更好的語義匹配能力,在語義能力測試的客觀指標上(GenEval)遠高于同類競品。
4、強化學習后訓練
HunyuanImage2.0基于慢思考的reward model,通過通用后訓練與美學后訓練,有效提升圖片生成的真實感,更符合現實需求。
5、自研對抗蒸餾方案
在后訓練模型的基礎上,基于隱空間一致性模型,通過訓練將去噪軌跡上的任意點直接映射到軌跡生成樣本,實現少步高質量生成。
更多細節,騰訊混元團隊表示可關注后續技術報告的發布。
One more Thing
發布會上,騰訊混元劇透即將發布原生多模態圖像生成大模型。
新模型在多輪圖像生成、實時交互體驗等方面有突出表現。
官網地址:https://hunyuan.tencent.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.