編輯|Sia
咳咳, 你還能分辨出什么是真實的嗎?
不僅說話,它們還可以唱歌。
仔細看她的嘴巴、臉頰和眼睛,甚至胸部的起伏,動作細節非常到位,是不是足以以假亂真?
不止是做數字「人」,任何形象——寵物、外星人,你想象得到的,都能立刻動起來。
這就是 HeyGen 剛剛發布的 Avatar IV 模型——只需一張照片、一段腳本、一段聲音,就能生成一個以假亂真的數字人,只需幾秒。
工具鏈接:https://app.heygen.com/home
Avatar IV 亮點可不少。
不止能處理正臉照,還支持側臉、半身、全身等多角度圖像輸入,生成的數字人更立體、更生動,自帶電影鏡頭感,不再是死盯鏡頭的 AI 面癱臉。
更厲害的是,它不僅能說,還能唱。嘴型精準貼合音樂節奏,連眼神、頭部、身體(比如腹部)都會隨之起伏律動,細節拿捏到位。
核心升級來自一項新技術:基于擴散模型的音頻驅動表情引擎。
簡單理解,就是這套引擎能根據語音的節奏、語氣、情緒,自動生成對應的表情與動作。它不是單純對口型,而是能「聽懂」語義和情緒,做出停頓、點頭、語調起伏等細膩動作,像個真正會說話的人。
應用場景也因此拓寬了不少:動畫視頻制作、虛擬寵物擬人化、游戲角色配音、播客內容可視化……統統都能用上。
訂閱用戶可上傳最長 30 秒的語音或文本,生成動態數字人視頻,做個廣告綽綽有余。
免費用戶則有每月 3 次機會,生成最長 10 秒視頻。
好了,看看怎么玩兒。
第一步,訪問 HeyGen 官網,選擇「照片轉視頻」最新模型——Avatar IV。
上傳一張你想讓它開口說話的照片,接著輸入文字腳本+選擇聲音,或者直接上傳一段音頻。
我們上傳的是周星馳的劇照,配上哪吒的 Rap 打油詩音頻:
「天雷滾滾我好怕怕,劈得我渾身掉渣渣。突破天劫我笑哈哈,逆天改命我吹喇叭。」
注意:免費用戶最多生成 10 秒視頻,別貪心,腳本或音頻太長不會被系統支持。
沒有現成音頻?沒關系。系統自帶多種聲音,還能克隆自己的聲音,甚至接入第三方 API。
不過也有些小遺憾——相比英文,系統的中文聲音資源還不算豐富。
你可以根據方言口音、聲音性別、年齡、情緒(比如憤怒、興奮、平靜)、使用場景等維度篩選。
當然,不是每個聲音都支持豐富的情緒表達。
準備就緒,點擊「Generate」,等待片刻,成品視頻立刻送達。
嘴型精準匹配,眼神、頭部、身體微動跟隨語音節奏,連喉結都跟著上下浮動,真實感拉滿。
接下來我們試了個更大膽的操作:
上傳編輯部同事家邊牧的照片,讓它來一段全球爆火的《APT.》。
照片中邊牧正好伸著舌頭,導致數字人效果略顯出戲,但其他部分表現依然在線,尤其是腹部細節,做得很到位。
蘇格蘭國立美術館用 X 光掃描梵高畫作《農婦頭像》,意外發現畫布背后竟藏著一幅自畫像,層層膠水和硬紙板封印多年。
于是我們嘗試:讓勃魯蓋爾筆下的名畫《老婦人的肖像》播報這則新聞——一下子,吸睛指數拉滿。
那么,問題來了——你想做個什么樣的數字人?還等什么,快去試試吧。
以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.