我是刀哥,前大廠架構師,現出海創業者。這是第79篇原創,研究AI的第35篇!
小云雀這次咸魚翻身了!簡直是個AI對口型神器!
請看第一位AI歌手:紅姐房客
這個蹭熱點,可以說是很到位了!本想大展宏圖,卻被紅姐套路!
動畫可能讓你覺得效果不明顯,再看第二位AI歌手,蒙娜麗莎!
蒙娜麗莎竟然有了歌神的神韻!
表情和口型都非常到位!動作十分搞笑,還會翻白眼!
關鍵的關鍵,制作非常簡單!打開小云雀APP,進入創作頁,點熱門玩法小貓圖
然后上傳一張圖,用讓“ta”說話里的《大展宏圖》音頻模版就可以了
等10分鐘,雖然有點長,但很值得!
每天只有三次機會,這是最近一個月,我最有氪金沖動的一次,可惜竟然沒有開放充值!
“小云雀”呢,是6月初,字節旗下剪映團隊推出的內容創作Agent。
這款產品號稱“一句話打造一個爆款”, 專為短視頻創作、數字人口播及電商帶貨等場景設計,核心亮點是實現視頻創作的“零門檻”。
pr做得不錯,上個月一發布,大家火速下載,使用!框框測!
然后,就沒有然后了!
做出來的東西太AI,沒有人味兒,別說爆款,做了十幾個,閱讀量三千,點贊過10的都沒有。
這次,小云雀終于開始走抖音的套路了,UGC還是玩不過PGC的,你拿出一些有趣抽象的整活兒模版,大家照著做,皆大歡喜。
蒙娜麗莎這個,感覺像是內部人做的,加了一些提示詞?動作和表情太到位了。
我用哥哥張國榮和MC熱狗,就沒有這么好的效果。
第三位AI歌手:張國榮!
第四位AI歌手:MC熱狗!
當然也可能是達芬奇的作品穿越千年,太有靈魂。大家可以再傳一些類似的油畫試試。
技術分析
唇形同步 ,Lip-Sync需要用到多種技術:
語音識別 (Speech Recognition): 將輸入的音頻或文字轉換為文本,以便分析語音內容和時間戳。
文本到語音合成 (Text-to-Speech, TTS): 如果輸入是文字,需要先將其轉換為語音。
面部關鍵點檢測 (Facial Landmark Detection): 準確識別面部(特別是嘴部)的關鍵點,以便跟蹤和控制唇形變化。
音頻到視覺映射 (Audio-to-Visual Mapping): 將音頻的音素(phonemes)和時間信息映射到相應的唇形變化上。Audio-Lip Memory等技術旨在實現更精確的唇形同步。
3D面部模型重建 (3D Face Model Reconstruction): 有些方法會先從2D圖像重建3D面部模型,然后在此基礎上進行唇形動畫,以獲得更真實的效果。
實現逼真效果的關鍵技術包括語音識別與音頻分析、面部特征點檢測、3D模型應用以及復雜的音視頻映射算法,例如“音唇記憶”(Audio-Lip Memory)和“運動解耦擴散模型”(MoDiTalker)等前沿研究。
國內做最好的我感覺就是小云雀了。有抖音音視頻經驗的加持,用到了豆包大模型,豆包文生圖模型(原名“福祿瓜”),deepseek,工程整合能力很強大。
國外做的比較好的是HeyGen: 提供AI唇形同步視頻創建工具,用戶可以上傳圖片或視頻,然后輸入文本或音頻,生成對口型說話的視頻。
我還嘗試了用肖戰的寫真和臧海傳劇照,不過審核沒通過,應該是有版權問題。本文用到哥哥的照片,僅為喜愛和紀念用途。用到房客動漫和MC熱狗也是為了測試效果,侵刪!
小云雀地址(公測中,iOS預約體驗):https://xiaoyunque.jianying.com/
結尾
AI工具這個月好像退潮一點,出得沒有上半年那么多,測來測去,實際能每天用上的不多,但好玩有趣做視頻好用的,云雀我覺得算一個。
生活很辛苦,做點抽象搞笑視頻,快樂一下,也是不錯的!
明天咱們就把張學友安排上!
回復【小云雀 】,一起學習交流,大展宏圖!
我是刀哥,大廠架構師,出海創業者,深入研究AI工具和AI編程。關注我,了解更多AI知識!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.