近日,AI領域再度傳來重磅消息。新型社交平臺Soul App的技術論文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》,成功被人工智能領域頂會CVPR 2025錄用。這不僅是Soul在技術研發上的一次重大突破,更意味著其在AI社交領域的探索,正逐步引領行業走向新的階段。
CVPR作為計算機視覺與模式識別領域的標桿會議,一直以高水準的錄用標準著稱。根據會議官方統計,本次CVPR 2025會議總投稿13008篇,錄用2878篇,錄用率僅為22.1%,競爭可謂異常激烈。Soul App此次入選,彰顯其技術實力得到了學術界與行業的高度認可。
事實上,這并非Soul在AI領域的首次亮相。2024 年,Soul多模態情感識別研究論文入選ACM國際多媒體會議研討會,且在國際人工智能聯合會議組織的挑戰賽中,Soul技術團隊在半監督學習賽道拔得頭籌。從2016年上線基于AI算法的靈犀引擎,到2023年推出自研語言大模型Soul X,再到如今多模態端到端大模型的升級,Soul始終堅定不移地深耕AI社交領域。
此次被錄用的論文,提出了全新的實時音頻驅動人像動畫自回歸框架。該框架創新性地將talking head任務拆分為面部Motion生成和高效身體Movement生成模塊,不僅大幅提升了視頻生成效率,更顯著優化了生成效果的自然度和擬人性。這一成果,是Soul在語音、視覺、NLP融合方面的一次積極探索,為打造更真實的AI社交交互體驗奠定了基礎。
此前,Soul基于多模態大模型上線的語音交互功能,收獲了用戶的廣泛好評。如今,從語音到視覺的交互模態升級,無疑將為用戶帶來更為沉浸式的社交體驗。未來,Soul計劃將這一技術成果應用于實時視頻通話、AI虛擬人情感化陪伴等多元場景,進一步提升人機交互的情感溫度。
Soul在AI社交領域的持續創新,不僅為用戶帶來了更優質的體驗,也為整個行業的發展指明了方向。在未來,Soul將憑借其在AI技術上的深厚積累,繼續打造充滿趣味與溫暖的社交空間,推動AI社交邁向新的高度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.