昆侖萬維發布國內首個面向AI短劇的開源視頻大模型。
作者|趙健
編輯|栗子
做通用場景還是垂直場景,這是AI大模型最基本的選擇題。
現在市面上的視頻大模型基本都是通用模型,可以根據提示詞生成任意場景的視頻。但也有一些視頻大模型從離應用場景更近的垂直領域切入,比如字節跳動近期發布Goku,聚焦在數字人直播帶貨。
而今天昆侖萬維剛剛發布的SkyReels-V1,則是中國首個面向AI短劇創作的視頻生成大模型。昆侖萬維在去年12月上線AI短劇平臺SkyReels,SkyReels-V1將為該平臺提供大模型能力。
根據「甲子光年」的實際觀察和體驗,不夸張的說,SkyReels-V1是市面上“最懂表演”的視頻大模型,在人物微表情、動作細節、場景、畫面構圖、運鏡等影視級要求的表現效果上獨樹一幟,能夠生成媲美“影帝影后級別”的表演鏡頭。
與SkyReels-V1一同發布的還有SkyReels-A1,是昆侖萬維自研的首個SOTA級別的基于視頻基座模型的表情動作可控算法。
更為重要的是,SkyReels-V1與SkyReels-A1都是開源模型,任何用戶都可以按照開源協議下載使用。開源地址:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
如果說DeepSeek R1是給文本大模型,尤其是推理模型樹立了開源模型新標桿,那么昆侖萬維的SkyReels-V1和SkyReels-A1就是在蓬勃發展的AI短劇市場樹立了開源模型新標桿。在SkyReels-V1和SkyReels-A1的加持下,AI短劇市場有望迎來DeepSeek時刻。
1.“最懂表演”的視頻大模型
SkyReels-V1是受益于開源社區并回饋開源社區的大模型,它是在騰訊去年12月開源的混元視頻大模型HunYuan-Video的基礎上訓練而來。
開源模型雖然在通用任務上表現出色,但并非拿來即用,尤其是在特定領域或細分任務上的表現可能無法達到最佳效果。因此,模型廠商在實際的模型訓練中還涉及大量的微調、推理優化、安全對齊等相關工作。
目前AI短劇市場中的視頻大模型普遍存在一些不足,最典型的就是人物生成表情空洞,甚至宛如智障。昆侖萬維希望突破這些痛點。
模型訓練是讓大模型學會知識與能力的核心環節。在訓練過程中,昆侖萬維需要教會SkyReels-V1“如何學會表演”。這其中最核心的技術貢獻有兩點:
首先是數據清洗與標注,這是模型微調的關鍵所在。就像教師教學時需要用到的教材一樣,昆侖萬維基于自研的高質量數據清洗和人工標注管線,構建了千萬級的高質量電影、電視劇、紀錄片數據,這是模型要學習的“教材”。
但光有“教材”還不夠,還要對模型做進一步的指導。為此,昆侖萬維自研了Human-Centric(以人物為中心的)視頻理解多模態大模型,大幅提升視頻中人物相關的理解能力。
這套基于視頻理解多模態大模型所構建的人物智能解析系統,在影視化的表情識別、人物空間位置感知、行為意圖理解、表演場景理解等不同層次的表演上,都能達到“影帝級別”的人物表演。
什么是“影帝級別”?
比如,SkyReels-V1可以生成影視級人物微表情表演,支持33種細膩人物表情與400+種自然動作組合,高度還原真人情感表達。
再比如,SkyReels-V1還學會了電影級光影美學。基于好萊塢級的高質量影視數據訓練,生成的每一幀畫面,在構圖、演員站位、相機角度等都具備電影級的質感。
盡管SkyReels-V1是一個開源模型,但卻有媲美海螺AI、可靈AI等閉源模型的效果。給出同樣的提示詞,SkyReels-V1、海螺AI、可靈AI的生成效果分別如下:
提示詞:一張棕色頭發女性的照片,華麗的紅色染色眼鏡和深紅色口紅。她朝著前方揮了揮手,先是微笑,然后大笑。
SkyReels-V1:
海螺AI:
可靈AI:
提示詞:戲劇性的正面特寫鏡頭揭示了一位深海潛水員戴著老式銅制潛水頭盔的面容。頭盔厚厚的圓形玻璃提供了清晰視野,可以看到他平靜的表情。微小的氣泡在頭盔內向上飄浮,水滴附著在內壁上。他小心翼翼地捧著一本敞開的書,書頁在海底水流中輕輕飄動。這本書看起來干燥完好,與周圍的水環境形成鮮明對比。柔和的陽光束穿透水面,照亮了他的臉龐,并在書頁上灑下金色光芒。魚兒在周圍游動,顏色因深度而變得柔和,但在藍綠色背景前依然生動。潛水員專注地閱讀著文本,盡管身處水下,卻完全沉浸在閱讀中。文學與海洋深處的超現實結合營造出夢幻般的氛圍,突出了在最意想不到的地方追求知識的追求。
SkyReels-V1:
海螺AI:
可靈AI:
從實際效果不難發現,無論是在畫面清晰度與人物表演方面,SkyReels-V1都有媲美閉源模型的能力。甚至在一些細節處理效果上(例如頭發絲的動態)要比閉源模型更強。
SkyReels-V1文生視頻指標對比(來源:昆侖萬維SkyReels)
此外,SkyReels-V1不僅支持文生視頻,也支持圖生視頻的能力,是開源模型中最大的支持圖生視頻的模型。
我們將春節檔最熱電影《哪吒之魔童鬧海》中深入人心的土撥鼠劇照發給SkyReels-V1,并給定提示詞:土撥鼠抬起頭停頓了一秒,然后大吼大叫。生成的效果讓人驚艷:
可以說,SkyReels-V1就是當前市場上最懂表演的視頻大模型。
2.自研推理框架做人人用得起的開源模型
更為難得的是,SkyReels-V1作為一款開源模型,不但在生成效果層面實現了大幅突破,而且有非常高的推理效率。這來源于昆侖萬維自研的推理框架SkyReels-Infer。
自研推理框架有什么意義?
通常來說,開源模型不會針對推理框架做優化,尤其是在大規模應用場景中。但如果不針對推理框架做優化,無論是推理效率還是推理成本,對于用戶體驗來說都并不友好。
最典型的案例是,2024年初OpenAI剛發布Sora時,有用戶爆料Sora生成一分鐘視頻需要一小時,這也是Sora在發布后時隔近一年才正式上線的重要原因之一。時至今日,仍然有很多視頻大模型存在排隊等待時間過長的問題。
但昆侖萬維的自研推理框架SkyReels-Infer不僅保持了高性能,還特別注重效率和易用性。
SkyReels-Infer的推理速度之快,堪稱一絕。在單臺RTX4090顯卡上生成一個544P分辨率的視頻,僅需80秒。你可能走了個神,或者看了一眼手機,視頻就完成了。
SkyReels-Infer支持分布式多卡并行計算。這是一項非常強大的技術。簡單來說,就是可以讓多張顯卡一起協同工作,共同完成視頻生成任務。
通過Context Parallel(上下文并行)、CFG Parallel(分類器自由引導并行)和VAE Parallel(變分自編碼器并行)等技術,這些顯卡能夠像一個團隊一樣,各自分工合作,從而進一步提升處理速度。這種技術特別適合需要大規模計算的場景,比如制作復雜的動畫、特效視頻等。
SkyReels-Infer在低顯存優化方面也表現出色。它采用了 fp8 量化和參數級卸載技術,這使得即使顯存較小的普通顯卡也能流暢運行。
顯存是顯卡的一個重要參數,它決定了顯卡能夠同時處理的數據量。以往,很多視頻生成模型對顯存要求較高,普通用戶可能因為顯卡性能不足而無法使用。但SkyReels-Infer的低顯存優化改變了這一現狀。換句話說,用戶不再需要購買高端顯卡,也能輕松使用視頻生成模型。這大大降低了使用門檻,讓更多人能夠享受到AI視頻生成的樂趣。
最后,SkyReels-Infer基于開源的Diffuser庫開發。Diffuser庫是一個非常優秀的開源庫,它提供了許多強大的功能和工具。SkyReels-Infer基于這個庫開發,繼承了它的優點。對于開發者來說,這意味著他們可以快速上手,輕松地將SkyReels-Infer集成到自己的項目中。
具體表現如何?昆侖萬維用SkyReels-Infer推理框架版本的SkyReels-V1與騰訊官方開源版的HunYuan-Video做了一次性能測試對比。測試結果顯示,SkyReels-V1在生成544p視頻時,速度比HunYuan-Video速度更快,延遲更低。
不僅如此,SkyReels-V1支持多卡部署策略,可以同時使用8張顯卡來加速任務,而且同時支持A800這樣的高端顯卡以及RTX4090這樣的普通顯卡,同時滿足了專業用戶與普通用戶的需求。
借助SkyReels-Infer的能力,昆侖萬維進一步降低了視頻大模型的推理成本和使用體驗,真正實現了人人都能用得起、用得好的AI視頻模型。AI短劇市場的發展也必然會被推向新一波高潮。
3.算法開源,業內最優的“AI換臉”玩法
值得一提的是,在訓練、推理環節之后,為了實現更加精準可控的人物視頻生成,昆侖萬維還進一步開源了基于視頻基座模型的表情動作可控算法SkyReels-A1。
SkyReels-A1是一個在訓練、推理底層技術之上的應用層算法,對標Runway的Act-One,能夠實現電影級別的表情捕捉。
Runway的Act-One與昆侖萬維的SkyReels-A1的基本玩法就是“AI換臉”:準備一張人物A的照片和人物B的視頻,然后將人物B的表情、動作、臺詞等直接移植到人物A上。
在ID Similarity(身份相似度)、Image Quality(圖像質量)、Expression(表情)和Pose(姿勢)等表現效果上,SkyReels-A1相比于業內同類型的開源算法取得了SOTA(State of the Art,最前沿)級別的效果,同時與閉源的Act-One接近,且生成質量更好。
當然,數值上的對比顯然不如視頻畫面來的直觀。我們依然用視頻說話。
首先,SkyReels-A1可以實現視頻驅動的電影級表情捕捉,相比Runway Act-One實現了更大幅度的人物表情驅動。
其次是高保真微表情還原。SkyReels-A1能夠基于任意人體比例(包括肖像、半身及全身構圖)生成高度逼真的人物動態視頻。這種真實感來自于對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節的深度還原。
比如側臉的表情控制生成:
以及更加逼真的眉眼微表情生成:
除了微表情,對于不少視頻生成模型都容易出錯的人臉保持和大幅動作處理上,SkyReels-A1也比Runway Act-One更加出色。
例如下面這個案例中,最右邊的人物有明顯變樣失真,和原始人物形象不一致。
SkyReels-A1還可以實現更大幅度的頭部和自然身體動作。在下面這個案例中,最右邊的身體幾乎沒有任何運動。
從實際效果不難發現,SkyReels-A1這套算法通過簡化傳統復雜的視頻制作流程,為創作者提供了高效、靈活且低成本的解決方案,適用于多種創意內容的制作。
4.AI短劇市場的DeepSeek時刻
SkyReels-V1與SkyReels-A1的開源只是昆侖萬維視頻大模型開源計劃的第一步。未來,昆侖萬維還會繼續開源相關技術,包括專業級運鏡控制版本、720P分辨率的模型參數、更大規模訓練數據集訓練的模型參數、支持全身可控生成的視頻生成算法等等。
事實上,開源一直都是昆侖萬維的基因。要知道,昆侖萬維董事長兼CEO方漢擁有30年的互聯網從業經驗,是中文Linux奠基人、中文Linux四劍客之一、國內最早的網絡安全專家。方漢自1994年開始參與和倡導開源運動,屬于互聯網領域很早就倡導開源的人士。
方漢曾表示,開源大模型是商業閉源大模型的一個有力補充和替代,希望通過開源促進技術民主化、降低行業門檻。
早在2022年12月,昆侖萬維就發布了「昆侖天工」AIGC全系列算法與模型,并宣布模型開源。昆侖萬維不僅是國內AIGC領域布局最為全面的公司之一,也是國內第一個全身心投入到AIGC開源社區的公司。
在過去三年中,昆侖萬維陸續發布天工系列大模型并開源。2024年4月發布并同步開源的天工大模型3.0是一個4000億參數的MoE超級模型,性能超同期的Grok1.0。去年6月,昆侖萬維又開源2千億稀疏大模型天工MoE,是首個支持用單臺 4090 服務器推理的開源千億MoE大模型;11月,開源了Skywork-o1-Open等模型。
昆侖萬維秉承開源技術信仰,為全行業實現AGI夢想而努力。
昆侖萬維從2020年開始進入AI領域,目前已經完成了“算力基礎設施——大模型算法——AI應用”的全產業鏈布局,并構建了多元化的AI業務矩陣。
其中,AI短劇就是其多元化AI矩陣應用的一個細分領域。
AI短劇是一個新興市場,在2025年呈現出高速增長態勢。根據TikTok for Business發布的《2024短劇出海營銷白皮書》,預計未來海外月均短劇用戶規模將達到2-3億,市場規模有望達到100億美元,仍存在高增長潛力。
昆侖萬維于2024年12月在美國上線Skyreels AI短劇平臺,這標志著昆侖萬維在全球AI娛樂市場的進一步擴張,同時也將為北美觀眾帶來全新的智能短劇體驗。SkyReels AI短劇平臺不僅為專業內容創作者提供了強大的創作工具,更極大地降低了AI短劇創作的門檻,使得非專業用戶也能輕松上手。
AI對全球的影視產業究竟意味著什么?
方漢在2024世界人工智能大會上演講時提到,AI在海外尤其是小語種國家存在巨大紅利。
以影視劇舉例,在尼日利亞制作一部電影的成本大約為2萬美金,拍出來的作品與國內花3億人民幣制作的《流浪地球》、美國花幾億美金制作的《阿凡達》相比,完全沒有競爭力。但是AI出現后,把這個差距拉平了。
“個人預測3-5年之后,制作一部《流浪地球》級別的大片,依靠AI之后,制作成本可能會降到幾萬美金,這樣導致在海外很多地區存在非常大的紅利,所有人都希望看到本土的文化產品,不管小說、音樂、視頻還是漫畫,都需要本土化的產品,所以AI出海存在巨大的紅利。”方漢表示。
往小了說,AI帶來的紅利是讓文化產品制作的成本實現指數級降低,讓“一人一劇”的時代成為現實。往大了說,通過降低創作門檻,AIGC使弱勢文化群體能自主生產內容,將帶來全球文化平權,這是科技向善最生動的注腳。
大家說AI帶來了“iPhone時刻”,但方漢認為AI是類似于手機攝像頭的革命,因為攝像頭帶來拍攝方式的革命,從而催生出抖音、快手這樣巨量的短視頻平臺,AI會催生大量的新的AI UGC平臺,這是一個個性化生產與消費內容的黃金時代。
在「甲子光年」看來,昆侖萬維所發布的首個面向AI短劇創作的開源視頻生成模型SkyReels-V1,以及首個SOTA級別的基于視頻基座模型的表情動作可控算法SkyReels-A1,正是推動AIGC時代來臨的最普惠的工具。
AI短劇市場有望迎來“DeepSeek時刻”。
*點擊文末原文鏈接試用SkyReels-V1
(封面圖來源:昆侖萬維)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.