2025年6月6日-7日,第7屆北京智源大會將以線上+線下聯動的形式召開,6日下午推出“大模型產業CEO”主題論壇,邀請業內知名專家學者、大模型領域領軍企業CEO。
北京生數科技有限公司首席執行官駱怡航發表了主題演講——“多模態生成:從模型走向生產”,主要圍繞多模態大模型,特別是視頻生成在產業落地中的機遇、挑戰,并分享了生數科技(Vidu)的解決方案和成果。
以下是演講亮點:
- 多模態大模型迎來規?;a落地的拐點:第一,我們看到技術迭代非常迅速,音視頻的生成模型無論在效果、速度、成本上都快速提升。其次,行業需求特別旺盛。第三,很多行業視頻內容相關的各種產業落地節奏加快。
- 今年包括再往后要同時具備四個條件:內容的創意,內容質量、生成的效率和生產的成本。
- 如果具備了內容的質量好于傳統方式,同時生產效率和生產成本,在我看來效率必須比傳統的方式要至少百倍的提升。
- 對于生數科技來講,我們聚焦在多模態生成,現在主要以視頻生成為主,包括音視頻的部分,未來我們會延展到3D敘事空間等等。目前我們聚焦在專業的用戶和企業用戶,致力于把模型推動到8大行業、30大場景里面。
- Vidu 2.0把速度極大做了提升,可以達到 5 秒技術生成。同時Vidu Q1 進一步提升,包括高清的版本,還有首尾幀,還有動漫等方向。同時對于音效還有音頻我們做了深化。
- 從Vidu上線以來,專業創作的占比增長了300%,同時里邊的生成量、付費量還有使用時長都大幅提升了。對于開發者、企業客戶也提升了150%,在這些開發者里邊,對于一些相對專業的和要求嚴格的場景,互聯網廣告、動漫、電商等等,它的應用的占比占到了80%。
以下是演講原文:
現場和線上的朋友們大家好,我是生數科技的駱怡航。今天這個論壇是產業論壇,我想更多的從未來的方向跟大家分享多模態大模型怎么走,從模型怎么走向生產千行百業,以及走的過程中會遇到什么問題,以及如何走得更好。
我們看到語言模型從去年有一個大的飛躍式的爆發,多模態在我看來可能晚了半拍或者一拍。但是今年我們看到飛速發展,我認為今年多模態大模型正處于規模化生產落地的拐點。
第一,我們看到技術迭代非常迅速,音視頻的生成模型無論在效果、速度、成本上都快速提升。
其次,我們看到行業需求特別旺盛。傳統的內容生產痛點非常多:周期長、成本高、人員需要非常專業的軟件以及創意非常難等等。這些痛點是亟待解決的。
第三,我們也看到很多行業視頻內容相關的各種產業落地節奏加快。去年一年,包括今年上半年,各種行業都在積極的探索,而且有些已經完全生產落地了。
在這樣的場景下,我們做了一些行業側的總結,包括了8大行業,還有30大場景??梢钥吹竭@些行業都是視頻為主的內容產業。其中所有的行業基本上都是以視頻內容為主去流轉的,包括了內容的生產、內容的消費等等環節。我們看到傳統的生產方式,在對這些場景的內容進行生產的時候,是亟待去解決一些痛點和需求的,所以可以看到生產價值是非常巨大的,而且亟待挖掘。
視頻生成如果要規?;涞?,對于生數科技來講我們如何去推進呢?我認為今年包括再往后要同時具備四個條件:內容的創意,內容質量、生成的效率和生產的成本。創意部分主要還是人的部分,人的想象力,人的創意如何去發揮。其次就是內容質量、生產效率、生產成本。
這三個維度主要還是大模型的模型和產品要去推動的。如果具備了內容的質量好于傳統方式,同時生產效率和生產成本,在我看來效率必須比傳統的方式要至少百倍的提升。比如說以前我們做一個視頻可能1萬塊錢,但是如果它只是降低1/10,1000塊錢,但如果效果不好,大家也不會采用。但如果降低100倍,同時具備一樣的效果,這樣的推動力是極其大的。同時生產成本還有傳統方式至少要降低1%,生產效率要提升百倍。
對于生數科技來講,我們聚焦在多模態生成,現在主要以視頻生成為主,包括音視頻的部分,未來我們會延展到3D敘事空間等等。目前我們聚焦在專業的用戶和企業用戶,致力于把模型推動到8大行業、30大場景里面。
這些內容為什么是生產場景?因為內容除了我們所有的人可以去互動,但如果內容要去產生商業價值和消費價值的話,它可能會發布在自媒體廣告、電商、動漫、文旅、教育培訓、短劇影視制作等等方面。我認為這些內容的價值是商業價值的發生。
生數科技的產品我們叫Vidu,2024年2月Sora出來之后,生數的Vidu是第一個跟進的國產視頻大模型。同年7月我們發布了Vidu的AI內容生產平臺。在隨后的半年多時間里,包括今年的上半年,我們從模型側、產品側還有用戶側都取得了很大的進展。模型側包括了Vidu的1.5版本,Vidu 2.0包括Vidu Q1版本。這里回到剛才我們說的效果、效率和成本。Vidu 1.5是我們去提升效果的一個版本,通過參考圖視頻我們去保持多主體的一致性,使得在剛才提到的所有的商業場景里能更好地去落地保持效果。
第二,Vidu 2.0 我們把速度極大做了提升,可以達到 5 秒技術生成。同時Vidu Q1 我們進一步提升,包括高清的版本,還有首尾幀,還有動漫等方向。同時對于音效還有音頻我們做了深化。從產品方面,我們目前已經把創作者個人還有個人創作的團隊,我們提供 SAAS 平臺企業服務,我們提供 mass 平臺,包括移動端,我們具備了 API 的 APP 的方式。中國站和海外站我們從去年開始就分開,專項服務每個區域和每個國家的客戶。從用戶覆蓋里邊,截止目前我們在 200 多個國家和地區超過 3,000 萬的用戶,企業客戶包括了剛才提到的八大行業里邊 2,000 多家的客戶在使用申訴科技的Vidu的產品,同時有 30 多家的生態合作伙伴也跟我們在合作,其實可以看到用戶要使用產品,交流是非常重要。
因為就像我們在抖音上,大家可以去看大家拍的視頻,我們再去二創,再去分享延展。同樣的,對于 AI 創作來講,我們也可以這樣的方式。每天 3000 多萬用戶在Vidu的社區里邊去尋找靈感,這些靈感里邊大家可以看到包括人物畫面、動效、劇情調度、創意短片教程等等,大家都可以從社區里邊去學習。另外每天有數百萬次的想象和創意表達,在Vidu累計超過2億次。
大家可以看到視頻,其實是有很多視頻是實拍不了的,或者說很有想象力的視頻是可以通過Vidu,通過 AI 的方式去生成的。同樣有了短片或者素材之后,每天全球數千個完整的作品在Vidu上面投稿分享出來,供大家學習和交流。其實在這樣的視頻和作品的背后,其實是Vidu一直追求的理念,我們就是要把創意效率、效果和成本兼具,所以我們致力于從用戶側還有企業側我們提供最落地的模型和產品。最新我們的Vidu Q1 版本4月 22 號今年發布之后也是登頂了榜單,但是我們先看一下視頻其中提供的一些能力。
Vidu Q1 的版本在文生和圖生國內的國際的兩大榜單里邊,領先于國內外的一些模型和產品。最后我想跟大家分享很多Vidu背后的用戶的故事,其實用戶為什么要選擇Vidu呢?我相信他們一方面是自己的創意如何去表達,如何通過模型和產品能夠讓他們的想象和創意去描繪出來,同時他們更追求在效果、效率和成本上的兼顧。我們來分別看一下。首先柔術特效它其實是一個創作者,他是藝人,他自己非常喜歡動漫作品,他 3 月份發布的動漫作品一系列的連載至今已經在分發平臺上有 300 萬人次的觀看。同時相比傳統的制作方式,相比業界的傳統方式其實提升了 10 倍以上。
如果大家喜歡動漫的話,可以到B站上搜索柔術特效或者這部作品的名稱《觀察者悖論》可以去看。另外想講一個海外用戶的故事。他是美國的作家Kimberner fish,他是一個60歲的奶奶,他有一個視頻夢,因為他以前的作品全是文字作品、文字著作。他的作品有一個特點,就是非常溫暖,都是以comfort去命名。有了AI之后,大家現在都看短視頻、看短劇、長視頻等等,如何更好的去分享他的著作呢?他一個人用Vidu去創作他的文字著作的視頻介紹,他只需要拍上他作品里邊的一些插圖插頁,就可以通過圖生視頻的方式把他的配套視頻生產出來。
有了文本,有了文字著作,再配上這樣的視頻的話,非常受到它的讀者,尤其是兒童讀者的喜歡,他現在每天可以通過Vidu的平臺去生產大量的他的著作的一些配套視頻,包括以前他創作的以及未來他新寫的一些著作。另外對于企業客戶來講,有很多包括市場人員、營銷人員,我們在工作環境里邊如何去更高效生產?我們日??赡苡玫母嗍且恍﹨f同工具,這里邊有大家的團隊如何去協同,如何更批量的去生產。我們的Vidu的API被飛書集成到辦公平臺里邊。這樣的話,視頻生成的功能你就可以開箱即用了,而且可以批量的去生成。
智能手機里面有我們每個人的相冊,還有旅行的一些照片,可以通過圖生視頻的能力,我們可以一鍵把照片復活起來,我們一些老照片怎么去動起來,以及我們的有些照片可以一鍵去生成vlog,這樣的方式可以極大的去豐富我們旅行或者記錄的一些體驗。同時廣告領域我們可以看到傳統的廣告制作方式,比如說實拍它的整個周期特別長,包括成本特別高。我們和飛鶴一起完成了一部品牌廣告,這部品牌廣告是播放在電視的廣告里邊,它對質量和清晰度要求非常高。
相比傳統的品牌廣告制作,可以讓我們的創意人員專注于創意本身,突破實拍的局限,在創作周期和總體成本上得到了極大的提升。另外我們也看到有些個人創作者,現在一個人就可以接一些商業廣告,制作出高品質的商業廣告。例如這樣的一個案例是一個廣告寫實的場景,它對于Vidu的全功能做了一個極限的制作,利用非常短的時間制作出了這樣的一個廣告測試視頻。
毒液剛才藏虎也提到了,我們跟毒液沒有去做互動,但是我們跟索尼電影還有伯樂互動,我們去做了毒液電影的中國宣傳片,以中國水墨畫的風格,我們做了這樣一個創意,全程我們使用首尾幀的能力去實現這樣一個宣傳片。針對影視行業,尤其是好萊塢的一些公司,它其實對于一些作品的質量要求可能更高,傳統的一些預告片的方式基本上要從策劃到最后落地可能至少需要一個月的時間。這部片子我們跟合作伙伴,我們用了十天的時間,在成本投入上基本上省了90%。同時因為視頻生成的快速性,我們在半天的時間里面生成了上千支素材,供索尼電影那邊去挑選,最后可以看到這樣一個作品在整個中國影視行業里邊去呈現。
海外其實我們也接觸很多,包括剛才提到的創作者,還有一些企業的伙伴,包括好萊塢的一些動畫工作室也通過Vidu去制作動漫。這樣一個Arar的動作工作室,它是基于Vidu打造了一個AI的動漫工作流,它是批量的去進行創意生成,把它的時間花在整個創意的部分,把生產的周期用AI的方式來完成。
目前它跟我們一起發布了預告片,在隨后的兩個月的時間里面,他將會把50集的整個AI動漫做出來,這部動漫的風格就非常像好萊塢漫威的風格,也結合了亞洲動漫的一些風格,有一些特色。另外除了動漫之外,其實基于Vidu還可以做很多偏寫實,包括科幻的一些作品。像這樣一個創作者,他是打造了一個科幻劇場景,里邊非常宏大,而且敘事部分非常精美。
上述的一些素材大家都可以,包括短片,大家可以通過Vidu的官網去訪問。從公司成立至今,短短的兩年時間,我們商業化大概一年的時間,我們已經服務了如上的企業客戶,還有創作者。我們的目標是最終的終點,我們希望是改變千行百業里邊的內容制作流程,包括內容的生產效率。我們希望是以用戶的認可我們為動力,同時驅動產業變革為目標。其實還有很多的創作者做出了很好的作品,這里我們做了一個合集,讓大家來看一下不同的創作者,他對不同風格的一些掌控,以及不同的創意和想象力如何發生的。
為什么可以獲得用戶的認可呢?我們也非常傾聽用戶的一些反饋,也在持續迭代,所以到現在為止,我們認為為什么能服務好這些客戶?同時還有很大的距離,我們還要去提升,是因為我們從模型、產品、用戶逐漸形成了一個飛輪。在這樣的飛輪下,我們的團隊,我們希望去做到快速響應所有的用戶的需求和反饋,同時因為基模能力的通用性和廣泛性,我們可以在剛才提到的八大行業里邊,我們可以去廣泛滿足,同時除了去滿足基礎需求,其實很重要的一個事情。剛才我提到的生產效率要提升百倍,生產成本要降低一百倍,其實必須得深度適配。
所以我們通過基模的能力,還有場景的微調的能力,包括產品的能力,我們去滿足各個行業非常復雜、非常專業的需求。從Vidu上線以來,我們專業創作的占比增長了300%,同時里邊的生成量、付費量還有使用時長都大幅提升了。對于開發者、企業客戶也提升了150%,在這些開發者里邊,其實對于一些相對專業的和要求嚴格的場景,互聯網廣告、動漫、電商等等,它的應用的占比占到了80%。
也打一個廣告,就是在下周Vidu將會再次迎來重大的升級,敬請大家關注。最后提一下我們的愿景和使命,我相信AI對于我們在座的所有的人,包括我們的工作來說,我認為不是一個替代,它其實是我們的一個伙伴。人我們是有創意和想象力了,這一部分需要我們盡情去釋放。工具,Vidu來說我們希望是除了給大家帶來一些互動和娛樂,我們更希望是說去賦能生產力,同時讓人的想象力和創造力得以釋放。謝謝大家。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.