文章轉載自「新智元」,部分參考官方稿件。
生樹科技發布了新的視頻生成大模型 Vidu Q1,評測成績和表現有點驚人。
沒錯,它就是生數科技旗下的國產視頻大模型Vidu Q1。
在權威評測基準VBench-1.0和VBench-2.0中,Q1一舉超越Sora、Runway等國內外頂尖模型,勇奪文生視頻賽道雙榜第一。
VBench-1.0榜單
VBench-2.0榜單
Vidu Q1在視頻生成逼真度遙遙領先,無論是細膩的美學質量,還是精準的對象/場景生成、視頻語義一致性等,都展現了令人驚嘆的效果。
而且,在內容真實性上,Vidu Q1同樣取得了第一的亮眼成績。
此外,Vidu Q1在國內權威大模型測評機構SuperCLUE的圖生視頻榜中表現不俗,在動漫風格、寫實風格均斬獲第一,力壓對手。
此次Vidu Q1新上線的文生視頻和圖生視頻功能,效果直接炸翻天。
在視頻分辨率上,已支持1080p,每個細節逼真到爆,讓用戶愛不釋手。
而視頻的長度,能夠一次支持5s生成,這就直接滿足了創作者們的另一大核心需求。
最為重磅的,就是首尾幀功能的升級了——現在,只要兩張圖,Q1就能實現電影級的百萬運鏡!流暢的首尾幀銜接,再次讓AI視頻的想象力突破天際,擁有顛覆整個行業的爆破力。
更讓人驚喜的是,這個行業SOTA級最強視頻模型,居然只有其他同行價格的十分之一,性價比拉滿。一個1080p 5秒的視頻,價格最低只需1.34元,每秒價格低至3毛錢,讓我們把「國產良心價」打在公屏上!
目前Vidu Q1已全球同步上線,打開Vidu APP或者登錄Vidu網站Vidu.cn,用戶即可立刻體驗Vidu Q1帶來的電影級視頻效果。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01網友實測
而且,你以為爆火全網的吉卜力風是由GPT-4o開的先河?
其實在那之前,Vidu的視頻模型早就各大社交平臺上刮起了AI動漫風,讓歪果網友們嘖嘖稱奇了。
而此次Q1的上線,更是瞬間風靡全網,引來無數網友下場實測。
比如,創作者駱獅虎,就直接用這個功能解鎖新玩法,創作出了一鏡到底的41秒視頻,配樂十分時尚動感。
無需復雜的編輯、拍攝,普通用戶也可以利用Vidu Q1的首尾幀功能一鍵玩轉「一鏡到底」。
再比如這位網友,用Q1做出了一個黑暗奇幻場景——生物機械騎士和巨大的蠕動觸手展開激戰。
其中,騎士的盔甲是鋼鐵與人體肌肉的融合,甚至顯出栩栩如生的脈搏。
還有網友表示,模型對提示詞的遵循提升很多,一些復雜的提示詞也能很好生成,比Veo2的表現更好。
尤其是一致性與1080p質量相結合,完全可以達到頂級一流水準。
為什么這些網友隨手做出的視頻,就已經有了百萬電影大片的質感?接下來,就讓我們從此次Q1的全新功能出發,一一拆解。
02僅需兩張圖,實現百萬運鏡轉場
此次Q1全新升級的首尾幀功能,相比2.0版本的語義理解、絲滑程度都更強。
因此,直接就能基于兩張圖實現大師級電影的百萬運鏡。
比如首幀是一個戴著頭盔的男人堅毅的眼神,尾幀是他全身鎧甲站在一片竹林中。
簡單的兩張圖,Q1就做出了武俠電影中緊張感十足的一個旋轉鏡頭。似乎有一陣寒氣襲來,空氣直接凝固。
四面八方仿佛已經有了重重埋伏,隨時會有暗箭放出,接下來就是刀光劍影的打斗場面,空氣中的緊張氛圍已經令人窒息。
仿佛竹林中隨時會有暗箭放出,懸念迭起。
給到首尾幀,每個AI視頻模型的表現各有不同。
Runway Gen-3 Alpha Turbo僅是將兩張圖片放大合成,看著詭異古怪。Luma Ray2則是首幀到尾幀一閃而過,缺少銜接。
Runway Gen-3 Alpha Turbo
Luma Ray2
可以看出,Q1的生成效果堪稱導演級,完美展現了復雜且高級的運鏡技巧。
一鏡到底,毫不拖沓,鏡頭的切換專業又自然,緊湊又有層次感,精準捕捉到了人物情緒的微妙變化,還和周圍場景完美地融合到了一起。
能讓人感受到,這個模型語義理解極強。
在這個例子中,首幀是一個金發女孩站在麥田中的背影,尾幀是她在雨中情緒復雜地望著天。
用Q1生成的視頻中,女孩在雨中抬頭望天的動作,充滿了迷茫、焦慮和憂心,麥田場景一秒夢回《星際穿越》。
從此,我們普通用戶也可以根據自己的想象力,創作出電影大片了。
比如首幀是地面上一個圓圈,尾幀是圓圈中出現一個魔鬼,就可以生成「從圓圈中召喚出魔鬼」的一個電影片段了。
除了電影大師級畫面,Q1對廣告風格也是妥妥拿捏。
比如給出兩張圖,一個穿著時尚的模特站在橋上,身后是巴黎鐵塔,另一張圖是男子戴著墨鏡,映出第一張圖的場景。
不過幾分鐘,一段畫質清晰高級的廣告大片,就這樣生成了。
當然,Q1的首尾幀能力在動漫效果上,表現得也是一如既往地出色。
首幀是女特工手持手槍,尾幀是子彈穿破玻璃球瞬間爆炸。在prompt中描述「吉恩·科蘭的漫畫風格,緊張刺激的動畫場景」,一段完美的動漫場景就生成了。
031080p畫質,極「質」高清
Q1直接將視頻分辨率提升至1080p,畫面清晰穩定,細節表現力大幅增強。
不論是寫實場景的逼真質感,還是人物生動的表情、動作,Q1都能輕松駕馭。
圖生視頻
第一眼看到這樣高清的視頻真的被驚艷到了。
不敢想象AI視頻已經進化到這種程度了。
視頻中是一個超寫實的動漫風小女孩,臉上的雀斑以及皮膚的紋理都清晰可見,尤其是她那雙大大的眼睛,如此的生動有神。
Q1現在對人物手部的處理也是相當的到位。各種細節,包括頭發以及對焦的處理都幾乎是無懈可擊。
提示詞:一個身穿運動服的超現實動漫風格女孩,被特寫鏡頭捕捉到,她滿臉雀斑,汗流浹背,臉頰緋紅,睜大的眼睛反映出情感和好奇,對著鏡頭眨眼微笑,慢慢地把手伸向屏幕,廣角微距鏡頭拍攝,超現實的紋理與風格化的柔和相結合,充滿情感的時刻,16:9的寬高比
使用相同的提示詞再次生成,可以看出Q1的一致性保持得相當好。
接下來這段依然是1080p的高清視頻,一個人正坐在一頭巨大的飛龍上快速飛翔。
提示詞非常簡潔:flying fast,沒有過多的描述。
這并不影響視頻的質量,可以看出視頻依然有奇幻電影的質感。
一群奔跑的斑馬。
還有微縮鏡頭下,Q1竟能把蜜蜂撲騰著的翅膀展現出來。
文生視頻
Vidu Q1文生視頻的高清畫質也同樣驚艷。
使用上面圖生視頻相同的提示詞,只是通過文本Q1就可以生成一致性非常高的視頻。
下面這兩個寫實風格的小女孩視頻,在畫面高清的基礎上實現了對提示詞的完美遵循。
包括臉上的雀斑、汗水,臉頰緋紅,以及大大的眼睛。
尤其是上方小女孩結尾的微笑和下方、小女孩微風拂面的感覺,都是超級真實。
文生視頻除了高清外,重要的還有對語義的精確理解。
比如下面場景,從左至右分別是Runway-Gen3 Alpha、Veo2 、Vidu Q1。要求生成富士膠片的質感、大幅度的運鏡、日產的GTR以及午夜的東京,Q1都能很好地抓住要點,找到那種感覺!
在同一個提示詞下,展現汽車漂移的效果,Gen3 Alpha畫面效果并不穩定,出現畫面崩壞,Veo 2完全沒有呈現大幅度運動。
Q1很好地遵循了「大幅度運動」的指令,動態表現非常逼真,上演了一場速度與激情。
提示詞:富士膠片Portra 400H靜態照片,急馳的日產天際線R33 GTR LM JGTC,大幅度運動效果,東京7-11便利店,午夜時分
Runway-Gen3 Alpha
Veo2
Vidu Q1
在人物場景刻畫上,Q1生成的視頻更加自然、真實,語義理解力非常強。
提示詞:鏡頭聚焦于一位身穿皮夾克的男子,他獨自行走在白天的城市街道上。陽光在人行道上投射出逼真的陰影,背景中是汽車和行人,而模糊的畫面則以電影般的照片寫實風格呈現。
一些不可能的場景,只需要簡單的一句話描述,即可出大片。
04多元動漫風格,吉卜力拿捏
一直以來,Vidu還是國內外二次元玩家的主要陣地。
在GPT-4o吉卜力風格爆火全網之前,Vidu早已在社交平臺上掀起了AI動漫風潮,不僅僅是吉卜力風格,亦或者是其他日漫、美漫、國漫等風格,Vidu統統都能拿捏住。
這一次,Vidu Q1動漫風格再度突破,支持更加多元化風格生成,畫面一致性與動態表現自然流暢。
上傳一張圖,AI即可生成正在用水晶球施魔法的女子,光影效果足以讓人震撼。
提示詞:雙手之間射出一道強大的能量球閃現
再比如,生成一個日漫風格——銀河眼眸般的夢幻少女,融合了吉卜力與新海誠的夢幻審美。
而且,畫面呈現出超現實油畫質感與細膩光影,令人動容。
提示詞:夢幻動漫女孩的特寫鏡頭,有著閃閃發光的星系般的眼睛和飄逸的深綠色頭發,被發光的球體和神奇的散景燈柔和地照亮,吉卜力和新海誠的靈感,16:9的寬高比
另外,Q1針對復雜場景的把控也是一流的,生成飛船在太空中穿行的畫面中,多架飛船如光影交錯般,并沒有出現畫面不穩定的情況。
動漫女主在水中的動畫光效,也是絕美。
提示詞:女生在水中,水波帶動她的頭發,水波在她臉上投下光影,她緩緩扭頭看向鏡頭
Q1還能生成萌趣超有愛的毛氈動畫——小刺猬上學的第一天。
提示詞:Mr. Hedgehog's first day at school, with a small backpack and sharp spines, cautiously enters the classroom. He sits gently, the desk creaking. Little Fox, Puppy, Piglet's wide eyes stare, chair nudged aside. Colorful felt decorations brighten the room, sunlight glows on desks. Mr. Hedgehog looks down, spines trembling, showing a shy, nervous face. Felt animation style, soft texture, warm colors, detailed.
用戶也可以嘗試將GPT 4O+Vidu Q1組合,讓你喜歡的畫面都變成可愛的動畫風。比如上傳GPT-4o生成吉卜力風格的奧本海默圖片,Q1即可讓經典的一幕躍然屏上。
提示詞:白發老人向后轉身離開,旁邊的男子抽著煙,緩緩轉向鏡頭
即使是80年代動漫,Vidu Q1也能有非常好的風格保持。鐵臂阿童木、城市獵人都是上世紀80年代日本經典動漫,Q1生成的星空下的女子很有那味兒了。
提示詞:在星空下,一位短黑發、眼睛大而富有表現力的女性,仿佛來自1980年代的日本動漫,她微笑著仰望星空。她穿著夏季連衣裙,佩戴紅色圓形耳環,站在漂浮在海上的游輪甲板上。場景以懷舊的動漫風格呈現,捕捉到了在星空下,游輪上度過的寧靜而充滿激情的夜晚氛圍。
最后,再來看一個動漫風格不同AI視頻模型的對比效果。
從左至右分別為Runway Gen-3 Alpha、Veo2 、Vidu Q1,可以看到Runway Gen-3 Alpha給人一種80/90年代感覺,但是運動幅度幾乎沒有,人物表情較為呆板,Veo 2則直接生成的是3D動漫。
通過對比,Q1所有細節呈現非常亮眼,不僅完美理解了80年代動漫復古風格,人物表情、動作也非常生動自然。
提示詞:可愛的動漫女孩臉。復古風格。80、90年代
Runway Gen-3 Alpha
Veo2
Vidu Q1
05影視級混音,全球首創
Q1不僅在視頻生成上超群出眾,還推出了革命性的AI音效功能,以高保真音質與精準控制重新定義音效創作。
在2025中關村論壇年會「未來人工智能先鋒論壇」上,許多人已初次領略了Vidu Q1能在不同轉場上,做到音頻高度一致的可控生成,Q1對時間的控制可謂是精細入微,精準到音效出現的時間區間。
Q1是全球首家支持精細化時間控制的文生音效的AI系統。它還支持多段音效疊加,輕松模擬現實場景,實現雨聲、風聲、雷聲動態混合,層次感豐富,足以媲美影視級混音效果。
首先,用戶可以精準控制生成音效的時間,音效可以在 10 秒內的任意時間點開始生成。這也是目前為止業內商業領域首個支持精細化時間控制的文生音效系統。
其次,Vidu 的文生音效功能還支持多段音效疊加,并以一個完整的音頻文件輸出。例如,下面的示例中,通過多段音效的疊加,成功還原了火車經過的真實感。
尤為值得一提的是,相比于業內普遍只能生成 16KHz或者32KHz,Vidu 的音效已經可以做到48KHz的音樂級采樣率和保真度,這也是文生音效在商業化領域中首家做到48KHz的高保真音效。
來聽一聽效果,這個蟋蟀聲是不是有種“一聲入夏”,仿佛走入原始森林的感覺。
Hz是評判音頻質量的標準,你在耳機中聽的QQ音樂一般都是48KHz,其在聽覺上會比較流暢,而16KHz、32KHz會存在壓縮失真問題。
當然你也可以用Vidu的文生音效功能探索更多玩法,比如生成一段爵士風格的即興音樂
亦或者來一段中國風純音樂,古箏、笛子等樂器營造出了古典的山水意境。
Vidu的文生音效功能,打通了視頻創作的整個工作流,從視頻生成到音效生成,一個平臺就能搞定。
06深度賦能動漫、電影、廣告
榮登榜首的Vidu Q1不僅是一款工具,更是一個賦能創意產業的「加速器」。
通過無縫融入現有工作流,Q1能提升電影、動漫、廣告創作者效率,釋放想象力。
在電影行業,高清畫質加上對鏡頭超強的控制,Vidu Q1能大幅降低高質量特效的門檻。
傳統的VFX往往需要消耗大量的人力、物力以及經費,效果難以預測。
如今,只需要一句提示詞,加上Q1的頂尖性能,就可以不斷生成相當高質量的電影特效視頻。
不僅成本極低,還可以生成到導演滿意為止。
比如下面片段,視頻的焦點從槍口絲滑過渡到機器人的臉上,Q1展現了頂尖的性能,目前業內其他視頻很難做到。
在比如下面多個人物主體的片段,鏡頭緩慢推進,焦點也不斷深入,整個過程流暢自然。
對廣告行業,Q1更是創意爆發的引擎,超強的主體一致性能力,將你想要呈現的繽紛廣告畫面變成現實。
只要一張產品實物圖,就可以生成各種場景、風格、運鏡的高清廣告視頻。
讓想象力不被限制。
提示詞:金色無線耳機優雅地放置在海邊陽光照射的巖石上,周圍是盛開的野花和在微風中搖曳的柔軟草地,背景中海浪波光粼粼,電影攝影機搖攝,自然生活方式科技商業廣告,超現實主義,16:9寬高比
更重要的是,AI視頻可以無限放大廣告的創意,生成各種「無法實拍」的鏡頭。
比如在下面視頻中,可以實現液體飛濺或反重力構圖,突破了傳統廣告限制。
只需數小時,廣告公司也可以創造出引人入勝的創意內容,效率大幅提升。
提示詞:標有「vidu」的奢華香水瓶優雅地漂浮在雕塑木質元素之間,溫暖的琥珀色燈光,液體黃金飛濺凍結在半空中,干葉輕輕旋轉,柔和的電影鏡頭運動,產品聚光燈,商業風格,超現實,高端香水品牌美學,具有平滑漸變的工作室背景,16:9的寬高比
對于動畫師而言,支持多元化動漫風格生成的Q1,可以讓藝術家快速生成場景原型。
同樣是一句提示,動畫師便能創作出施展魔法的少女,或是穿梭星云的飛船,可確保畫面動態流暢,角色主體一致。
這大大縮短了前期制作時間,讓他們更專注于故事本身、角色刻畫的身上。
除了主流創意產業,Q1也將在教育、自媒體等創作領域蘊藏著這巨大的潛力。
另外,Q1精準時間控制文生音效的功能,更是工作流的一大補充,可以實現音畫同步,一鍵打造出精致成品。
而這一切,生數科技的模型僅用同行1/10成本完成,讓創作門檻一降再降。
這種極致性價比,可以說是為真實世界的生產而量身訂做!
從此,各行各業的高質量視頻制作,都不再需要龐大的團隊、昂貴的軟件和大量時間,更無需巨額預算。
不過,Vidu Q1的出世并非意在顛覆,而是通過深度融入現有工作流,成為創意產業不可或缺的「催化劑」。
從獨立動畫師的第一部短片,到好萊塢大片的震撼特效,來自全球不同地區的創作者們正與Vidu Q1共創未來。
一項調查顯示,預計AI媒體市場規模將從2023年的171億美元,大幅增長至2033年的1957.7億美元,復合年增長率直接達到27.6%。
而Q1的背后,就是AI視頻創作的廣闊藍海。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.