網易首頁 > 網易號 > 正文申請入駐

這個AI生圖神器首次發布視頻模型：不卷分辨率，但網友直呼畫面驚艷超預期|附提示詞

2025-06-19 11:30:58　來源: AppSo

廣東舉報

分享至

面對迪士尼和環球影業的版權訴訟，老牌文生圖「獨角獸」Midjourney 沒有放慢節奏，反而于今天凌晨頂著壓力推出了首個視頻模型 V1 。

調色精準、構圖考究、情緒飽滿，風格依舊在線。

不卷分辨率、不卷長鏡頭、Midjourney 卷的，是一股獨有的氛圍感和審美辨識度。Midjourney 是有野心的，目標劍指「世界模型」，但目前略顯「粗糙」的功能設計，能否讓其走得更遠，恐怕還是一個未知數。

省流版如下：

上傳或生成圖像后點擊「Animate」即可，單次任務默認輸出 4 段 5 秒視頻，最長可擴展至 21 秒

支持手動和自動兩種模式，用戶可通過提示詞設定畫面生成效果；提供低運動和高運動選項，分別適合靜態氛圍或強動態場景

視頻功能包含在現有訂閱中（10 美元/月），GPU 資源消耗為圖像任務的 8 倍

不支持添加音效、時間軸編輯、片段過渡或 API 接入，分辨率僅為 480p，長寬比自動適配圖像，仍屬早期版本

視頻模型是階段成果，未來將繼續推出 3D 模型與實時系統，最終劍指世界模型

Midjourney 官方宣傳 demo

開卷氛圍感，Midjourney 視頻模型正式上線

你卷你的分辨率，我走我的超現實。

Midjourney 一直以奇幻、超現實的視覺風格見長，而從目前用戶實測的效果來看，其視頻模型也延續了這一美學方向，風格穩定，辨識度高。

在 @EccentrismArt 博主分享的視頻中，一個少年少年從高空垂直墜落。人物造型簡潔，動態感強，像是跳躍、墜落或在夢境中自由落體，運動路徑流暢，人物重心相對自然。

城市街區密集、燈光密布，建筑仿佛在空間中傾斜、旋轉，形成一種空間扭曲的視覺錯覺，但整體建筑動態無明顯抖動或 AI 生成拼接斷層。

在這段日式電車站場景視頻中，電車離站，太陽將落未落，色溫控制到位，光源自然，營造出一種靜中帶動、動中藏靜的節奏。

Prompt: The train passing through the station. | @PJaccetturo

一位身穿襯衫、手抱文件或書本的女性剪影，在她背后，是一幅巨大的人類頭部側影，可以看到，多重曝光/層疊構圖處理得非常干凈，光暈勾邊自然，沒有過曝。也難怪 Perplexity AI 設計師 Phi Hoang 直呼畫面超出預期。

知名 X 博主 @nickfloats 分享了一個女生走在一個光線明亮的火車站臺上的視頻，背景中有一列高速駛過的火車，光影分區明顯，立體感強。

夜晚、極光、雪地、車燈、運動模糊等要素并存，對視頻生成模型提出了極高挑戰。但模型成功處理多重光源干擾；雪地粒子、車速模糊、軌跡光效一致性強。

Prompt：2022 World Rally blue Subaru, racing through snowy Finland at night, dramatic action shot, dynamic motion blur, snow flying, Northern lights in the sky, headlights illuminating the snow, high contrast, cinematic lighting | @JamianGerard

身穿經典的太空服，航天員身后延伸出大量彩色的光線軌跡，呈現出一種「穿越」或「高速運動」的錯覺，視覺節奏感強。

Prompt：「Live a little, dropping acid, and I'm flying away I'm feeling like an astronaut in space I don't think that it'll do the damage they say Feeling like an astronaut in space」 | @JamianGerard

高光、材質、液體運動等要素都是檢測 AI 模型對靜物表現力的重要試金石，而這則視頻中，奶油動態自然，杯體旋轉過程中標簽未發生明顯扭曲。

Prompt：A Starbucks drink, classic tall cup, iced caramel macchiato, swirling caramel drizzle, whipped cream on top, condensation on the cup, vibrant and appetizing, high-quality beverage photography, 1:1 aspect ratio. | @JamianGerard

寫實風格表現中規中矩，孩童左手多出來的部分看著就有些不太協調。

Prompt：Sitting in the middle of the jungle with lots of wild animals moving around S | @JamianGerard

在末日感拉滿的紐約街頭，火光、殘垣斷壁等細節充足，根據提示詞的要求，生成的視頻需要以 35mm 膠片質感推進，整體來看也略帶顆粒感。

Prompt：A city street in the early morning, with burning cars and debris scattered everywhere. The scene evokes 1990s New York, captured in the style of photographer Jeff Wall, with the grainy texture of 35mm film. | @JamianGerard

水晶球懸停緩旋，考驗場景穩定性，好在攝像機運動也相當平穩。

Prompt：crystalline sphere hovering and spinning slowly above a calm colorful field, steady cam shot | @JamianGerard

值得注意的是，以上展示的案例生成結果可能經過多輪「抽卡」，但就最終效果來看，視覺完成度已經相當可觀。

有野心的 Midjourney，正在搭建「世界模型」的第二塊積木

從今天起，Midjourney 用戶可以在官網（Midjourney.com）上傳圖像，或直接使用平臺生成的圖像，點擊「Animate」按鈕，即可將圖像轉為視頻。

每次任務會生成 4 段 5 秒的視頻，用戶可對任意一段進行最多 4 次擴展，每次增加 4 秒，總時長最多 21 秒。當然，萬步開頭難，官方表示未來將在時長和功能方面進一步擴展。

操作邏輯門檻其實并不高，你可以像往常一樣在 Midjourney 創建圖像，只是現在多了一個畫面動起來的步驟，此外，你還可以上傳外部圖片作為「起始幀」，再通過提示詞描述希望呈現的動態效果。

V1 提供了一些可調節的自定義設置，便于用戶對畫面內容做出更細致的控制。

在「手動模式」（Manual）下，你可以輸入具體提示詞，自動設定視頻中元素的移動方式和場景，但如果你暫時對提示詞沒有頭緒，可以選擇「自動模式」（Auto），它會為你自動生成運動提示詞，并讓圖像動起來。

在創意風格方面，你還可以選擇兩種運動設置：

低運動模式（Low motion）：適合大多保持靜止的鏡頭，如人物眨眼、微風吹動景物等氛圍感場景，缺點是，有時效果并不明顯；

高運動模式（High motion）：適合需要鏡頭和主體都大量移動的場景，但缺點是，強烈的運動有時可能會導致畫面錯誤或不穩定；

價格方面，視頻功能被直接納入 Midjourney 的訂閱體系，起價依舊是每月 10 美元。

根據官方博客的說法，Midjourney 每段視頻的 GPU 耗時約為圖像任務的 8 倍，但在生成長視頻的情況下，平均每秒的成本幾乎與圖像生成持平。相較競品，性價比可以排進第一梯隊。

我們也用 AI 搜索引擎簡單梳理了一些主流視頻模型的訂閱費用，供大家參考

另外，Midjourney 正在面向 Pro 及以上等級的訂閱者測試「Relax Mode」模式，該模式將會以較慢的速度完成生成任務，從而降低對算力資源的消耗。至于其他等級的用戶，依然按照 GPU 時間和會員等級計費。

目前來看，Midjourney 視頻模型存在不少值得吐槽的點，最典型的特征就是缺乏一些面向專業創作的關鍵能力。

首先，Midjourney 視頻模型只能生成「啞劇」，暫不支持自動添加背景音樂或環境音效。若需音頻，仍需使用其他第三方工具手動添加。

其次，Midjourney 視頻模型不支持編輯時間軸、生成的視頻片段之間是「跳切」的，無法做到故事連續、畫面自然銜接，也就很難控制劇情節奏或情緒鋪墊。

再者，Midjourney 視頻模型暫時也不提供 API。

更重要的是，Midjourney 默認輸出 24fps、 480p 的視頻，視頻長寬比會自動適配圖像原尺寸，上傳至其他平臺時也會標注為 480p。

注：Midjourney 可能會對長寬比稍作調整，最終輸出視頻的比例可能與起始圖像略有不同。

Midjourney 官方也坦言，當前版本仍屬早期探索階段，重在可訪問、易上手、可擴展。

視頻模型只是切口，Midjourney 想要的，是更完整的內容生產體系。

其最終目標是構建一個「世界模型」，也就是將圖像生成、動畫控制、三維空間導航和實時渲染整合為一體。

你可以理解為，在一個能夠實時生成畫面的 AI 系統中，輸入一句話，可以命令 AI 主角在 3D 空間中移動，環境場景也會隨之變化，而且你可以與一切進行互動。

如同搭積木，要實現這個目標，就需要圖像模型（生成靜態畫面）→視頻模型（讓畫面動起來）→ 3D 模型（實現空間導航與鏡頭運動）→ 實時模型（保證每一幀都能同步響應）。

按照 Midjourney 的產品規劃，這四塊技術「積木」將陸續交付，最終整合成一個統一的系統。而作為階段性成果的 V1 視頻模型，是這個終極目標的第二步。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.