作者 | summer
郵箱 | huangxiaoyi@pingwest.com
在阿曼——一個僅有四百多萬人口的國家,有近3萬名老師,正通過一款AI工具制作教學視頻。
而締造這一切的,是一個僅有20人的中國團隊——Mootion,一款用戶只需要輸入一句話,就可以讓AI寫劇本、做分鏡、剪視頻的一站式AI視頻應用工具。
當下,擁擠的AI視頻賽道正上演著一場“向上”與“向下”的雙向狂奔:向上,是以Kling、Veo為代表的頂尖基座模型,不斷挑戰著真實感的天花板,向著更高的可控性、一致性和信息密度進發;向下,是層出不窮的視頻Agent工具,努力向用戶場景靠近,通過提供爆款特效或風格化模板(Hailuo Video Agent),在C端市場分一杯羹。
在這一行業背景下,Mootion正在嘗試走一條不同的道路:它既不追趕底層模型的參數競賽,也不是提供炫酷的風格化模板,而是深入特定垂直場景,將從腳本構思、分鏡設計到最終視頻生成的一整套流程,進行“類型化”與“自動化”。
阿曼及更廣泛的阿拉伯世界中,教育工作者對Mootion的廣泛使用,就是一個典型且成功的垂直領域案例。
在創始人王詠剛看來,基座大模型就像一個能力超群的“理科生”,能精準執行指令,卻缺乏藝術感和敘事能力。而Mootion要做的,就是讓模型學習“文科”,通過這些結構化的場景,學會特定類型下的鏡頭語言和人類故事邏輯。
我們和Mootion的創始人王詠剛聊了聊發現,他們有一套“B端打磨技術,C端普惠用戶”的打法。
一頭,Mootion通過扎進最專業的影視工業,與貓眼等公司合作,讓AI在電影級的制作流程中,學習工業級的頂尖敘事和運鏡技巧;另一頭,將這些千錘百煉的“導演方法論”,打包成普通人也能一鍵使用的場景化功能,以極低的成本反哺C端的用戶們。
從一個個細分場景切入,Mootion正在解決普通人的視頻內容創作需求。
B端打磨、C端復用,為AI補上“導演課”
硅星人:您好,首先請您介紹一下,Mootion是一款怎樣的產品?
王詠剛:一句話描述就是,Mootion 就是一款最“普惠”的AI視頻制作工具,誰都可以用,非常方便、簡單、快速。
硅星人:這種低門檻是怎么體現的?
王詠剛:比如我們最新的功能,agentic video creation。用戶只要輸入一句話,AI就會自動以導演的角色構思,編劇的角色制作腳本,動畫師的角色制作分鏡,然后剪輯師的身份進行剪輯,最后給到用戶一個故事、畫面、聲音都完成的完整作品。
過去,用戶可能還需要自己一步步地去選擇場景、風格。現在,我們希望用戶連這些“稍微選一選”的步驟都可以省掉。
硅星人:這和現在市面上有很多的AI視頻 Agent產品相比,區別在哪?
王詠剛:這個核心問題就是:AI在創意領域的邏輯能力,其實非常弱,我們做了很多差異化的工作,讓用戶一句話生成的最終成果,達到了真正可交付的水平。
打個比方,如果說AI在處理有標準答案的、數理化編程這類“理工科”問題上,能力已經從去年的30分提高到了今天的80分。那么在創意領域,怎么講一個好故事,怎么安排鏡頭,它可能頂多是從30分提高到了50分,還遠遠不及格。
今天AI生成的很多內容,在專業導演看來,非常“平庸”,甚至不如一個電影學院的學生。
硅星人:您的意思是,當前的大語言模型,不懂專業影視制作的藝術?具體是怎么不懂?
王詠剛:因為創意邏輯是開放的,它需要風格化、需要個人表達。一個大導演、大編劇的思考邏輯,與數學公式完全不同。
這個問題的根源在于,今天大模型的訓練體系,無論是訓練數據、激勵函數還是評估標準,都充滿了“理工科思維”,它們被設計用來解決數學和編程問題。如果后訓練階段,能有懂得寫作、編劇、導演、美術的專業人士來制定數據和評價體系,AI的創意能力才會有本質的提升空間。
所以,我們的Agent,就是集中在這些大語言模型不擅長的地方,不是簡單地去調用大模型的能力,讓它習得這些專業的“方法論”。
硅星人:意思是喂給他王家衛、周星馳這種大導演的類型數據嗎?
王詠剛:不不,我們不指望AI馬上變成一個大導演,而是希望它能達到一個“導演系科班生”的水平。
我們可以直接用人類世界已經沉淀下來的課本知識去finetune,以及我們也會通過和專業影視行業(比如我們的戰略投資方貓眼)的深度合作,拿到很多私有的、真實詳細的動畫番劇、電影的“分鏡頭劇本”,讓AI去學習這些結構化的專業數據。
不是學皮毛,而是學導演的敘事節奏、場景安排、鏡頭語言。
硅星人:所以,Mootion和貓眼的合作是怎樣的形式,主要是數據庫的搭建嗎?
王詠剛:不只是數據層面,而是業務和技術層面的合作。這也是我們非常核心的戰略。
我們的團隊一直希望用高質量的專業內容制作,來帶動普惠的、人人能用的內容產品。具體來說,Mootion.com是我們面向全球個人用戶的C端平臺,它追求的是簡單易用,讓一個8歲的孩子都能通過一句話生成一個有趣的故事視頻。
而我們團隊深厚的算法能力,尤其是3D動畫與視頻的融合算法,則主要輸出給了B端的專業工作流。我們正與中國最前沿的動畫內容制作團隊進行深度的技術合作,在真實的工業級動畫電影、網絡番劇的制作流程中去打磨我們的AI技術。
相當于說,我們在最頂尖的3D動畫工作流中,解決最棘手的技術難題,比如如何讓AI理解并執行復雜的“運鏡”。當這些技術在B端得到驗證和沉淀后,我們再通過Mootion平臺,將其“普惠”給C端的海量個人用戶。
先從50分到60分,建立電影數據庫與關鍵幀審查機制
硅星人:您剛才說,現在模型能做到的是50分,那么Mootion等產品,要在此之上,做到60分、70分甚至100分的過程,具體該怎么做?
王詠剛:第一,建立專業的導演知識庫、數據庫,第二是,基于這些數據,結合RAG(檢索增強生成)和微調(Fine-tuning),讓AI“學”。
硅星人:“導演知識庫”是怎么做的?數據是怎么處理的呢?
王詠剛:本質上是在“教”AI學懂電影的視聽語言。我們會把影史上經典的類型片,比如上百部經典的恐怖電影,進行逐幀、逐鏡頭的拆解和分析。我們內部有一個小程序,專門閱讀和分析這些真實的動畫番劇、電影的分鏡頭劇本,學習導演是如何安排敘事、場景、人物關系和運鏡的。
一方面,從中總結出一些規律性的“編劇公式”。比如,“一個高大全的好人角色是不好看的,必須在他小時候安排一件事來解釋他性格上的軟弱”,這種公式AI是能夠學會的。
另一方面,學習“類型片”的導演、鏡頭公式。比如針對懸疑類型的,最常用的鏡頭語言是什么,什么時候推鏡頭、什么時候近景等等。
現在“鏡頭語言”可能是AI生圖和生視頻目前最差的環節,就像一個恐怖故事,用“身后過肩視角”就比“全景”更能營造氛圍,這件事基模并不容易學會。
以恐怖故事為例,我們擁有了一個關于“如何拍恐怖片”的龐大知識庫后,當用戶選擇“恐怖故事”模板并輸入他的故事情節時,AI會通過Rag檢索出“導演知識庫”中類似的經典分鏡方案,作為參考喂給模型,從而提升生成質量。
硅星人:您解釋了編劇階段如何讓文本模型更好的生成,那視頻生成階段呢,如果模型無法做到精準理解并執行“鏡頭語言”,生成環節抽卡抽不出來,怎么辦呢?
王詠剛:比如,“希區柯克式變焦”非常經典,它在光學上是“攝像機向前推的同時,鏡頭向后變焦”。模型可能聽不懂“”這個詞,但它們可能分別聽得懂“Dolly in”(向前推)和“Zoom out”(向后變焦)這兩個更基礎的指令。我們需要就是把這些復雜的導演術語,在我們的數據庫和指令層,翻譯和拆解成基礎模型能夠理解的、更簡單的指令組合。
其次,我也很坦誠,Mootion也不是說今天就很完美了,只是在努力從50分做到60分、70分的水平。作為創業公司,我們不做直接做生成視頻的模型,生成抽卡是基模目前的一個現狀,我們在其中盡可能做了關鍵幀審查(Keyframe Review)。
當我們生成一個動態畫面時,實際是把上一個視頻片段的某一幀,當作下一個片段的關鍵幀來繼續生成。我們會在每隔4秒或5秒的關鍵節點上,對生成的關鍵幀進行一次質量驗證。這個驗證就包括了類型一致性和視覺風格一致性。
硅星人: Mootion的底層技術架構,能否具體拆解一下,在文本理解、分鏡設計,以及最終的圖像和視頻生成這些不同環節,你們分別依賴哪些模型來實現的?
王詠剛:在文本和分鏡設計這個環節,我們是綜合使用Claude和GPT這兩種模型來提供服務的,然后會配合我們的一些反饋機制和基于RAG的小型數據庫——這些小數據庫主要是用來做特定類型片(比如懸疑故事)的優化。
而在圖像和視頻生成上,我們則基于開源模型自研優化為主。我們不去調用那些通過API提供、價格昂貴的閉源模型,因為成本非常高。目前,我們的圖像生成主要集中在FLUX模型,并且和他們的團隊已經建立了企業級的合作關系。
硅星人:相當于,頂尖閉源模型負責思考,優化后的開源模型負責執行,這是一個注重planning的制作過程。
“全球市場非常龐大和分散,而我們已經找到了切入口”
硅星人: 用戶現在的反饋如何,以及用戶量級和增速有相應的數據嗎?
王詠剛:用戶的反饋其實挺有意思的,我們收到的最普遍的好評,就是用戶覺得Mootion“不用學,上手就懂”。這一點讓我們很受鼓舞,說明我們追求的“普惠”理念,用戶是能直接感受到的。
至于量級,我們產品正式發布還不到一年,目前全球已經積累了兩百多萬的注冊用戶,分布在十幾個不同的國家和地區。可以說,增長速度還是非常快的。
硅星人: 目前的收入數據是怎樣的?
王詠剛:我們的訂閱收入增長得相當不錯。就在最近,我們的年化經常性收入(ARR)剛剛達到了100萬美金這個里程碑。
當然,坦白說,我們還沒有達到break-even(盈虧平衡)的那個點。但對于一個正式發布還不到一年的產品來說,這筆收入已經至關重要。它讓我們能夠建立一個健康的商業循環,而不是完全依賴外部融資去燒錢。
這里面還有一個很有意思的現象:我們大概有三分之一的訂閱收入,是來自阿拉伯世界。比如阿聯酋、沙特這些海灣國家用戶,他們的付費意愿和能力都非常強。
硅星人: 這個很有意思,為什么是阿拉伯世界?Mootion是怎么找到這個市場的?
王詠剛:說實話,這最初也讓我們非常意外。我們目前沉淀下來兩類非常核心的付費用戶群體,第一類是社交媒體上的類型化內容創作者,比如兒童睡前故事、恐怖故事、歷史故事等。對于他們而言,Mootion提供了一個高效的、能快速將文本創意視覺化的工具,這非常符合他們的需求。
第二類,就是阿拉伯世界的教育工作者。這真是一個“無心插柳”的故事。
產品發布初期,我們在全球多個市場都做了小規模的推廣嘗試。其中,一個面向阿拉伯地區的推廣視頻,在埃及和摩洛哥的學校里傳播開來,快速傳播到海灣6國。后臺數據也顯示,來自那里的用戶量和付費比例在自然增長。
我們去當地調研后發現,老師有一個巨大的剛需場景:他們教孩子英語時,除了課本,非常缺乏其他的教學參考資料。而用Mootion可以快速生成雙語對話視頻,學生們不僅能看,還能自己動手創作雙語視頻故事,實踐“做中學”的理念。這個模式一下就在老師群體中通過口碑傳播開來,完全沒有花我們額外的推廣費用。
硅星人: 這種完全由用戶自發形成的口碑傳播,后來發展到了多大的規模?有沒有一個具體的時刻,讓你們團隊意識到“這件事真的成了”?
王詠剛:的確有。最讓我們震驚的一個時刻,是今年1月份,阿曼的教育部通過他們駐中國的大使館,主動找到了我們。他們給出的理由非常直接:“我們發現有很多老師都在用一個叫Mootion的產品”。
當時,阿曼這個國家總人口只有四百多萬,但已經有接近3萬名老師在用我們的產品教英語、歷史和科學。一個完全由民間自發形成的教學工具,最終獲得了官方的關注和認可,那一刻我們才真正意識到,我們可能無意中解決了一個非常普遍且重要的剛需。
硅星人: 之后你們針對這個龐大的教師群體做了特別的優化嗎?這個發現有影響到你們的產品策略嗎?
王詠剛:當然,這是必須的。這個案例給了我們極大的啟發:AI應用的真正出路,不在于追求技術上最酷炫的效果,而在于深入垂直領域,找到并解決用戶的真實痛點。
我們發現,這些老師用戶最關心的并不是畫面有多精美,而是教學內容是否準確,產品能否無縫地融入他們的課堂。為此,我們專門針對他們的需求,重點優化了“雙語故事”和“雙語對話”這兩個模板。我們甚至還投入精力去處理更細節的問題,比如阿拉伯世界不同國家和地區的方言差異,以確保生成的音頻更貼近當地的使用習慣。
精準高頻的場景,比一味地追趕模型上限更能打動用戶
硅星人: 這點從你們的產品上似乎也能看出來,做細分的模板,去打到更多的精準用戶。
王詠剛:是的。現在很多AI工具,都太像一個“萬能的工具箱”了。它把所有強大的零件,比如文生圖、圖生視頻等,都擺在你面前,然后告訴你:“你可以用這些創造任何東西”。這對于專業人士或者目標明確的用戶來說很好,但對于絕大多數普通人來說,門檻太高了。他們面對一個空白的輸入框,往往第一個問題就是:“我該干什么?”
而我們的模板,本質上就是針對某個高頻場景,提供的一套“最佳實踐”或者說“一鍵解決方案”。我們不想只給用戶一把錘子,我們想直接給他一個已經設計好的、能快速組裝的椅子。
硅星人: 可以舉一些例子嗎?除了現有的故事博主和阿拉伯世界的老師這兩個已經得到驗證的場景,你們之后還會擴充到哪些新的模板類型?打算如何擴展呢?
王詠剛:比如說,市場營銷模板:這是個巨大的市場。一個用戶想為他的小產品,哪怕只是一支筆或一件衣服,制作一個簡單的小廣告視頻。在這個場景下,用戶的核心需求就變了。他會特別關心產品的logo、圖案是不是能準確無誤地合成到視頻里,產品在視頻中以何種方式出現,整個視頻的風格是不是能像一個合格的廣告片。這和教育用戶關心的點完全不同。
還有理科教育模板,之前我們在文科教育,特別是語言教學上獲得了成功,下一步自然會延伸到理科。比如,如何用視頻生動地講解一道數學題?可以肯定的是,理科教學對邏輯準確性的要求極高,這也是我們要攻克的難點。
可以說,有非常多的場景,但方法論是一以貫之的:先確定垂直場景,然后深入挖掘這個場景里用戶的核心需求和側重點,最后再去打造和優化模板。
硅星人:這就像美圖秀秀和Photoshop的區別。Photoshop無比強大,但99%的人可能永遠學不會。而美圖秀秀抓住了“讓自拍更好看”這一個最核心的痛點,把它做成了一鍵式的模板化功能,所以它能服務數億用戶。
王詠剛:是的,我們做的也是同樣的事,只不過領域從圖片變成了視頻。無論是“雙語教學對話”,還是“商品營銷視頻”,我們都是把一個復雜的創作流程,打包成一個普通人點幾下就能完成的模板。大廠或許能做出更強大的通用模型,但他們很難有精力深入到如此細分的垂直場景中。
硅星人: 那生成成本如何呢?現在的視頻生成普遍都很貴,這也是因此,很難達到真正的PMF(產品市場契合點)。
王詠剛:我們希望用戶在幾塊錢人民幣的預算內,就能做出一個能動的視頻。成本控制是我們能實現“普惠”的關鍵,主要有兩方面原因:
第一,技術選型。我們在圖像和視頻生成上,大量采用的是優秀的開源模型,而不是直接調用昂貴的閉源模型API。
第二,深度的推理優化。這是我們的核心技術競爭力之一。我們有專門的算法工程師,將業界所有主流的推理優化技術,如低分辨率生成再放大、TensorRT層面的算法優化、工作流優化、內存加載優化等,都應用到了我們的服務中。通過這一系列精細化的工程優化,我們可以將一個標準部署下成本為“1”的開源模型,降低到“0.1”左右。這個優化能力,與專業的MaaS(模型即服務)廠商是處于同一梯隊的,這也是我們能持續運營、不完全依賴融資的關鍵。
創業,找到一個信仰的支點
硅星人: 團隊目前大概是什么規模?人員構成是怎樣的?
王詠剛:我們團隊現在總共大約20人,構成上基本是一半對一半。有10個人左右負責算法研發,也就是剛才提到的那些與3D、專業工作流相關的技術探索;另外10個人則負責Mootion.com這個產品的工程實現和日常運營。
硅星人: 您現在在團隊里具體扮演什么角色?會負責哪塊技術方向嗎?
王詠剛:我還會寫代碼。我們團隊最新的、實驗性的代碼基本都是我寫的,尤其是一些和B端專業團隊合作的探索性項目。我先把原型跑出來,一旦驗證了可行性,或者發現可以在C端產品上應用,再交給團隊去把它做得更完善。
硅星人: 您是一位經歷豐富的“老兵”,從Google到創新工場,再到親自下場創業,為什么在眾多AI方向中,選擇了視頻生成工具?
王詠剛:這里面有兩層考量:一層是戰略判斷,另一層是個人熱情。
從戰略上講,我堅信多模態一定是未來的方向。純文本或純圖像的AI已經非常擁擠,而視頻是多模態技術的終極體現,它融合了文本、圖像、聲音和時間序列,是最難但也最有價值的領域。所以我們必須選擇這個方向。
而恰好,這個戰略方向完美地契合了我的個人理想。我可以說是一個“精分”的人,我既是一個寫了多年代碼、現在依然在寫代碼的技術人,同時我的另一半頭腦又對內容創作充滿了熱情。我出過小說,寫過詩,業余時間會跟著電影劇組學習。AI的出現,第一次讓我看到了將我這兩個分裂的熱愛融合在一起的可能。
我在谷歌時,用20%的業余時間參與過Google Doodles(谷歌首頁涂鴉)項目,那是我第一次在一個專業的藝術創作流程里寫代碼,團隊里美術師比程序員多。那個時候我就覺得,2D、3D動畫、藝術和程序,這幾件事的結合在未來有巨大的探索空間。
所以,我希望自己通過創業,能讓每一個普通人都能體驗到這種創作的快樂,讓他們想講一個好故事、想給自己的小產品拍個廣告片時,都能擁有這個能力。
硅星人:理想很豐滿,您創業Mootion之后,有哪些時刻會覺得現實很骨感嗎?
王詠剛:從我做AI這么多年來看,這些困難我都能想到,但當你真正身處其中時,還是會覺得非常難。
所有AI創業,都面臨一個普遍的困境:AI的炒作周期(Hype Cycle)效應特別明顯。每當一個新技術出現,投資人、創業者甚至用戶都會覺得“問題已經被解決了”,但實際上,離真正解決問題還非常遙遠。
其實,AI創業最難的事情就在于:你手里拿著一把還沒完工的錘子,卻要面對世界上無數真實的釘子,你不知道該怎么敲。
這個根本性問題從2016年的AlphaGo時代就存在,直到今天的大模型時代依然如此。 你看到的模型迭代很快,今天多一個功能,明天多一個功能,但它離成為一把能輕松敲釘子的完美工具,差距巨大。 我們常說的“AI只有50分”,就是這個意思。
今天的AI創業,本質上是由“信仰”維系的。如果我相信現在的技術已經能解決問題了,那創業公司就不要做了;相反地,如果我們不相信AI能從今天的50分,最終進化到80分甚至100分,今天99%的AI創業公司也都不要做了。信仰在支撐著我們持續不斷地探索這個領域新的可能性。
點個愛心,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.