2025年6月6日-7日,第7屆北京智源大會將以線上+線下聯動的形式召開,6日下午推出“大模型產業CEO”主題論壇,邀請業內知名專家學者、大模型領域領軍企業CEO。
愛詩科技CEO王長虎發表了主題演講——“PixVerse(拍我AI)如何打造一個受人喜愛的產品”,他介紹了PixVerse的發展歷程,以及影響其發展的三個關鍵決策。
以下是演講亮點:
- 我們的認知是視頻是最貼近用戶的內容形態,視頻生成一旦能夠落地,其產品化和商業化的潛力可能不亞于大語言模型。
- Sora出現讓視頻從一個非共識的狀態,變成了一個非常熱門的方向;
- ChatGPT出現后,很多人認為在大語言模型領域,中國落后美國很多。但因為ChatGPT太火了,這種認知被擴大到了整個AI領域,好像中國全面落后于美國。但實際上,過去幾年我們在抖音和TikTok上做的工作,以及我們團隊在視頻AI能力方面是領先全球的。
- 從全力投入視頻生成的那一刻起,我們的愿景就是幫助每一個人成為生活的導演。有了這個目標,后續的方向就很清晰了:我們要做好兩件事情,一是如何降低普通人的創作門檻,二是如何提升普通人的創作體驗。
- 我們決定先做ToC,再做ToB。我們認為我們是一個全球化團隊,伴隨著抖音和TikTok的發展,我們積累了全球化的經驗和資源。在有限的資源下,我們優先選擇海外市場,然后再拓展國內市場。
- 好的模型帶來了好的產品,有了這個認知之后,我們要做得更好,我們要做更好的模型。
- 企業是有生命的,就像一個小孩,你的孩子。創始人的經歷、認知、經驗會影響每一個決策,你的孩子總是像你。但孩子在成長過程中,如何去教會他面對困難時勇往直前的勇氣?如何讓他在各種極限壓力下變得更堅韌?小孩難免會犯錯,但不能犯大錯,否則公司就完了。要有快速糾錯的能力,摸著石頭過河,邊做邊學,持續成長
以下是演講原文:
大家好,我是愛詩科技的王長虎。很榮幸這次被邀請來到智源大會的大模型產業論壇上進行分享。一年前,我主要分享的是技術方面的內容。但過了一年,總得有點進步,是吧?所以今天我想和大家聊聊產品。今天的主題是“PixVerse(拍我AI)如何打造一個受人喜愛的產品”。PixVerse這個名字有些拗口,因為它是一個海外產品。為了方便大家,我們今天給它起了一個中文名字,叫做“拍我AI”。其實,這次分享并不是一個成功的經驗總結,因為我們依然處于創業階段,大家都知道,創業就像在刀尖上行走。所以,我今天介紹產品發展歷程的同時,也想分享一下我這兩年創業過程中的心路歷程。其實,就是給大家講一個故事。其中,我會重點介紹三個影響我們發展的關鍵決策。
剛才看到大海兄的PPT,做得非常棒,而我的PPT沒那么高大上,每一個字都是我自己寫的。我想知道有多少人了解PixVerse這個產品,我很開心看到還是有不少人知道的。不過,它在國內的知名度并不高,因為它是一個海外產品。所以,我先用這一頁PPT簡單介紹一下這個產品的現狀。
在過去的一年里,愛詩科技的模型在全球范圍內一直處于領先地位。這個評測是在一個特殊的時間點進行的,那就是2024年12月,當時Sora發布后,過了十個月才姍姍來遲,正好可以進行評測。第三方的評測結果與大家的認知一致:當Sora真正上線時,它已經不在第一梯隊了。大家會發現,第一梯隊的前三名分別是可靈、海螺和我們PixVerse。目前來看,這三家依然是全球用戶量最多的三大圖像生成產品。
同時,我們的產品發展迅速。我們的移動端于2024年12月正式上線,不到一個季度的時間,也就是在2025年2月,全球知名的投資機構a16z發布了一個全球100大人工智能應用排行榜。在移動端的排行榜上,我們排到了第52位。如果把我們的網頁端也列入排名,應該能進入前20名。從去年10月份之后,我們的用戶量增長非??欤侥壳盀橹梗禄钴S用戶數已經超過了1600萬。當然,這也帶來了營收的快速增長,不過有些數據我就不方便透露了。
回到兩年前,作為一名在人工智能領域已經闖蕩了20多年的老兵,很多人都問我,為什么那么想不開要出來創業?尤其是在2023年,整個融資環境非常差。但激勵我邁出這一步的,是因為我們看到了一個新時代的到來。所以,我們在2023年4月走上了創業之路,這也是我們公司成立的時間。事實上,從ChatGPT在2022年年底上線后,我們就開始籌備創業了。
1、出來創業要做什么
所以,我們面臨的第一個重要決策就是:出來創業要做什么?這并不是一個容易回答的問題。特別是兩年前,大家看看今天的論壇,一半以上的人都是做視頻的,對吧?但兩年前的情況可不是這樣的。當時,大語言模型的公司融資金額高達數百億、數十億甚至數億美元。而視頻生成賽道卻冷清得很,只有少數幾家公司。比如,Runway已經成立五六年了,當時融了數百萬美元,海外還有一個叫Pika的公司,也是類似的情況。相比之下,就像螞蟻和大象的關系,大家能感受到視頻生成賽道有多冷清吧?
當時,99%的投資人都跟我說,包括行業專家也說,視頻生成五年內沒法落地。因為當時最好的模型也不過如此。而圖像生成領域,Midjourney已經跑出來了,年營收達到1億美元。而且有了開源模型,你可以很方便地開發應用。所以,當時很多人建議我們,別做大模型了,因為大模型很燒錢。而且,看好大模型行業的人不會投我們,因為他們覺得大模型沒前途;而看好大模型賽道的人也不會投我們,因為前面有大語言模型,那個領域更令人興奮。當然,應用側也有很多機會,比如可以做游戲、廣告,直接變現。
但我們團隊的認知是:既然我們有文生圖和大語言模型的技術,為什么不做視頻生成呢?過去我在字節跳動陪伴抖音TikTok成長了好多年,我們的認知是視頻是最貼近用戶的內容形態。如果當時不做視頻生成,那就沒有道理了。所以,我們選擇了一個在當時并不被看好的方向,但我們內心認為這是正確的事。
我們決定全力投入視頻生成領域,因為我們堅信視頻生成一旦能夠落地,其產品化和商業化的潛力可能不亞于大語言模型。另一方面,我和我的團隊曾經支撐過抖音、TikTok這些世界級產品的背后視頻AI能力發展,我們有信心能夠做出成績。基于這兩點,我們沒有理由不做這件事。一旦做了這個決策,我們發現很多事情就比較順利了。
這是一個時間線。我們在4月份成立公司,真正從7月份開始全力投入訓練視頻生成大模型。僅僅三個月的時間,到了10月份,我們就已經進入了全球第一梯隊。我們在2024年1月正式在海外上線了網頁端。一個月后,也就是2月份,我們在各種排行榜上已經沖到了前面。
這是去年智源研究院和中超媒大學做的一次非常專業的評測。當時,我們的第一代模型表現不錯,雖然有些指標可能并不完美,但我們在全球范圍內排名第二,在國內排名第一。當然,我們不能只看模型的排名,還要看產品本身的表現。我們在1月份上線后,僅一個月的時間,就在各種增速榜單上穩居第一名。雖然新產品的增速快是正常的,但大家更關注的是訪問量的絕對值。當時,我們剛上線第一個月的訪問量就已經和當時最著名的大語言模型產品,比如 豆包、Kimi,處于同一個量級。這對我們來說是非常令人興奮的事情,一切似乎都很順利。
但是,大家還記得嗎?2024年1月我們正式上線,在海外取得了非常好的口碑,大量用戶開始使用。然而,到了2月份,Sora突然橫空出世。春節期間,我的微信響個不停,很多關心我的人給我發消息,問我:GPT出來后領先這么多,你們公司是不是就完蛋了?Sora出現后,你們是不是已經落后很多了?當然,現在我們知道Sora當時只是一個幌子,但它確實忽悠了不少人。
所以,很多人發來關心的消息,包括我們的投資人也很焦慮,我們的同行和朋友也很擔心。但也有好的一面,因為Sora的出現,讓這個方向逐漸形成了共識。我們非常想要招攬的人才,突然給我們發來消息,表示要加入我們。這些人后來在公司的發展過程中起到了非常重要的作用。
2、Sora出現后,我們是跟還是不跟?
這引出了我們的第二個重要決策:Sora出現后,我們是跟還是不跟?這是一個很重要的問題。因為這個方向從一個非共識的狀態變成了一個非常熱門的方向,留給小公司萎縮發展的機會結束了。很多大公司、大廠,比如Google、字節跳動、快手,以及融資金額是我們幾十倍的大模型公司,紛紛加入競爭行列。競爭變得更加激烈了。
形成共識之后,融資環境在2024年比2023年更差。很多人擔心我們是不是已經落后Sora很多了,還有沒有機會?我們的資金實力沒有那么雄厚,怎么和人家競爭?雖然我們過去一年的發展還算不錯,也拿到了第二輪融資,但宣傳大模型需要的資源是過去10倍的。我們面臨一個抉擇:是繼續訓練大模型,還是放棄轉身做應用?這是一個生死存亡的時刻。我們的現金流只能支撐一次機會,如果訓練不成功,就徹底完蛋了,沒有第二次機會。在這種情況下,我們該怎么選擇?
但要知道,創業就是勇往直前,既然已經邁出了第一步,第二步又有什么好怕的呢?所以我們決定全力投入,但這并不是盲目的。
首先,我們是有前瞻性的。早在2023年,Sora還沒有發布的時候,我們在和投資人規劃路線圖時就已經設計了DIT架構,并且明確計劃在第二年的春節前后,當我們拿到第二筆融資后,利用這些資金來支持我們訓練更大規模的模型。如果不是Sora先發布,說不定我們才是第一個做出來的。所以,我們認同并且堅信這個路線。
第二點,我們對自己團隊的能力有信心。大家都知道,ChatGPT出現后,很多人認為在大語言模型領域,中國落后美國很多。但因為ChatGPT太火了,這種認知被擴大到了整個AI領域,好像中國全面落后于美國。但實際上,過去幾年我們在抖音和TikTok上做的工作,以及我們團隊在視頻AI能力方面是領先全球的。這是我們的真實認知。因此,我們相信我們有能力做好這件事,并且能夠以十倍的效率、十倍低成本地完成。
當時,很多媒體朋友問我們:“你們什么時候能趕超GPT?”我很謹慎地和技術團隊仔細評估后,覺得3到6個月是合理的。我們不想被打臉,所以非常謹慎地給出了這個時間范圍。實際上,后來的發展證明,雖然有些吹牛的嫌疑,但我們基本實現了這個目標。
從1月份正式上線,到2月份月活用戶數就超過了百萬。我們在三四月份開始籌備訓練大模型,采購了很多機器設備,并搭建了DIT架構。僅僅三個月后,也就是7月份,我們正式上線了PixVerse的產品。在愛詩科技和PixVerse沒有發布這個概念之前,我們直接上線了產品,所以我們在創業公司中大概是最早上線的。又過了三個月,也就是10月份,我們正式上線了V3版本。如果大家還記得我們在第一頁PPT上提到的內容,就會發現我們的用戶量和營收都是從10月份開始快速增長的。這是一個重要的轉折點。大家也可以看一下V3版本發布時的視頻。
這是我們的產品頁面,我們有一個功能選項叫做“Effect”(特效),里面有多種特效模板。大家是不是覺得第一個很熟悉?沒錯,就是“毒液”特效,它非?;鸨?。
雖然我們是一個海外產品,國內用戶可能無法直接使用,但它在抖音上意外地火了起來。如果你仔細觀察,幾乎每個相關視頻上都有一個“PixVerse的logo,這種病毒式的傳播效果非常好。當然,我們也有一些明星因為流量太大而自發模仿。它火到什么程度呢?在咸魚上,你搜索“AI”,推薦的都是PixVerse的毒液特效生成內容,最貴的甚至賣到18塊錢一個。因為PixVerse是一個海外產品,所以在國內火了之后,海外的熱度也更高。我們在各種社交媒體上都爆火,而且不止是毒液特效,很多其他內容也都火了。全球熱度持續發酵。這里有一些數據,這是中國AI產品出海增速的排名,我們排在了第二名。11月份的訪問量直接增長了近80%,在所有中國AI產品中排名第二,而且我們的流量已經遠超第一名。
我特別喜歡張一鳴說過的一句話:“務實浪漫”。很多人會覺得務實和浪漫怎么能放在一起呢?但我們認為,我們第二個決策——全力投入視頻生成這件事,就是一個務實又浪漫的選擇。當時真的是背水一戰,資金只夠訓練一次,如果犯了大錯誤就再也沒有機會了。所以,我想再和大家分享一下我們的一些觀點。
做容易的事不是務實,短期投資也不是務實,做正確的事才是務實。我們堅信我們選擇的方向是正確的。認識世界的多樣性是務實,而多樣性本身就是一種務實的表現。很多人選擇做大語言模型,而我們選擇做視頻,這就是獨立思考,穿越喧囂。有生命力、面向未來、擁抱不確定性,這些都是浪漫的體現。我們所做的事,正是如此。V3的成功背后有很多力量,包括我們過去全力投入視頻生成的思考,背水一戰的決心,以及我們稱之為“行勝于言”的技術成果。不過,大家可能注意到,這些都還是關于技術的。那么,產品呢?
3、做ToB還是ToC?
這就引出了我們的第三個戰略決策:要做什么樣的產品?V3的成功是技術和產品的雙重成功。
做ToB還是ToC?早在創業初期,我們并不確定,但當我們全力投入之后,目標就變得清晰了:我們要服務哪些用戶?如何設計我們的產品?從全力投入視頻生成的那一刻起,我們的愿景就是幫助每一個人成為生活的導演。
但具體是先做ToB還是ToC?我們決定先做ToC,再做ToB。我們認為我們是一個全球化團隊,伴隨著抖音和TikTok的發展,我們積累了全球化的經驗和資源。在有限的資源下,我們優先選擇海外市場,然后再拓展國內市場。我們的目標是讓每一個能玩抖音、TikTok的人成為生活的導演,讓幾十億普通人能夠使用我們的產品。有了這個目標,后續的方向就很清晰了:我們要做好兩件事情,一是如何降低普通人的創作門檻,二是如何提升普通人的創作體驗。
我們再回頭看看那個爆點,毒液變身為什么能成功?用戶只需要上傳一張照片,然后選擇一個模板,比如肌肉模板,哇!不需要輸入Prompt(提示詞),就能生成這樣一個視頻。他們也可以選擇毒液變身,大家很熟悉吧?還可以一起搖擺,是不是很好用?所以V3為什么成功?首先,我們做到了降低創作門檻,不再需要輸入Prompt,只需上傳一張照片就OK,每個人都能做到。
第二,我們提升了創作者的體驗。要知道,在此之前,所有產品都在服務于那些有明確創作目標的創作者,他們可以容忍一些不完美的地方。比如,生成10個視頻才有一個可用,抽卡概率是1/10;生成5個視頻才有一個可用,抽卡概率是20%。普通人誰會去用?生成第一個視頻不滿意,他們就不會生成第二個了。我們的成功之處在于,我們將抽卡成功率直接拉到接近100%。任何一個普通用戶,哪怕是沒有經驗的用戶,生成第一個視頻就能成功,他們就會去傳播。
所以,去年2024年4月和10月,我們的V3和產品上線,這是第一次真正讓普通用戶、普通消費者用AI能力創造出過去無法創造出來的視頻。在我心中,這一刻才是視頻生成的“GPT時刻”——好的模型帶來了好的產品。當然,這個火了,誰都能看到,同行們也都看到了,所以他們快速上線了類似的毒液變身能力。但好的模型帶來好的體驗,為什么說V3是全球最能打的模型?我們不是只看榜單的數據,而是通過對比來看。左邊是一個同行的產品,左右變身是一個非常重要、非常強的同行,他們當時也上線了類似的能力。
上傳這樣一張照片,看看它是怎么變身的?這個轉場不太自然,生成的毒氣和人物不太相關。大家會去傳播這樣的視頻給自己的朋友圈嗎?右邊是我們的產品。所以,用戶喜歡是因為模型好。有了這個認知之后,我們該怎么辦?我們要做得更好,我們要做更好的模型。
毒液變身火了之后,大家對毒液的印象可能更深刻,還是對PixVerse的印象更深刻?很容易說,這個東西很多家都有,毒液變身能力很常見,那到底是毒液變身火了,還是PixVerse火了?這是一個佐證:這是GoogleTrends上的搜索指數。我們從10月初開始,搜索指數(藍色曲線)直線飆升。中間兩條曲線分別是全球最好的視頻生成模型產品Sora和Runway。Runway的曲線虛高是因為“Runway”是一個常見單詞。我們的搜索指數已經遠超它們。所以,視頻生成的“GPT時刻”不是毒液變身火了,而是PixVerse火了。
既然我們要做更好的模型,速度也很快。我們在10月上線了V3,12月上線了V3.5,因為我們覺得普通用戶沒有耐心等待視頻生成。過去,視頻生成大多是分鐘級別,一分鐘、幾分鐘甚至十幾分鐘。我們直接將其縮短到十秒以內,這就是V3.5。這樣我們就可以支撐移動端APP上線這個產品,普通用戶就可以使用了。否則,普通人不會花那么多時間等待生成。2月我們上線了V4,速度更快,還支持實時生成效果。5月上線了V4.5,每一代都有巨大的進化。我就不詳細介紹了,只說一些亮點。比如V3.3.5是全球最快的視頻生成模型,當然也有其他能力,比如我們提供首尾幀生成。用戶上傳一張視頻的首幀和尾幀圖片,我們就能生成從第一幀過渡到最后一幀的視頻。比如,打開一扇門,鏡頭鉆進去,看到一個新世界。視頻里的所有鏡頭都是用這個能力生成的,這樣給大家提供了更多玩法。
模型好不能自吹自擂,產品好也不能自吹自擂。這是1月份的時候,全球AI產品增長榜上出現了一個歷史性事件:Deepseek橫空出世。當時,在訪問量和增速上同時超過我們的只有Deepseek。
2025年2月,V4上線了,它不僅更快,幾乎5秒鐘就能生成5秒鐘的視頻,幾乎接近實時。同時,它讓視頻生成進入了有聲時代。大家知道最近的 Veo3上線了帶聲音的生成,但實際上我們早在2月就已經上線了。大家可以看一下過去的視頻,過去媒體傳播時的聲音都是創作者后期添加的,而我們是同時生成的。
當然,也可以指定視頻中的人物說哪些話,口型也能對上。很多其他能力我就不具體介紹了。AI發對象這個功能是2月上線的。到了4月,這是中國產品出海總榜(移動端),剛才提到的是網頁端。在所有中國AI產品中,出海產品在月活躍用戶(MAU)和增長上超過我們的只有 Deepseek,所以也很令人敬仰。2025年5月,也就是上個月,我們的V4.5正式上線,它帶來了非常多的功能,進階的消費者也能創作電影級的內容,包括多角色聯動的能力。大家可以看一下這個視頻,體現了各種專業運鏡。你的小貓比底更會運鏡,可以看到各種專業的運鏡,多個主體快速推進。什么叫多主體?就是上傳兩張照片生成一個視頻,主體在這個背景里暢游。這就是生成的內容。
5月其實發生了一件讓我們非常開心的事情。一大早起來,同事和朋友給我發消息說,在美國的總榜上,iOS總榜上,我們跑得很前面。這是美國的總榜,第一個是所有APP的總榜,我們排到第四名。可以看到,排在前面和后面的包括GoogleMap、剪映、WhatsApp,當然還有一些半隱藏的,比如TikTok。在“PhotoandVideo”這個榜上,我們排到了第一名,后面是剪映、Instagram、YouTube、Canvas、SnapChat等等。我們非常開心,雖然不可能一直霸榜,但那一刻我們非常開心。目前,已經有超過6000萬用戶在使用PixVerse。大家很好奇,這些人用它來干啥?大家可以去TikTok里搜索PixVerse,可以看到很多用PixVerse生成的視頻,用戶是怎么用的。
噢,這首歌沒放出來,因為時間關系,我就跳過去了,大家可以自己去看一下。1月份的時候,我們的產品在國外已經非?;鸨?,很多B端客戶,也就是企業用戶找到我們,說能不能用你們的API?我們有很多能力可以用,我說我們已經有基于超過6000萬用戶的最佳實踐了,我們知道他們喜歡什么,愛用什么,怎么用。這些能力真的可以賦能全球的B端客戶。所以從1月份開始,我們逐漸開展B端業務,支持各行業的API和定制化視頻生成,覆蓋了非常多場景,比如互聯網營銷、電商等等。
這里就不多介紹了。但我們的產品依然是海外產品,大家在國內的APPStore上搜索,全是盜版。很多人跟我說你們產品不好,我說我們也沒上線。所以應用戶的要求,我們籌備了幾個月時間,今天正式在國內全面上線公測,名字叫“拍我AI”。它很全面,在國內各應用商店都可以下載,包括網頁端。它是最新的,對齊了PixVerse最新的模型和所有功能。同時,它是一個中國化的模型,有中國風、中國味的模板和內容。
同時,我們有一個新的域名,因為PixVerse 太繞口了,對中國用戶來說太不友好。我們給它起了一個名字叫“拍我”,所以域名是“拍我AIPadvideo”,很好記。同時,我們的B端服務也全面升級。拍我AI,這個名字對英語不好的人來說可能有點像,但它有自己獨特的命名原因。大家可以看一下,這些視頻鏡頭都是由拍我AI生成的。
特別幸運,創業兩年依然留在牌桌上,一切又似乎很美好。但這里為什么又似曾相識?跟去年年初很像。創業之路任重道遠,需要在刀尖上求生存。我們有很多競爭對手,過去兩年其實有很多同行被落下,但真正觸動我的是今年上半年,我們一直在關注的一個產品——Hyper突然暫停服務了,這讓我觸動很大,因為它一直在我們的競品名單上。
創業很不易,未來還有很多挑戰,技術迭代快?如何持續保持在第一梯隊?過去兩年的成功并不代表未來兩年也能成功。大模型很燒錢,我們不像大廠那樣有雄厚的資金,但我們能高效地花錢,不過依然需要燒錢。如何持續融資?如何確?,F金流的健康?如何加速商業化?不止于做一個工具,如何做好產品差異化?如何建立競爭壁壘?如何應對大廠的競爭?如何應對開源生態?這些都是未來愛詩科技、PixVerse以及 拍我AI需要進一步思考的問題。
其實,過去這兩年我是懵著創業的,一頭扎下去,然后再想下一步該干啥。所以,過去兩年的三個重要決策,深刻影響了產品的發展。其實都是在邊做邊學。學到的一個很重要的點是:企業是有生命的,就像一個小孩,你的孩子。創始人的經歷、認知、經驗會影響每一個決策,你的孩子總是像你。但孩子在成長過程中,如何去教會他面對困難時勇往直前的勇氣?如何讓他在各種極限壓力下變得更堅韌?小孩難免會犯錯,但不能犯大錯,否則公司就完了。要有快速糾錯的能力,摸著石頭過河,邊做邊學,持續成長。因為時間有限,很多其他認知就沒辦法在這里展開了。
其實,創業這兩年是很孤獨的,尤其是當你跟99個投資人聊過,又跟第100個投資人聊,前99個都不看好你的方向,你會很孤獨。創業是一段孤獨的旅程,就像在戈壁灘上獨自行走。但同時,它又是一場非常幸福的修行,你會遇到很多懂你的人,和你一起戰斗的人。你可以看著你的“孩子”逐漸有性格,變得越來越強壯,這是一件非常開心的事。最后,我想向這個時代最有夢想的人致敬,謝謝大家,謝謝!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.