DiT不是終局,自回歸架構有很大潛力。
作者|趙健???
上周,「甲子光年」采訪了智象未來創始人兼CEO梅濤。
梅濤告訴我們,智象未來計劃在4月份開源圖片生成模型,生成質量有非常大的突破,可以說將是圖片生成領域的“DeepSeek時刻”。
巧合的是,就在采訪結束的第二天,OpenAI上線了原生圖片生成模型GPT-4o,憑借令人驚艷的吉卜力風格為代表的圖片編輯能力而風靡全球社交網絡。
真是一場狹路相逢。
不過,GPT-4o仍然是一個閉源模型,智象未來即將發布的是一個開源模型,智象未來仍有機會在開源領域刷新圖片生成能力的新高度。
在這場采訪中,我們不止聊了開源,還聊了更多創業的話題。
對于創業,梅濤有很深刻的體會。他說,2024年之前融資很難,2024年之后融資更難。他基本上每三個月就會經歷一次人生的歷練,必須拿出每一天都enjoy的狀態,否則會非常煎熬。
梅濤是典型的科學家創業的代表。他畢業于中國科學技術大學,在微軟工作的12年間取得了學術上的諸多成就,不僅成為IEEE Fellow和加拿大工程院外籍院士,也是科技部科技創新2030人工智能重大項目首席科學家。后來,梅濤加入京東,擔任京東副總裁和京東探索研究院副院長,開始從學術界向工業界轉型,從做研究、做技術,到做產業、做應用。
梅濤創業沒有選擇大語言模型,而是選擇了圖片與視頻生成。盡管對于算力與資源的要求沒有大語言模型那么高,但這仍然是一個競爭激烈的賽道。海外的Sora、谷歌Veo2、Runway,國內阿里萬相、騰訊混元,以及幾家“六小虎”都紛紛入局。梅濤坦言,在市場聲量與品牌方面,智象未來做得還不夠好。
但市場終局尚未形成。梅濤認為,今天視頻模型的性能,大約類似于“GPT-2時刻”,距離該領域的“ChatGPT時刻”還有一代半左右的差距。
而且,今天的技術迭代速度非常快。梅濤說,以前的技術迭代需要6個月,現在基本上在一個月以內。沒有人會保證今天的第一名一定是三個月之后的第一名,每個創業者都還有機會。
對于創業,梅濤也不只是為了贏,更帶有一份使命感。
梅濤的第一筆融資,來自于一個名為“中喝大”的中科大校友群,由15名中科大校友共同出資,籌集了一支被稱為“中喝大種子一號基金”的創業基金。
這筆基金,也承載了中科大校友對于梅濤的支持。梅濤表示,中科大的培養模式都是偏數理化的科學家,所謂“千生一院士”。但在工業與商業方面,就顯得相對不那么突出。
梅濤想做其中的破局者。他說:“我創業不是代表一個人創業,是代表中國的科技型專家創業,投身到一個新的時代,要趟出一條路。如果我的技術和商業化能夠打通,那么我的故事應該被復制,啟發更多的人做這件事。”
本文,「甲子光年」專訪梅濤,復盤過去兩年漫漫創業之路。
1.談創業契機:一輩子要是不創業,好像有點不完整
甲子光年:你既有學術界背景,又有工業界背景,為什么選擇創業?
梅濤:我覺得人這一輩子要是不創一次業,好像有點不完整。最原始的沖動還是想自己主導一件事。我原來在微軟做研究,后來在京東做技術,后來又開始做產品、做業務,其實一直都是在給創業做準備。現在創業兩年,感覺自己成了一個“六邊形戰士”,不僅要管業務,還要融資、搭建團隊。雖然這個過程很難,但我覺得人總要經歷、磨礪一下。
而且有幾個創業的條件已經成熟了。第一,這一代創業是硬科技創業,跟以前的互聯網、移動互聯網模式都不一樣。以前是模式創新,草根都能參與,但這一代創業的機會留給了有科技實力的創業者;第二,這一波AI是顛覆性的,能極大地提高效率和生產力。
甲子光年:決定創業之后,是如何選擇創業方向的?
梅濤:我出來創業其實有兩個選項,一個是機器人方向,就是現在的具身智能;另一個就是大模型方向。我從京東出來后,花了兩個月時間瘋狂調研,發現機器人賽道已經有點擁擠,2015年左右成立的很多工業機器人公司已經讓這個賽道變成紅海了。而大模型是全新的技術,跟我以前在京東、微軟做的技術完全不一樣,我感覺大模型很符合我們團隊的稟賦。
甲子光年:你為什么選擇做圖像與視頻模型,而不是大語言模型?
梅濤:第一個原因是我們本身是做視頻技術出身。2017年,我們就在ACM Multimedia大會發表了論文《To Create What You Tell: Generating Videos from Captions》,這應該是世界上第一篇研究文本生成視頻的技術論文,這篇文章的主要作者都在我們公司。這個技術是用GAN(生成對抗網絡)做的,效果一般,當時覺得這條路不一定能走通。
第二個原因是,我們當時清楚大語言模型需要大量的算力和融資,2023年需要千卡,2024年需要萬卡,這是一個贏者通吃的領域。對于中國的創業公司來說,籌集這么一大筆資金有一定難度,要跟上大廠的競爭步伐也有難度。
視頻行業這個賽道不需要太大投入,規模可控,而且離商業化進展最近。比如去年,全球AIGC約200億美金的收入中,50%-60%來自視頻和圖像。2023年,Midjourney在這方面的收入已達2億美金,已經驗證了PMF(Product Market Fit,產品市場契合度)。
甲子光年:視頻對算力需求沒有語言模型那么大,具體是怎樣的量級關系?
梅濤:2023年大概是小于千卡級別,2024年應該是千卡級別,還沒有突破萬卡。目前來看,視頻模型基本是幾十B參數量為基準。未來DiT(Diffusion Transformer)架構可能不是終局。或許有新的模型帶來顛覆性改進,那時情況可能又有不同。
甲子光年:為什么公司的總部在合肥,而不是北京或上海這樣AI產業更發達的城市?
梅濤:我曾在中科大求學十年,中科大可謂是我的第二故鄉。中科大的校長,無論是當時的包校長還是如今的常校長,都對我們寄予厚望。中科大的校友們,包括我的師兄、科大訊飛董事長劉慶峰,也期望我們能夠回歸合肥。
我的第一輪融資,來自一個名為“中喝大”的中科大校友群,這個群的15個中科大校友組成一個合伙人LLP,來支持了我們的第一筆融資,這筆錢被稱作“中喝大種子一號”。
當然,安徽省也非常重視我們,期望能打造出第二個科大訊飛。安徽省擁有像中科大這樣的高校,能夠提供大量的AI人才,這對于我們而言,是一個理想的研發大本營。
甲子光年:公司的中文名叫智象未來,英文名叫“Hidream.ai”,有什么含義?
梅濤:因為我們從事多模態領域的工作。多模態涵蓋了圖像、文字、視頻、3D等,未來或許還會有4D物理模型。所以當時我們想到“智象”這個名字,“智”代表智慧、人工智能,“象”代表萬象,它在中國文化中意味著包羅萬象。因此,“智象未來”代表著對未來科技的一種展望。
中英文名字之間沒有特別強的對應關系。當時我們起了很多名字,還進行了國際征集,畢竟我們的產品會面向他們。他們覺得“Hidream”這個詞朗朗上口,代表著一種高遠的夢想,我們也認為這個名字不錯。
2.談技術:DiT不是終局,自回歸架構有很大潛力
甲子光年:你們團隊是世界上最早研究AI視頻生成的,當時有預判到“Sora時刻”嗎?
梅濤:我們有預測,但不知道誰能做出來,也不知道時間點,因為這種技術從0到1的創新有一定偶然性。我們2023年做了第一版Unet模型,2024年想做Diffusion模型,但資源不夠,不像OpenAI有那么多人和卡。等OpenAI做出來Sora之后,給了我們很多啟發,所以我們2024年很快完成了DiT架構的模型并上線。我們團隊緊跟技術前沿,也在探索新事物,比如2025年,我們的模型不再是純的Diffusion架構,而是DiT加AR(Auto Regressive)模型。
我們現在的新模型叫“自回歸擴散模型”,比Diffusion領先了一代。
甲子光年:自回歸模型不用疊加擴散模型也可以單獨生成視頻。
梅濤:對,自回歸模型有局限性,可能速度快、跟隨性好,但生成質量不如Diffusion,尤其是在視頻中的AR方面,完全不夠。所以我們把Diffusion模型和AR模型結合在一起,這是一個很大的創新。
甲子光年:如何評價你們團隊的技術水平?
梅濤:投資人對我們有兩點評價很準確。
第一,我們團隊永遠跟在技術前沿,對技術框架和技術發展路徑的判斷非常穩健。
第二,我們團隊一直是精細化運營,我們模型的訓練、推理的ROI(投資回報率)非常高,訓練費用幾乎是業內平均水平的1/5。我們公司人數現在不到50人,人效特別高。
甲子光年:訓練費用是別人的五分之一,這是如何做到的?
梅濤:我們應該是國內乃至全球,很少見的由“雙模驅動”的AI公司。我們實際上有兩個模型,一個是圖片生成模型,一個是視頻生成模型,創作者可以在我們社區獲取端到端、全棧式服務,無需在不同的圖片、視頻模型之間切換。
因為有了雙模,我們可以先在小批量的圖片上進行驗證——圖片的訓練成本要比視頻低很多,再去視頻上做大規模推廣。“雙模”的前瞻設計,使得我們能夠把訓練成本降低到至少1/5,同時效果上訓練與推理都能達到業內最優。
甲子光年:“雙模”的設計是從第一天就確立的嗎?
梅濤:如果你回看我們的產品發布時間,在2023年8月圖片模型上線的時候,視頻模型也上線了。當然,以現在的眼光看,那時候的視頻效果慘不忍睹。我們當時就篤定,我們的終極目標不是做一個圖片生成產品,而是要做視頻生成產品,因為視頻生成產品的市場要大得多。
HiDream.ai的視頻生成效果。提示詞:單手拿著手機對著鏡頭拍照微笑的金發少女,背景下雪的街頭,人群,寫實風格,唯美
甲子光年:現在市場上有很多“多模態模型”,包括文本、圖像與生成。你們之間的技術路線有什么不同嗎?
梅濤:多模態要分清楚理解與生成。如果只是做多模態的理解,其實跟大語言模型是一樣的,完全可以用GPT的路線來做;如果是做生成,目前市場上以DiT架構為主。兩個路線技術不同,客戶、行業、產品形態也不一樣。我們賦能的產業是影視廣告、營銷、設計、教育、文旅這些行業,更加偏重垂直應用場景。
甲子光年:MiniMax去年曾輸出過一個觀點,視頻生成模型的進步離不開基座大語言模型的進步。OpenAI也是同時布局大語言模型與視頻生成模型。智象未來不做大語言模型,這是否會“拖累”視頻生成模型的效果?
梅濤:首先,視頻跟文本有很大的不同。文本的token定義是非常清楚的,而視頻是沒有token這個概念的。從本質上來說,視頻的token化就非常特殊,很難套用一個文本模型來做視頻。
其次,即使做一個近似的token化,視頻的理解是可以用開源模型來做。然而,如果進行深度處理,由于視頻的token化之后是離散的,在后續恢復視頻時,效果就會受到影響。
甲子光年:你們用到開源的大語言模型了嗎?
梅濤:視頻理解用大語言模型來做完全沒問題,但視頻生成是完全不一樣的。在視頻生成中,我們也用到了開源模型,一是通過語言來控制自回歸模型生成的可控性、指令跟隨。二是通過DeepSeek這樣的開源模型,能夠做prompt的一些改進。
我們正在做一個產品,就是一個Prompt Bot,用來交互式地修改視頻內容,這個功能跟Gemini 2.5 Pro的改圖功能是相似的。
所以,大語言模型的開源模型對我們是有利的,可以借鑒很多優勢。
3.談開源:圖片生成領域的“DeepSeek時刻”
甲子光年:你們的圖片模型是自研的還是基于Stable Diffusion這樣的開源模型做的?
梅濤:是完全自研的。如果我們不是自研的話,就不可能在2023年底完成網信辦的備案。
我們將很快開源一個圖片生成模型,性能將會比已有的開源圖片生成模型都要好,屆時有望迎來圖片生成模型的“DeepSeek時刻”。
甲子光年:為什么要將模型開源,驅動力是什么?
梅濤:我們的圖片模型已經做得足夠好了,但圖片模型不是我們商業化的終點,我們希望通過開源模型把社區建設得更好。開源模型帶來的技術影響力、品牌影響力,可能會對視頻的制作帶來更好的迭代。
另外我本人也是做技術出身,我看到圖片領域雖然進展較快,但還達不到做視頻的要求。做視頻對圖片的要求非常高,比如構圖的場景,中景、近景、遠景、特寫,還有一些光影的調整是非常嚴格的。我們希望通過開源的方式,讓別人踩在我們的肩膀上不斷前進,同時也能推動我們視頻的生產。
甲子光年:開源似乎并沒有直接的商業回報。
梅濤:開源與否完全是基于商業模式考慮的。DeepSeek是完全開源的,很像早期的OpenAI,他們比較理想主義,不關心商業化,也不關心產品化,甚至鼓勵別人超越他們。我覺得這是很好的創新態度。但DeepSeek的開源給其他公司帶來了巨大壓力,如果其他公司的閉源模型都趕不上開源模型,那么閉源還有什么意義?
現在很多大模型公司轉向開源一方面是被倒逼的,另一方面他們過去忽視了開源社區的品牌價值和生態影響力。我相信后來很多創始人都意識到了這一點。
甲子光年:你也是受到了DeepSeek的影響嗎?
梅濤:首先從技術角度來說,我們去年就關注DeepSeek了,特別是MoE、強化學習和FP8低精度訓練這些探索。雖然我們也在用MoE這類架構,但像FP8低精度訓練在DiT架構上應用就比較困難,要保證效果需要結合模型自身的結構進行精細調整。DeepSeek真正讓我印象深刻的是他們通過極致的底層系統工程(如算子優化、高效并行通信)來實現低成本、高效率的訓練,讓我們看到了工程優化在降低大模型成本上的巨大潛力。
其次,在技術之外,DeepSeek也讓我看到了開源社區的巨大影響力。盡管短期內可能看不到直接的商業回報,但通過開源,可以快速建立起廣泛的技術聲量、吸引開發者、并催生出一個活躍的技術生態。這一點,我之前確實考慮不多。當然,隨著DeepSeek開源他們的模型,我們以及整個行業也成為了直接的受益者。能夠利用這些高質量的開源大語言模型,無疑會促進我們自身在視頻生成等領域的研究和應用開發。
甲子光年:你們即將開源的模型效果怎么樣?
梅濤:大模型的評測也有很多榜單,比如解數學題、Coding、參加SAT考試等標準流程,圖像生成方面也有很多業界標準的benchmark和對應評測指標,同時我們也會直接交給用戶來進行主觀評測,這樣評測更貼近真實應用場景。
另外,我們即將上線的模型還有不同的尺寸,并且已經完成國產芯片的適配,我們通過架構的提升讓推理速度做到別人的1/3。
由智象未來vivago.ai生成的“微觀世界”圖片效果
甲子光年:哪家國產芯片?
梅濤:已經跟華為和寒武紀做完適配了,主要用于推理生成。
甲子光年:除了開源圖片模型,會考慮把視頻模型也開源嗎?
梅濤:正在考慮中,還沒有一個結論。
甲子光年:主要考慮什么?
梅濤:對于創業公司,開不開源主要由商業模式決定。我們畢竟不是DeepSeek,有幻方大量的資金支持。我們花的還是投資人的錢。
甲子光年:所以開源更適合大廠來做?比如騰訊開源了Hunyuan-Video,阿里開源了通義萬相。
梅濤:我個人認為,像Amazon、阿里這種賣基礎設施云的大廠會開源,因為開源之后能夠把社區構建起來,最后的邏輯其實是賣基礎設施,而不是靠模型或應用來賺錢。而我們這種做應用的公司,就要考慮開源到底對我們意味著什么。
4.談產品:90%靠模型,10%靠產品
甲子光年:你們現在找到產品的PMF了嗎?
梅濤:現在的AI應用都在找PMF,很難有一個通用的指標。ChatGPT五天內就迅速積累了100萬DAU,DeepSeek實現用戶過億只用了20天,這肯定算找到了PMF。我自己認為PMF的標準,如果是收入,MRR單月收入要達到100萬美元;如果是用戶數,DAU需要過百萬,MAU可能要過千萬。
甲子光年:這是一個比較有挑戰的數字。
梅濤:我們也一直在嘗試。我不認為國內有哪家能夠真正做到。
甲子光年:為什么這么難找到?
梅濤:第一,要想做好圖片或者視頻領域的Agent,需要真正能幫用戶干活。第二,用戶的價值要閉環,但現在很多用戶,特別是PGC的用戶,做視頻的過程會用到很多工具來拼接使用,很不方便,而且還要抽卡。第三,視頻的可控性、穩定性和敘事性都還有很大的提升空間。
從商業化的角度來說,如果用戶在一個平臺做完視頻,還必要到另外一個平臺來變現,這種分離的過程是很不友好的,用戶很難為其生成的視頻來定價。如果有客戶或者用戶生成的視頻爆火了,跟我們似乎也沒有直接的關系。因此,我們希望構建一個平臺,能夠讓用戶的視頻生產、收益形成閉環,品效合一。這是一個非常有挑戰的事情。
甲子光年:所以你不是想單純做一個視頻生產的工具,而是想參與到視頻生產后續的分發、收益的過程中,做后續的服務。
梅濤:今天為止,用戶還只是支付一個基本的工具使用或者素材使用費用,我認為這種定價是不合理的。我希望參與的視頻的投放環節,不管是我們幫用戶投放,還是合作伙伴幫用戶投放,最終按照CPM廣告投放的效果付費,給客戶帶來更大的收益,然后一起分享收益,對我們能有更大的激勵。
甲子光年:你認為模型更重要,還是產品更重要?
梅濤:目前來說,用戶的需求已經比較明確了,挑戰在于技術的迭代還沒有達到上限。在產品端,如何在有限的模型能力前提下構建好的工作流,或者叫Agent,降低用戶門檻,是目前產品能做的事情。在技術端,則是通過scale、高質量的數據,或者顛覆式的算法來提高模型能力,這樣就能降低產品端雕花的過程。
甲子光年:先做模型端的突破,還是先做產品端的雕花?業內兩種方式都有,你更傾向于哪一種?
梅濤:不同的人站在公司角度會有不同的觀點。我們沒有必要去跟隨別人,要有自己獨立的判斷。我自己認為,大模型不管走到哪一步,始終離用戶需求還差“最后一公里”,比如大模型本身還沒有解決幻覺問題,如果不解決就讓用戶直接使用,是有很大風險的。這“最后一公里”,就需要通過產品來彌補。
甲子光年:90%靠大模型能力,10%靠產品?
梅濤:沒錯。
甲子光年:你們現在的產品規模是多大?
梅濤:我們目前的to C或者to PGC產品,在全球擁有千萬級別的注冊用戶,涉及100多個國家。全球的月活躍用戶(MAU)在300萬左右。
坦誠說,這個數字不是最高的,我們在市場上的聲量也沒有那么顯著,這與我們團隊的特點有關。我們團隊比較務實、低調,一直秉持著長期主義和厚積薄發的理念。這也是我個人的特點,我一直就喜歡先把事情做好再去講述。不過今年我們認為時機到了,可以適當進行一些品牌宣傳,讓投資人以及用戶和客戶更多地了解我們。
甲子光年:那你怎么看Sora這種發布后快一年才上線的做法?
梅濤:任何一家公司在某個時間點做出的任何決策,都與其商業化進程相關。在不同的時間段,競爭態勢各異。我記得2024年年初,當時OpenAI面臨來自Google的巨大競爭壓力,而且Google也在做多模態,所以OpenAI想要發布一個多模態的產品,于是發布了Sora,但只是發布了一些Demo,并未正式上線。這樣做先提高了大家的預期,至少能讓資本市場對其充滿期待。
甲子光年:這種做法跟你“先把事情做好再去講述”的理念剛好相反,處在另一個極端。你會討厭OpenAI的這種做法嗎?
梅濤:我們比較實在。我們認為如果要發布,肯定會在一個月內讓用戶體驗到我們的產品。包括我們之前所有的操作都是如此,甚至先上線運行,然后再發布。我們接下來 4月份也會發布新的產品、新的模型以及新的開源內容,都是這種風格。
5.談商業模式:做AI視頻領域的Canva
甲子光年:智象未來的商業模式是什么?
梅濤:我們的商業模式一直在迭代,目前來說雖然既to B又to C,但兩者底層是同一個模型,只是上面是不同的應用,服務不同的客戶。
智象未來的商業模式是,搭建IP和內容共創平臺,融合IP提供方、需求方、創作者與消費端數據池,嵌入AIGC智能生成矩陣,實現IP從創意萌生到價值釋放的全生命周期管理,打通內容價值流轉閉環,在IP內容生產、確權、交易、變現的多維場景中,基于AI技術手段實現價值的裂變式增長。
甲子光年:to B與to C,哪個是重點?
梅濤:現在to B更重一點。因為to C領域,整個市場的商業模式尚未完全跑通,目前一個很大的問題在于用戶的粘性不夠、留存不夠,做的供應鏈不夠深。未來某一天,兩條業務線會匯聚,做成一個平臺、社區。我們其實在構建一個更大的局。
甲子光年:服務to B的KA客戶,如何解決定制化的問題?
梅濤:KA客戶確實有很多定制化需求。我們現在是盡量自研,產品功能已經很全面了,包括圖片生成、圖片修改、視頻生成、視頻修改、文字嵌入、搜索等,可以滿足客戶百分之七八十的需求。如果還不夠,就接入開源模型或者第三方的產品,由我們來提供解決方案。我們還是以被集成的方式來做,我在京東時做to B業務都是這樣做的。
甲子光年:你們是被集成的角色,那集成商是誰?
梅濤:比如華為、科大訊飛。其實在to B領域的業務形態和服務模式都沒有變,現在一些“六小虎”來服務央國企,未必做得過科大訊飛、百度、華為這些,甚至在DeepSeek的沖擊下,一些六小虎已經在賣DeepSeek一體機了,不再堅持用自己的模型來交付了。
甲子光年:過去兩年,生成一個視頻的推理成本有沒有明顯的下降?
梅濤:下降很大。首先是抽卡的次數減少了。大概5月份我們會發布一個新視頻模型,引入了AR架構,屆時視頻推理的成本會下降到不到之前的一半,同時推理速度還能降低50%。到今年年底,按照我們CTO的計劃,會達到實時生成的水平。比如5秒鐘的720P視頻,只需要5秒鐘生成。
甲子光年:實時生成高清視頻,這是今年技術上的要實現的目標,還有其他的目標么?
梅濤:在模型層,我們要發布全球最好的圖片開源模型;視頻模型要躋身前列,我們不會說達到綜合第一名,但一定會在某些指標達到第一,比如推理速度。其次,我們要保證在視頻與圖片中生成的嵌入文字的質量是全球第一,這對可控性要求非常高;敘事性上,今年我們會讓光影的協調、鏡頭與鏡頭之間的連貫性做得更好。
在產品端,我們希望形成穩定的商業模式,至少“1+3+N”模式中的三個產品線能夠形成穩定的收入與現金流,明年再開始擴張。
甲子光年:所以今年屬于商業化0-1的階段?
梅濤:更準確的說,是0.5-1。今年對我們來說很重要,我們要留在牌桌上。
甲子光年:長遠來看,你希望智象未來是一家什么樣公司?是“AI時代的抖音”嗎?
梅濤:我們其實想做AI視頻領域的Canva。Canva是一家澳大利亞的設計軟件公司,現在的市值達400億美元,每年收入大約25億美元,全球2億多用戶。
就像Canva在設計領域做到的那樣,我們想讓視頻領域的全球創作者在我們平臺上以低成本、高質量、高效率地生成創意視頻,平臺上產品既有IP,也有工具,還有內容。這些用戶可能是企業用戶,也可能是個人用戶。
我最終認為,模型將來可能不值錢,因為大家都有模型,不管是自研的還是開源的。真正沉淀的核心是數據資產和社區,這也是為什么我們去年跟捷成華視網聚、上海電影集團、人民網、彩訊科技等企業合作的原因,我們拿到了市面上70%的華語影視資料庫,然后再構建一個屬于我們自己的版權語料庫,將來還要構建創作者社區。這樣就能把B端客戶業務和創作者社區都建立起來,在平臺上實現商業閉環。這是我們接下來很大的一個局。
今天我們還是在做拼圖,把to B業務做好,把社區做好,把工具打造好。將來我們會補齊商業布局。
6.談市場格局:現在是視頻生成的GPT-2時刻
甲子光年:你怎么評價市場的競爭?
梅濤:大公司像字節、快手,在UGC、PGC端競爭的比較激烈,這也是我們不在國內發力to C業務的原因。國內市場大概率還是來自于企業服務這一端,而to B市場是比較細分的,會由好多家公司來服務。
我們的思考是,在國內扎實做好to B業務,海外一定做好to C業務。
甲子光年:海外有Runway這樣的競品。Runway并不把自己定位AI公司,而是一家媒體和娛樂公司。你怎么看待Runway對自己的定位?
梅濤:我個人覺得,美國電影市場還是非常大的,這么大的市場自然需要AI公司來做影視化的產品,Runway圍繞影視創作流程做的產品很扎實。
但是,如果用一家影視公司來定位Runway,我覺得他們有點吃虧。因為在影視圈里做技術服務,最終跟票房是沒有關系的,永遠是導演前期或后期創作的工具。而且我們跟很多電影導演聊過,做影視級創作工具,要想達到導演的要求,很難。特別是真人表演,未來兩三年內都難以達到。
其次,AI創作工具嵌入不同的電影制作場景或工作流,也很難,因為就不存在標準化的工作流,每一家電影公司都不一樣。我們也嘗試過,挑戰很大。
甲子光年:你們在嘗試之后放棄了電影行業嗎?
梅濤:我們現在更聚焦在營銷場景,比如二創平臺是給品牌商做廣告素材,廣告素材的要求原沒有影視級那么高。另外,我們也做了一些AI短劇,偏向動漫,動漫市場已經被證實可行了。但是影視級的合作,目前還是很難。
由智象未來參與創作的AI科幻短劇《亦幻未來》的第三集——《天工開物》的片段
甲子光年:影視是目前眾多to B細分場景中最難的一個。那未來呢?技術一定會發展,最終整個行業的平均水平是否會達到影視級的效果?
梅濤:這個不好說。我經常看一個節目《我就是演員》,能看到導演對演員的表演要求是極高的。一個頂尖演員表演一場戲,也會NG很多次,何況用AI控制微表情。現在AI最難的就是真人的微表情控制、多人IP的穩定以及人物交互。坦白來說,現在的DiT架構模型還沒有真正理解物理世界。
甲子光年:你覺得視頻生成領域達到ChatGPT時刻了嗎?Sora算不算?
梅濤:我覺得Sora差不多是視頻生成領域的GPT-2時刻,但目前還沒到GPT-3時刻。
甲子光年:你怎么看大模型“六小虎”的前景?
梅濤:如果“六小虎”要對標OpenAI,這件事本身就很花錢。如果用萬卡來做訓練,一個月的成本大概是一個億,一年的算力加運營成本大概是15億到20億。那么,他們每次融資至少二三十億,現在面臨的狀況就是高估值、低收入,商業模式沒有完全跑通。但是融資又不能停下來,不融資的話,投資人可能投給別人了。當然,融資后做更大的市場擴展,理論上說也沒有問題。
甲子光年:DeepSeek出來后,對市場格局有什么影響?
梅濤:現在大家都在開源,都在免費,本質上是賣算力,而不是賣模型、賣應用,能順利打平就不錯了。有的AI應用在還沒有驗證之前,做了大量的投流,一年花幾個億。但最后DeepSeek出來后你會發現,可能完全沒有價值。
我覺得模型公司,如果在模型層做不到第一的話,就不要輕易做to C。在to C領域,如果你不是最好的產品,用戶永遠只用第一名、第二名的產品。但to B不一樣,主要你能在一個細分領域里做到前三名,也能活下去,但想象空間沒有那么大。
甲子光年:所以你從一開始就沒有想過做最領先的角色嗎?
梅濤:我當然想過了,現在也一直在想。但我們確實是小米加步槍,不管是融資規模,還是算力規模,跟美國相比都少一個數量級。
另外,這也是一個動態的過程。今天的第一不代表是永遠第一,再過兩三個月,可能一大堆所謂超越DeepSeek的模型就出現了。但如果我的融資是別人的10倍,算力是別人的10倍,人才是最好的人才,那我就能保證第一,就像OpenAI和Google。
甲子光年:如果給你10倍于現在的資源,你會有什么不同的決策?
梅濤:決策都會不一樣。我們打造中國的視頻版的DeepSeek,但不能用投資人的錢。因為這件事早期是沒有商業價值的,是長期主義的。DeepSeek能成功,他沒有用投資人的錢,而是梁文鋒個人或者幻方的錢,即使每年燒十幾個億也無所謂。但我們不行,如果我今年燒沒了,明年可能就融不到錢了。
7.談融資:2024年之前很難,2024年之后更難
甲子光年:創業至今,融資順利嗎?
梅濤:2024年之前相對容易一點,但總體來說也不簡單。創業需要一個momentum(推動力),就像去年的具身智能,當時這個概念特別火,大家都抱有很大期望。2024年既是一個風口,也是一個分叉路口,由于中美之間在人工智能領域的競爭,美元基金基本不再投資,此后融資變得非常艱難,包括今天也是如此。
盡管如此,我們的融資還算穩健。截至目前,我們已經成功完成了兩個大輪次和四個小輪次的融資。并且,我們接下來的B輪融資也已談妥大半。我們自身非常努力。
甲子光年:你平均每年要見多少投資人?
梅濤:我比較勤奮,創業到現在見了200多個機構了。現在好一點了,我們有專門負責融資的同事,我一般是最后要見合伙人或者管理合伙人再去。每周要見一兩個吧,都是小步快跑的節奏。
甲子光年:融資窗口是稍縱即逝的嗎?
梅濤:以前創業,會有兩三年的時間窗口,現在完全不一樣了。比如說,前年的風口是大語言模型,去年的風口是多模態大模型,今年的風口是Agent,你會發現時間窗口越來越短。
對于投資人來說,現在大語言模型的布局已經完成了,下一步就看哪家能跑出來。
應用層的創業者非常艱苦,很難融到錢,因為應用層需要融資來驗證商業模式,但投資人認為應用層沒有壁壘,需要先證明你有盈利能力,這本身就是一個偽命題。
甲子光年:這是一個死循環。但“風險投資”不就是應該承擔一定概率的風險嗎?
梅濤:投資人的視角是,基礎大模型就那么幾個標桿案例,投中一個就行了。或者說為了提高成功率,每個都投一遍,只要能成功一個就能賺回來,哪怕少賺一點。
但是應用層不行。一個細分領域的應用層,可能有幾十個相似的項目,因為門檻相對較低。而且應用層的想象空間沒有那么大,就算有很多應用出來了,很多投資人卻不敢投。所以現在的創業者,跟以前相比確實難很多。
甲子光年:投資人對于視頻生成模型這一賽道的態度有什么變化?
梅濤:有很大的變化。我們在2023年融資時,投資人明顯想讓我們跟Midjourney對標,視頻生成的故事沒有人信。到2024年,投資人就完全All in視頻生成領域了,反而圖片生成的故事他又不信了。
投資人相信的是一個momentum。創業者可以一開始借著這個momentum去融資、講故事,但不能總是講故事。過了這個momentum,我就要告訴投資人,我給你看數據,既要證明我們的技術、架構是領先的,也要證明基于這個技術做成的產品是有世界影響力和市場滲透率的,今天只講模型能力實際上是不夠的。
8.談創業理想:我創業不是為了錢
甲子光年:創業兩年,你的變化大嗎?
梅濤:變化太大了,基本上每三個月就會經歷一次人生的歷練。因為作為創始人,必然是一個“多邊形戰士”,對內治理,對外經營。要管理公司的產品,要確保公司的技術領先,還要進行團隊建設,還要負責見重要客戶,要親自見投資人。這幾大事情基本上都要我親自做。當然,還有招聘,還要與產業保持密切互動。我的周末基本上排滿了,要見大量的創業者和候選人,與他們交流。所以非常充實,但也非常辛苦和具有挑戰性。
甲子光年:會有疲憊的時刻嗎?
梅濤:肯定會有,但是我很快就調整過來了。我平時周末都要跑步,一般每次都是10公里到15公里,給自己充電。
甲子光年:過去兩年,公司的發展方向有沒有調整過?
梅濤:沒有。2023年定下來的方向,現在一直在跟進。我覺得創業要經常回顧一下自己的初心,因為當時的判斷往往是對的,中間過程中會被人帶偏。
甲子光年:被帶偏的干擾因素是什么?
梅濤:比如說,有的人會說,不要做to C,做to C你做不過那幫人。有的人會說,不要做to B,國內做to B的SaaS就沒成功過。各種各樣的聲音都有。我是第一次創業,剛創業時還經常有人教我怎么創業。這種人可能自己都沒創過業,你肯定也見過。
甲子光年:你怎么看現在年輕一代的創業者?
梅濤:現在的年輕人跟以前不一樣了,以前可能想進大廠,找一份穩定的工作。現在越來越多的年輕人愿意加入創業公司,或者直接創業。現在AI發展的程度,讓創業的門檻降的很低了。你經常看到三五個人,或者不到10人的團隊,對場景的理解足夠深,就能開發出很棒的AI產品,就像Manus這種。在AI時代每個人的能力可能是以前的10倍以上。我們公司的一些小朋友,每個月花20美元去買OpenAI的賬號幫他寫代碼,這已經是一個普遍現象了。
甲子光年:像楊植麟這樣的年輕創業者,做事風格跟你有什么不同?
梅濤:我們相對更為穩健。
甲子光年:to C是否天然更適合年輕創業者來做?
梅濤:你說的很對,年輕創業者能快速迭代,也沒有什么包袱。
甲子光年:你對創業有什么感想?
梅濤:我覺得現在這個時候,應該向創業者致敬。很多人沒創過業,不知道創業有多難。我最近看了很多書,被硅谷的創業故事震驚到,原來硅谷的創業融資也很難。本·霍洛維茨,硅谷資深創業者,現知名投資機構Andreessen Horowitz聯合創始人及總合伙人,他寫的《創業維艱》一書中描寫了很多至暗時刻。他說,在擔任CEO的8年多時間里,只有3天是順境,剩下的8年幾乎全是舉步維艱。
對我來說,必須拿出每一天都enjoy的狀態,否則會非常煎熬,因為創業的每一天都可能處理一些棘手的問題。我出來創業之后,就特別同情創業者群體,雖然我本人也是創業者。
甲子光年:你跟他們有什么不同?
梅濤:我至少還有科學家身份。如果我沒有創業,還可以去學校做教授。說實話,我創業也不是為了錢。
我們公司有好幾位院士是我們的學術導師,他們對我的期望就是,我創業不是代表一個人創業,是代表中國的科技型專家創業,投身到一個新的時代,要趟出一條路。如果我的技術和商業化能夠打通,那么我的故事應該被復制,啟發更多的人做這件事。
現在,AI時代的科學家創業還幾乎沒有成功案例。現在有很多年輕的從學術界出來創業的人,但像我一樣到了45歲之后還清零創業的人,很少。我們團隊現在很純粹,包括我自己沒有任何第二職業,是All in創業、心無旁騖的。我是一個探索的心態。
甲子光年:你想成立一家什么樣的公司?
梅濤:我經歷過兩家公司,體驗過兩種不同的文化,我想在中國創建一家像硅谷那樣開放、包容,以技術創新為核心的公司,做全球化業務,讓中國的年輕人在這家公司里能開心地工作。
(封面圖來源:中國科幻大會)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.