Lovart 值得關(guān)注,它是 AI 應(yīng)用層團(tuán)隊(duì)產(chǎn)品創(chuàng)新能力的印證和延續(xù),這是 Manus 之后最火的 Agent,從通用領(lǐng)域,成功地向垂直賽道落地了 Agent 產(chǎn)品形態(tài)。
據(jù)了解,Lovart 發(fā)布后,推特上出現(xiàn)近 5000 條討論帖,官方視頻播放近百萬(wàn),獲得馬斯克點(diǎn)贊、Grok 官方發(fā)帖討論。24 小時(shí)內(nèi),waitlist 申請(qǐng)人數(shù)超過(guò) 2 萬(wàn)。
(一個(gè)使用 Lovart 制作的 Lovart 宣傳片)
基礎(chǔ)形態(tài)上,Lovart 看起來(lái)與 Manus 很像,一個(gè)能夠調(diào)用工具的 Agent,替用戶完成任務(wù)。
但 Lovart 在垂直領(lǐng)域更進(jìn)一步,它把一種需要多模態(tài)的「職業(yè)」變成了工作流再內(nèi)化成 Agent,配以適合設(shè)計(jì)師使用的產(chǎn)品形態(tài)——畫布。「畫布」就是「桌子」,還原到設(shè)計(jì)的原始狀態(tài),沒有電腦,只有筆和紙,一個(gè)人有需求,一個(gè)人有能力,好的設(shè)計(jì)作品在這個(gè)場(chǎng)景中誕生。
「Lovart 現(xiàn)在當(dāng)然是一個(gè)工具,但以后呢?它會(huì)是一個(gè)有職業(yè)屬性的人,直接交付服務(wù)的結(jié)果。」
Lovart 創(chuàng)始人 & CEO 陳冕在 AI 設(shè)計(jì)領(lǐng)域有很多實(shí)踐經(jīng)驗(yàn),他認(rèn)為圖像生成的 AI 產(chǎn)品,其實(shí)已經(jīng)走到了第三個(gè)階段。
1.0 階段,Midjourney 等產(chǎn)品,圖片生成的單點(diǎn)能力直接產(chǎn)品化; 2.0 階段,ComfyUI 等工作流產(chǎn)品,點(diǎn)連成線,多種模型能力的鏈接,AI 能做到更多圖片創(chuàng)意的任務(wù); 3.0 階段,Agent,如 Lovart,讓 AI 參與工作流的規(guī)劃和執(zhí)行,進(jìn)一步降低用戶門檻。
創(chuàng)作工具正在不斷簡(jiǎn)化,ComfyUI 的高門檻拒絕了很多創(chuàng)作者,但 Lovart,至少這是第一款讓我們的專業(yè)設(shè)計(jì)師在看到之后想要第一時(shí)間嘗試的產(chǎn)品。
在 Lovart 發(fā)布后一天,我們與陳冕做了一次對(duì)話,Lovart 是如何誕生的?它背后有著怎樣的思考?在這篇訪談里都可以找到答案。
創(chuàng)始人信息:陳冕,本科畢業(yè)于東南大學(xué),曾任職于摩拜擔(dān)任產(chǎn)品總監(jiān),曾是字節(jié)跳動(dòng)剪映、CapCut 全球商業(yè)化負(fù)責(zé)人。
采訪 | Nico
編輯 | Nico、夏天
Founder Park 正在搭建「AI 產(chǎn)品市集」社群,邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,掃碼加群:
01
AI 圖像產(chǎn)品的三個(gè)階段
Founder Park:Lovart 是一款受到 Manus 啟發(fā)的產(chǎn)品嗎?
陳冕:我很感謝 Manus。創(chuàng)業(yè)圈子里,很多前沿的公司,大家的認(rèn)知其實(shí)是相似的。但在一件事情沒有發(fā)生的時(shí)候,你雖然有認(rèn)知,但將信將疑,不是百分百的篤定。直到一件事火了之后,才能形成群體共識(shí)。
群體共識(shí)會(huì)加重你對(duì)這個(gè)認(rèn)知的篤定程度。我們?cè)?Manus 發(fā)布前就在做 Lovart,不然也不可能在當(dāng)下非常快速的做出來(lái)。坦白講,讓我們激進(jìn)地去準(zhǔn)備、覺得方向確定的時(shí)刻,還是在 Manus 火了之后。
但是最終,潛意識(shí)釋放出來(lái)后火了,其實(shí)是被大家共識(shí)了,是時(shí)代在呼喚這個(gè)產(chǎn)品。那個(gè)時(shí)候我們也非常興奮,那就證明 something right。
創(chuàng)新就是這樣,大家最開始其實(shí)都是在長(zhǎng)夜里憑著自己的認(rèn)知一點(diǎn)點(diǎn)往前走,但是是將信將疑的,但隨著越來(lái)越多的產(chǎn)品出來(lái),這個(gè)信念會(huì)變得越來(lái)越篤定,這條路也會(huì)變得越來(lái)越共識(shí)。所以,真的還是挺感謝他們。
Founder Park:Lovart 是一款 for everyone 的產(chǎn)品,還是一個(gè) for designer 的產(chǎn)品?
陳冕:我們做的是一個(gè)垂類 Agent,不是通用 Agent。大公司有強(qiáng)大的技術(shù)和流量?jī)?yōu)勢(shì),不想陷入對(duì)抗性競(jìng)爭(zhēng),要走創(chuàng)新的產(chǎn)品競(jìng)爭(zhēng),通用 Agent 當(dāng)然是 for everyone 的,大公司會(huì)更傾向于 for everyone,因?yàn)檫@顯然是更大的機(jī)會(huì),但對(duì)創(chuàng)業(yè)者而言,挑戰(zhàn)非常大。
張一鳴之前提到,創(chuàng)業(yè)進(jìn)程里,認(rèn)知最重要。我感同身受,現(xiàn)在 AI 創(chuàng)業(yè)就是「認(rèn)知領(lǐng)先 + 極致執(zhí)行」,就是拼命執(zhí)行,非常迅速地執(zhí)行是最重要的。誰(shuí)能做出第一個(gè)創(chuàng)新的產(chǎn)品,這對(duì)創(chuàng)新公司來(lái)說(shuō)是很重要的。
Founder Park:Lovart 這款產(chǎn)品是如何做出來(lái)的?為什么想做這樣一款產(chǎn)品?
陳冕:從我們的經(jīng)驗(yàn)來(lái)說(shuō),設(shè)計(jì)、圖像生成這類的產(chǎn)品(甚至也可以遷移到 LLM 產(chǎn)品)存在三個(gè)發(fā)展階段。
1.0 階段:內(nèi)容生成,即單一的內(nèi)容生成。最開始大家使用的是 Midjourney、Stable Diffusion,國(guó)內(nèi)有 Liblib。這是最開始的第一波浪潮,那時(shí)大家使用 Liblib 是通過(guò) WebUI,本質(zhì)上還是在進(jìn)行生成,這是第一個(gè)時(shí)代,我們稱之為 1.0 時(shí)代。
2.0 階段:工作流。Coze、Dify,以及許多其他產(chǎn)品,實(shí)際上都在構(gòu)建工作流。圖像領(lǐng)域也是如此,很快,您會(huì)發(fā)現(xiàn)大家開始使用 ComfyUI,更復(fù)雜的工作流則通過(guò) ComfyUI 來(lái)實(shí)現(xiàn)。這里存在一個(gè)巨大的變化,在圖像這個(gè)領(lǐng)域,WebUI 和 ComfyUI,尤其是在中國(guó),這兩款產(chǎn)品實(shí)際上是應(yīng)用范式變化最有代表性的例子。它背后代表的變化是,AI 最終目的是幫助人完成一連串的工作。因此,這項(xiàng)工作的第一步,或者說(shuō)原子單元,是一個(gè)一個(gè)的生成能力,或者說(shuō)生成工具,亦或是傳統(tǒng)工具。最開始是這種生成能力被創(chuàng)造出來(lái),所以大家可以將生成能力作為其工作流程中的一個(gè)工具來(lái)使用,把這些工具串起來(lái)做成一個(gè)工作流,就能取代原有工作里更大比例的任務(wù)了
3.0 階段:Agent,我們將 Agent 定義為由 AI 規(guī)劃并執(zhí)行工作流。因?yàn)椋–laude 等)模型能力提升,AI 就可以串聯(lián)所有的工具和工作,并執(zhí)行出來(lái)。人只需要向 AI 發(fā)指令了。
這個(gè)認(rèn)知并非我們最初做 AI 創(chuàng)業(yè)時(shí)就有的,這是對(duì)整個(gè) AI 應(yīng)用的通用認(rèn)知。一開始大家只做 AI 生成(比如圖片、視頻),后來(lái)出現(xiàn)工作流形態(tài),這背后是因?yàn)槊恳粋€(gè)引領(lǐng)時(shí)代的產(chǎn)品都做對(duì)了某件重要的事情。
Founder Park:3.0 的產(chǎn)品,比如 Lovart 和 Manus,現(xiàn)階段用戶價(jià)值還沒有閉環(huán),為什么要選擇一個(gè)還不成熟的產(chǎn)品形態(tài)?
陳冕:Lovart 這個(gè)產(chǎn)品也是基于我們的一些認(rèn)知與判斷,當(dāng)然現(xiàn)在也有很多人覺得 Agent 并沒有那么成熟,坦誠(chéng)講,Agent 確實(shí)沒有那么成熟。但如果等 Agent 真的成熟了,那就不是創(chuàng)業(yè)者的機(jī)會(huì)了,尤其不是應(yīng)用創(chuàng)業(yè)者的機(jī)會(huì)了,因?yàn)閼?yīng)用創(chuàng)業(yè)者本身并不掌握模型。在應(yīng)用層創(chuàng)業(yè),認(rèn)知領(lǐng)先非常重要,在模型沒有那么成熟之前,就應(yīng)該想到未來(lái)的方向。
當(dāng)群體的潛意識(shí)被共識(shí)了,這是件很有意義且有成就感的事情。這也是我覺得應(yīng)用創(chuàng)業(yè)者就應(yīng)該這么去做的事情,因?yàn)楫?dāng)你不掌握模型,也不掌握流量時(shí),最大的創(chuàng)新就來(lái)自于認(rèn)知。
Founder Park:最近有一個(gè)觀點(diǎn),對(duì)AI創(chuàng)業(yè)者來(lái)說(shuō),現(xiàn)在出來(lái)和兩年前出來(lái)是一樣的,因?yàn)楫a(chǎn)品形態(tài)發(fā)生了顛覆,之前的積累可能沒什么價(jià)值。
陳冕:我不認(rèn)同。在我看來(lái),認(rèn)知是累加的。沒有經(jīng)歷 1.0、2.0、3.0 時(shí)代,無(wú)法如此順暢地想到這個(gè)過(guò)程。Manus 也是一樣的,Monica 就是它的 1.0 時(shí)代。所以這個(gè)認(rèn)知是在大家的摸索當(dāng)中,隨著技術(shù)趨勢(shì)的明朗、技術(shù)路徑的共識(shí)、技術(shù)能力的成熟,大家逐漸形成的共識(shí)。
02
還原設(shè)計(jì)最原始的樣子
Founder Park: 在 1.0、2.0、3.0 階段,你們是如何積累有價(jià)值的經(jīng)驗(yàn)?對(duì)業(yè)務(wù)和產(chǎn)品有什么幫助?
陳冕:針對(duì)設(shè)計(jì)這個(gè)垂直領(lǐng)域,我們?cè)谒伎家患拢篈I 時(shí)代的交互范式或方式應(yīng)該是什么樣?大家有很多討論,比如 Language UI、是否需要 GUI 等等,討論非常多。在這方面,我們也有一個(gè)關(guān)鍵判斷,交互在不同的垂直領(lǐng)域和場(chǎng)景下,應(yīng)該有所區(qū)別。
舉個(gè)簡(jiǎn)單例子,我們現(xiàn)在面對(duì)面訪談,互相對(duì)話是個(gè)場(chǎng)景,有其對(duì)應(yīng)的交互方式。在跟設(shè)計(jì)師聊設(shè)計(jì),光說(shuō)話可能不夠,得有人在設(shè)計(jì)屏幕前指指點(diǎn)點(diǎn),經(jīng)典甲方場(chǎng)景。所以我們想,如果 AI 成為「人」,終局交互不能只靠對(duì)話,這是我們創(chuàng)業(yè)第一天就想明白的。不同垂直場(chǎng)景,需要不同界面和交互。設(shè)計(jì)這種視覺傳達(dá)、視覺對(duì)齊很重要,所以需要屏幕和手勢(shì)完成和視覺的對(duì)齊。
在 Lovart 產(chǎn)品里的體現(xiàn)成「畫布」。Lovart 左邊畫布,右邊對(duì)話框,就像設(shè)計(jì)跟老板/甲方對(duì)話時(shí),旁邊就是屏幕,鼠標(biāo)是老板的手。基于這個(gè)點(diǎn),我們思考我們應(yīng)該做什么?是不是應(yīng)該早點(diǎn)做畫布?所以我們?cè)诋嫴寄芰凸ぞ叻矫孀龅帽容^早,也花了不少力氣。
畫布本質(zhì)上可以說(shuō)是屏幕,但拋開屏幕,本質(zhì)上如果現(xiàn)在我們把所有科技的東西都去掉,如果人類回歸到筆墨紙硯,畫布就是桌子。現(xiàn)在我們兩個(gè)人在做設(shè)計(jì),甲方站在你旁邊告訴你要做什么,你把作品放到桌子上,ta 對(duì)著桌子指指點(diǎn)點(diǎn)。所以桌子上不應(yīng)該是 ComfyUI 或者之前的一些工作流產(chǎn)品。
桌子上是作品,能夠拖拽指點(diǎn),這是最原生的交互方式或者界面。雖然工作流產(chǎn)品看著像在 canvas 上,但實(shí)際不一樣。我們的 canvas 本質(zhì)是桌子,盛放作品,最自然的交互就是指著作品說(shuō)修改。這是我們垂直領(lǐng)域最初認(rèn)知,所以我們才更早積累畫布能力和 Edit。
(來(lái)自 Founder Park 同事的實(shí)際體驗(yàn))
Founder Park: 還原設(shè)計(jì)這件事最原始的樣子,這是一個(gè)很有意思的思考,但它如何通向「有用」的AI產(chǎn)品?
陳冕:回到你前邊問(wèn)的問(wèn)題,我們?yōu)槭裁床?for everyone?
去想最原始的樣子,人在桌子上做三件事:涂抹、裁切、拼貼。AI 誕生后,像旁邊多了個(gè)甲方(用戶)指揮 AI。理想情況是甲方指揮 AI 完成所有任務(wù),這時(shí)才能 for everyone。但這需要模型能力很強(qiáng)。如果不夠強(qiáng),就會(huì)出現(xiàn)用戶說(shuō)「你做不好,我自己來(lái)」的中間狀態(tài)。
所以你會(huì)發(fā)現(xiàn),桌子(畫布)需要在,桌子旁的傳統(tǒng)工具箱(Edit)也要在。因?yàn)橛脩粲袝r(shí)發(fā)現(xiàn) AI 做不好,就會(huì)推開說(shuō)「我來(lái)」。所以現(xiàn)在本質(zhì)是 Agent + 桌子 + Edit。桌子放 AI 產(chǎn)物、支持修改,也承載傳統(tǒng) Edit 能力,那能力在桌子旁的工具箱。旁邊多出的那個(gè)人就是對(duì)話框。所以對(duì)話框、桌子、工具箱,這是合理且一直存在的形態(tài),也是我們想做的。
那設(shè)計(jì)何時(shí)能 for everyone?當(dāng)模型智能強(qiáng)大到不再需要那個(gè)工具箱,用戶通過(guò)對(duì)話、指點(diǎn)就能完全滿意,不會(huì)自己上手時(shí),就可以 for everyone 了。
但 Edit 能力是面向?qū)I(yè)消費(fèi)者的,普通人用不了工具箱。所以工具箱還在,設(shè)計(jì)師就會(huì)還在。當(dāng)工具箱不需要了,沒有用戶自己上手的瞬間,設(shè)計(jì)師可能會(huì)失業(yè)。但設(shè)計(jì)師的核心價(jià)值——?jiǎng)?chuàng)意、對(duì)人類共鳴的洞察,AI 目前無(wú)法取代。
AGI 也許能取代,但這對(duì)社會(huì)的沖擊會(huì)很大。至少現(xiàn)在,我認(rèn)為 AI 只能模擬理解感受,無(wú)法真正洞察人類共鳴的情況,所以藝術(shù)家/設(shè)計(jì)師的意義就在此。產(chǎn)品能 for everyone 是未來(lái)的事,這是我們現(xiàn)在的認(rèn)知。所以我們現(xiàn)在不想做一個(gè) for everyone 的產(chǎn)品,而是做 for Prosumer 的產(chǎn)品。我們希望成為設(shè)計(jì)師的朋友,因?yàn)槲覀冋J(rèn)為最終設(shè)計(jì)師的本源是創(chuàng)意,在于對(duì)人類潛意識(shí)里對(duì)共鳴的渴望的洞察,這是他們不可替代的價(jià)值。所以我們做的其他事情,是希望能讓他們 focus 在創(chuàng)意之上,把其他瑣事交給 AI,給他們插上翅膀。我認(rèn)為這是 AI 在現(xiàn)階段的意義。
Founder Park:圖像領(lǐng)域一直有一個(gè)藝術(shù)相關(guān)的問(wèn)題,比如更好更高效的AI工具,是否在加速前沿藝術(shù)風(fēng)格成為大眾審美的這個(gè)進(jìn)程?比如很經(jīng)典的,梵高的作品直到他過(guò)世后才受到認(rèn)可。
陳冕:我覺得這不一定會(huì)發(fā)生。一個(gè)藝術(shù)風(fēng)格,藝術(shù)家常常在其身后才被廣泛推崇,有時(shí)是因?yàn)樗麄儗?duì)群體感受和潛意識(shí)的洞察過(guò)于超前,這需要整個(gè)社會(huì)周期性的變化才能跟上。這種變化是深層的,與社會(huì)發(fā)展密切相關(guān),我認(rèn)為不會(huì)因一個(gè)工具的出現(xiàn)而根本改變。我們現(xiàn)在做的,是把工具還原到它應(yīng)有的形態(tài)。
在不同的時(shí)代,工具形態(tài)是不同的。在紙媒時(shí)代,沒有電腦,桌面擺滿了手稿,這是當(dāng)時(shí)的「桌子」。在電腦時(shí)代,設(shè)計(jì)師親自動(dòng)手,Photoshop 帶著畫布和各種工具出現(xiàn),那就像當(dāng)年的桌子。而現(xiàn)在,當(dāng)人越來(lái)越成為甲方,AI 成為乙方時(shí),這個(gè)「桌子」應(yīng)該是什么樣子?這是我們非常感興趣,也是我們從 day one 就在思考的問(wèn)題。Lovart 是我們目前給出的答案。
03
Lovart 會(huì)成為一支「創(chuàng)意團(tuán)隊(duì)」
Founder Park: 現(xiàn)階段這款產(chǎn)品,您提到它并非百分之百完美,它欠缺哪些方面?
陳冕:欠缺的地方很多。
Agent 的能力不夠強(qiáng),我們期待基礎(chǔ)模型能更強(qiáng)大,這樣我們的產(chǎn)品也會(huì)更厲害。我們需要 leverage base model,而不是被其取代,這是很重要的思考。你的核心價(jià)值應(yīng)該在基礎(chǔ)模型之外,才能真正利用它。如果你的工作只是為基礎(chǔ)模型現(xiàn)階段的不成熟打補(bǔ)丁,那不是利用,是在對(duì)抗,這樣做是「找死」。
當(dāng)然,產(chǎn)品自身也存在許多 bug。最近因?yàn)殛P(guān)注度高,很多人反饋邀請(qǐng)碼問(wèn)題,這確實(shí)是我們的不足。核心原因有兩個(gè):首先,我們采取的是小范圍用戶先行體驗(yàn)、收集 bug、迭代后再開放下一批的策略。在 bug 修復(fù)完成前,不宜大規(guī)模開放,這是最主要的原因。
其次,坦白說(shuō),我們也不可能無(wú)限量地發(fā)放邀請(qǐng)碼。很多用戶也能理解,這涉及較高的成本。目前我們的邀請(qǐng)碼是純免費(fèi)使用,確保用戶體驗(yàn),但這背后是有運(yùn)營(yíng)成本的。好在圖像領(lǐng)域,token 成本問(wèn)題相對(duì)其他領(lǐng)域還沒那么嚴(yán)重。所以我們目前的成本并不是非常高,但確實(shí)也不低。我們非常有信心能盡快實(shí)現(xiàn)公開使用。
開發(fā) Agent 的過(guò)程非常有趣,AI 真的有自己的「想法」。正如 Manus 主張的「less structure, more intelligence」,我們非常認(rèn)同這一點(diǎn)。因?yàn)樵谂c Agent 調(diào)試時(shí),你不能把指令說(shuō)得過(guò)于死板,那樣反而會(huì)限制其智能。這和人一樣,只告訴它按步驟 ABCD 執(zhí)行,它反而可能變笨。你需要告訴它目標(biāo)是什么,它在中間過(guò)程會(huì)展現(xiàn)自己的思考。比如,我們有時(shí)會(huì)告訴它,用某個(gè)基礎(chǔ)模型的圖像工具換臉效果不好,應(yīng)該改用我們內(nèi)部專門用于真人 face ID 的工具。但有時(shí)它并不這么認(rèn)為,它會(huì)有自己的判斷。
Founder Park:你會(huì)把 Lovart 定義為工具嗎?
陳冕:當(dāng)然,它首先是一個(gè)工具。但你可以理解為,它現(xiàn)在是工具,未來(lái)可能演變成一種「人」、一種「職業(yè)」,或一種服務(wù)。這也是 AI 帶來(lái)的變化。一個(gè)非常有意思的商業(yè)命題是:我們不能沿用工具時(shí)代的思路來(lái)理解 AI 時(shí)代的工具。SaaS 的本質(zhì)是服務(wù)由人提供,是人使用工具。而現(xiàn)在,AI 成為提供服務(wù)的主體。這里的商業(yè)價(jià)值巨大,本質(zhì)上是對(duì)特定職業(yè)生產(chǎn)效率的提升甚至替代,是對(duì)生產(chǎn)關(guān)系的重構(gòu)。所以這是一件令人振奮且意義巨大的事。盡管國(guó)內(nèi)投資人過(guò)去在工具類項(xiàng)目上損失慘重,但我認(rèn)為對(duì) AI 領(lǐng)域的投資應(yīng)更樂(lè)觀。
Founder Park:未來(lái)產(chǎn)品能力和功能會(huì)有哪些預(yù)期內(nèi)的更新?
陳冕:我們還有很多想要實(shí)現(xiàn)的功能,坦誠(chéng)講,目前上線的功能只是一部分。大家能想到的許多功能未來(lái)都會(huì)有。比如當(dāng)天晚上已經(jīng)接入了 3D 的展示。現(xiàn)在用戶可以一句話生成視頻,甚至配上音樂(lè)和配音。未來(lái),用戶可能只需一句話就能設(shè)計(jì)一個(gè) 3D 模型手辦,我們正在開發(fā)這個(gè)功能,很快就會(huì)上線。這些都是我們希望在正式發(fā)布前完成的功能,所以我們還在整合更多能力。
Founder Park: Lovart 有圖片、視頻,以后還會(huì)有 3D 和音頻,它最終會(huì)變成什么?
陳冕:它會(huì)是一個(gè)融合了設(shè)計(jì)師、導(dǎo)演、攝影師角色的存在。很難用單一職業(yè)概括,你可以把它當(dāng)作一個(gè)未來(lái)的「創(chuàng)意團(tuán)隊(duì)」,設(shè)計(jì)團(tuán)隊(duì)或創(chuàng)作團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)內(nèi)部有 Multi-agent 協(xié)作完成任務(wù)。這件事情的本質(zhì)上解決的是 creation,所以它是一個(gè) Creator team。
Founder Park: 設(shè)計(jì)師、導(dǎo)演和攝影師,為什么不是三個(gè)獨(dú)立的產(chǎn)品?
陳冕:用戶作為甲方,需要的是整合的服務(wù)。從這個(gè)角度看,這款產(chǎn)品也可以被視為一家「設(shè)計(jì)公司」。
有了這些不同的能力(工具/Agents)之后,還需要一個(gè)「領(lǐng)導(dǎo)者」,對(duì)吧?負(fù)責(zé)調(diào)度的就是領(lǐng)導(dǎo)者,最聰明的模型需要負(fù)責(zé)調(diào)度這些工具,它必須知道每個(gè)模型、每個(gè) Agent 的能力邊界。最終人扮演的就是甲方角色。最終,人是甲方,提供最關(guān)鍵的創(chuàng)意。甲方依然非常重要,需要滿足人的需求。所以從這個(gè)角度看,盡管它提供服務(wù),但也可以被稱作一種工具,因?yàn)樗罱K還是為了滿足人的需求而出現(xiàn)的。
當(dāng)然,如果未來(lái) AI 真正有了自主意識(shí),自主創(chuàng)造,那太 crazy 了,等 AGI 實(shí)現(xiàn)了再說(shuō)。我們本質(zhì)上做的還是我們覺得在前 AGI 時(shí)代該作為一個(gè)工具,或者作為一種服務(wù),作為一種新的職業(yè),它應(yīng)該具備什么形態(tài)和功能。
Founder Park:過(guò)去所有主流的圖片產(chǎn)品(如 Canva、PS)、視頻產(chǎn)品(如 PR、剪映)以及音樂(lè)產(chǎn)品,都是相對(duì)獨(dú)立的,并且通常針對(duì)不同人群收費(fèi)。您怎么看?
陳冕:其實(shí)它們都不是完全獨(dú)立的。Adobe 有圖片、視頻、音頻產(chǎn)品;Canva 也有圖片和視頻;剪映有視頻,其姊妹產(chǎn)品「醒圖」針對(duì)圖片方向。你會(huì)發(fā)現(xiàn)任何一家公司基本都會(huì)覆蓋圖片、視頻,甚至音頻領(lǐng)域,只是切入點(diǎn)不同。
它們確實(shí)不是同一個(gè)產(chǎn)品,我理解你說(shuō)它們分開,是因?yàn)橛脩粼诓煌瑘?chǎng)景下使用。但你想,人類在創(chuàng)作過(guò)程中是需要在不同產(chǎn)品間切換的,先用修圖軟件處理圖片,再導(dǎo)入視頻編輯軟件,可能還需要其他軟件處理音頻。現(xiàn)在,這項(xiàng)切換和整合的工作由 AI 來(lái)做,但背后仍然調(diào)用了許多工具。比如在 Lovart 中,AI 會(huì)調(diào)用 Kling、GPT image、ElevenLabs 等底層工具。工具層面是獨(dú)立的,但使用者是 AI,它在一個(gè)統(tǒng)一界面下完成。最終人是甲方,需要的是一個(gè)整合了這些工具成果的作品。所以我們認(rèn)為,在創(chuàng)意領(lǐng)域,必然會(huì)涉及各個(gè)模態(tài)和品類。
關(guān)鍵在于,這款產(chǎn)品最終是否融合成一個(gè)整體,要看用戶最直接接觸的界面是什么樣的。如果用戶仍然需要手動(dòng)在各個(gè)工具間切換,那就是分離的產(chǎn)品。但現(xiàn)在,這個(gè)負(fù)責(zé)「切換和調(diào)度」的角色由 AI 擔(dān)任,用戶只需與這個(gè) AI 交互。這個(gè) AI 在后臺(tái)調(diào)用各種工具,那么產(chǎn)品形態(tài)自然會(huì)是統(tǒng)一整合的。
Founder Park: 核心是交互方式改變了。以前是人直接操作工具,需要切換,現(xiàn)在是人與會(huì)用工具的AI協(xié)作。
陳冕:對(duì),但是你現(xiàn)在面對(duì)的是 AI,而 AI 面對(duì)的是多個(gè)工具,這是不同的。你可以因此獲得一個(gè)團(tuán)隊(duì)、一家公司,比如一家設(shè)計(jì)公司。所以 AI 的可怕之處在于,它從最初取代工具,到可能取代個(gè)體職業(yè),最終取代的是具備協(xié)作能力的團(tuán)隊(duì),這才是最 crazy 的。
Founder Park: 過(guò)去一些產(chǎn)品未能完全融合,部分原因可能在于其多采用訂閱制的商業(yè)模式。
陳冕:Canva 在融合方面做得很好,一個(gè)會(huì)員賬戶可以通用整個(gè)產(chǎn)品線。我認(rèn)為 Canva 已經(jīng)相當(dāng)融合了。Canva 有視頻功能,而且有很多視頻模板。比如我們?yōu)?Canva 付費(fèi),可能是為了制作海報(bào)或公眾號(hào)配圖,只需為此付費(fèi),它也能支持團(tuán)隊(duì)協(xié)作,每月也就幾十塊錢。回到 Lovart,產(chǎn)品未來(lái)肯定會(huì)商業(yè)化,一定會(huì)用訂閱制的方式。當(dāng)前 Lovart 主要面向的是海外市場(chǎng)。
Founder Park:針對(duì)商業(yè)模式,國(guó)內(nèi)用戶更傾向于免費(fèi)產(chǎn)品,你怎么看訂閱模式不會(huì)是中國(guó)AI主流商業(yè)模式的觀點(diǎn)?
陳冕:我不認(rèn)同這個(gè)觀點(diǎn)。中國(guó)人愿意為服務(wù)付費(fèi),為最終結(jié)果付費(fèi),只是對(duì)純粹的工具付費(fèi)意愿較低。所以關(guān)鍵在于 AI 最終是工具、服務(wù)還是結(jié)果?這取決于模型的智能程度。我們認(rèn)為 AI 最終會(huì)成為直接交付結(jié)果的服務(wù),因此中國(guó)用戶會(huì)為此付費(fèi)。這是對(duì)未來(lái)的預(yù)判,當(dāng)下我們先從海外市場(chǎng)開始。
Founder Park:Lovart 目前還沒上線付費(fèi)功能,未來(lái)會(huì)推出嗎?
陳冕:是的,我們現(xiàn)在可以說(shuō)是字面意義上的「在燃燒」資金。我們虧不起。
Founder Park:大概什么時(shí)候會(huì)上線付費(fèi)?
陳冕:應(yīng)該會(huì)在幾周內(nèi)。(笑)主要等 Bug 修復(fù)得差不多了就會(huì)上線。
Founder Park:Lovart 上線后,會(huì)有一個(gè)核心的「北極星指標(biāo)」嗎?比如用戶粘性、數(shù)量、留存率等,您最看重哪些?
陳冕:我想這方面的衡量標(biāo)準(zhǔn)大家是趨同的,最核心的還是用戶是否愿意為產(chǎn)品付費(fèi),以及付費(fèi)后的留存率。
04
我們團(tuán)隊(duì)沒有產(chǎn)品經(jīng)理,
只有設(shè)計(jì)師
Founder Park: Lovart 最核心的是理解用戶意圖,并將其拆解轉(zhuǎn)化為AI的執(zhí)行流程。在使用 AI 和大模型完成這件事的過(guò)程中,有什么經(jīng)驗(yàn)或感悟嗎?這對(duì)于公司而言是全新的探索,因?yàn)橹暗臉I(yè)務(wù)似乎沒有太直接相關(guān)的經(jīng)驗(yàn)。
陳冕:對(duì)公司來(lái)說(shuō),這當(dāng)然是全新的體驗(yàn),因?yàn)槲覀冎皼]有 Agent 產(chǎn)品。如何與 Agent 協(xié)作和打交道,我們也是第一次。它們確實(shí)有自己的「想法」。所以在這方面,我們都還在持續(xù)摸索。不過(guò),我們公司有很多設(shè)計(jì)師,他們覺得這個(gè)過(guò)程很有意思,因?yàn)槟撤N程度上他們?cè)凇附獭笰I 如何進(jìn)行設(shè)計(jì)。
本質(zhì)上就是將人類的設(shè)計(jì) know-how 傳達(dá)給 AI。我們團(tuán)隊(duì)里不少同事有美術(shù)或設(shè)計(jì)教育背景,他們以前教學(xué)生,現(xiàn)在教 AI。AI 的「智商」不低,但有時(shí)又難以完全掌控,我們開玩笑稱 AI 為「小朋友」。這就是目前的工作狀態(tài)。這里可以簡(jiǎn)單理解為將設(shè)計(jì)領(lǐng)域的知識(shí)和流程融入到模型訓(xùn)練和 Agent 邏輯中。
這個(gè)過(guò)程很有意思。我是產(chǎn)品經(jīng)理出身,但我認(rèn)為,未來(lái)的通用型產(chǎn)品經(jīng)理沒什么用。我自己也有十多年的產(chǎn)品經(jīng)驗(yàn),經(jīng)歷了移動(dòng)互聯(lián)網(wǎng)的完整周期。我認(rèn)為未來(lái)的產(chǎn)品經(jīng)理,其核心價(jià)值更多在于行業(yè)知識(shí)深度,在于將特定行業(yè)的 Know-how 體系化地教給AI。因此,產(chǎn)品經(jīng)理的角色將更加分行業(yè)、分垂直領(lǐng)域。我覺得通用互聯(lián)網(wǎng)產(chǎn)品經(jīng)理是個(gè)很危險(xiǎn)的職業(yè)。
Founder Park: 為什么說(shuō)產(chǎn)品經(jīng)理很危險(xiǎn)?
陳冕:通用型的 Agent 未來(lái)被基礎(chǔ)模型內(nèi)化的可能性很高。我認(rèn)為未來(lái)真正能實(shí)現(xiàn)百花齊放的,是專注于垂直應(yīng)用的那些 Agent。這些垂直 Agent 的核心競(jìng)爭(zhēng)力在于其背后蘊(yùn)含的垂直領(lǐng)域?qū)I(yè)知識(shí)。對(duì)于上一個(gè)時(shí)代的通用互聯(lián)網(wǎng)產(chǎn)品經(jīng)理,我確實(shí)覺得其定位有些模糊了。
Founder Park: 從職業(yè)發(fā)展角度看,它可能會(huì)演變成一種高度專業(yè)化的角色。
陳冕:對(duì),如果通用能力被模型底層吸收,只需要最強(qiáng)的那幾個(gè)人就夠了。
Founder Park: Lovart 現(xiàn)在對(duì)相關(guān)職位的稱呼已經(jīng)不是「產(chǎn)品經(jīng)理」了嗎?
陳冕:在我們團(tuán)隊(duì),產(chǎn)品經(jīng)理沒什么用。
當(dāng)工具足夠智能,「管理需求的人」不再被需要,但「定義需求的人」反而更重要。把產(chǎn)品交互設(shè)計(jì)成「畫布」,本質(zhì)上是在回答一個(gè)問(wèn)題:AI 和人類如何共享同一張桌子?
答案很明確——AI 坐在執(zhí)行端,人類坐在創(chuàng)意端。產(chǎn)品經(jīng)理曾經(jīng)是兩者的橋梁,但現(xiàn)在,AI 直接聽懂了設(shè)計(jì)師的語(yǔ)言。所以我們團(tuán)隊(duì)沒有產(chǎn)品經(jīng)理,只有「教 AI 的人」。
Founder Park:這聽起來(lái)有點(diǎn)悲觀,仿佛我們?cè)谧屧O(shè)計(jì)師們把他們的行業(yè)經(jīng)驗(yàn)教給 Agent,而這些 Agent 最終可能取代設(shè)計(jì)師。
陳冕:不,我們始終強(qiáng)調(diào)我們是設(shè)計(jì)師的「朋友」,你剛剛講的「取代」是無(wú)法對(duì)抗的,關(guān)鍵在于如何看待它。AI 確實(shí)極大地解放了生產(chǎn)力,同時(shí)也可能讓頂尖設(shè)計(jì)師的思維模式變得更平權(quán)。換個(gè)角度看,以前的頂尖設(shè)計(jì)思維,只有找頂尖設(shè)計(jì)師才能獲得,服務(wù)很貴。現(xiàn)在,這種高質(zhì)量的設(shè)計(jì)可能變得「For everyone」,而且成本大幅降低。問(wèn)題在于成本降低后,那些依賴原有模式生存的人怎么辦?這確實(shí)會(huì)引發(fā)生產(chǎn)關(guān)系的調(diào)整。但這屬于社會(huì)層面的問(wèn)題,交給時(shí)代去解決吧。
Founder Park:對(duì)于設(shè)計(jì)師和產(chǎn)品經(jīng)理這兩類人才,我們?cè)诠靖粗啬男┨刭|(zhì)或畫像??jī)A向于招聘什么樣的人?
陳冕:在我們公司,我覺得產(chǎn)品經(jīng)理沒什么用,設(shè)計(jì)師才有用。這是基于我們專注于設(shè)計(jì)這一垂直領(lǐng)域而言的。我們所有的產(chǎn)品迭代和案例積累都圍繞著設(shè)計(jì)師的工作流和需求進(jìn)行。
Founder Park: 兩種人,一種具有深厚設(shè)計(jì)功底的產(chǎn)品經(jīng)理,另一種原本是設(shè)計(jì)師但轉(zhuǎn)而承擔(dān)產(chǎn)品經(jīng)理職能、之前沒有典型產(chǎn)品經(jīng)理經(jīng)驗(yàn)的人,更傾向于哪種?
陳冕:傾向于后者,原本是設(shè)計(jì)師,后來(lái)在公司內(nèi)探索并承擔(dān)部分產(chǎn)品定義職責(zé)的人。
05
為什么有數(shù)據(jù)的 GitHub,
代碼工具不如 Cursor?
Founder Park:您剛才提到產(chǎn)品能力的提升依賴基礎(chǔ)模型,比如 GPT-4o 的圖像能力。GPT-4o 的圖像API發(fā)布對(duì) Lovart 有很大影響嗎?如果沒有 4o 的圖像能力,Lovart 這樣的產(chǎn)品是否就無(wú)法存在?
陳冕:Agent 的核心能力取決于模型對(duì)工具的調(diào)用和規(guī)劃能力。Agent 的能力才是本質(zhì)。即使沒有 4o image,Agent 也能存在,只是效果可能會(huì)打折扣。
因?yàn)楹芏嗾Z(yǔ)義理解、圖像內(nèi)容一致性等問(wèn)題,確實(shí)需要依賴更好的圖像模型來(lái)解決。所以可以理解為,GPT-4o 在圖像模型能力上帶來(lái)了顯著提升,但它并非 Agent 能力本身。我們同樣也期待 Claude 4 以及國(guó)內(nèi)如 Qwen 等模型的進(jìn)一步迭代。我們也希望能有非常好用的國(guó)產(chǎn) Agent 能力。
Founder Park: 兩年前大家熱議Midjourney,最近卻沒什么聲音了,你怎么看?
陳冕:這是產(chǎn)品從 1.0 向 2.0、3.0 的演變。Midjourney在語(yǔ)義理解和解決部分工作流問(wèn)題上表現(xiàn)出色,但它仍然是 1.0 產(chǎn)品。現(xiàn)在市場(chǎng)已經(jīng)進(jìn)入 3.0 階段了。
至于 Midjourney 團(tuán)隊(duì),我感覺他們可能志不在此。
Founder Park:社區(qū)型產(chǎn)品其實(shí)比工具型產(chǎn)品有更強(qiáng)的用戶粘性,所以剪映、WPS 會(huì)有模板創(chuàng)作社區(qū),Lovart 這樣的產(chǎn)品會(huì)有類似的形態(tài)嗎?
陳冕:不,我認(rèn)為工具和服務(wù)的用戶粘性是非常強(qiáng)的。如果一個(gè)工具粘性不強(qiáng),那只能說(shuō)明它不好用,或者使用成本太高,時(shí)機(jī)未成熟。工具的粘性非常強(qiáng),它不是針對(duì)所有人的高頻消費(fèi)品,但專業(yè)人士會(huì)頻繁使用。就像剛提到 Canva,做營(yíng)銷的人群中其使用比例很高。不求天天用,但求有需求時(shí)能用且好用,我覺得這就足夠了。所以用戶是否持續(xù)使用,本質(zhì)還是取決于使用成本、體驗(yàn)和能否切實(shí)解決問(wèn)題。這不是靠社區(qū)能夠解決的問(wèn)題,這樣做是 make sense 的。
要做社區(qū),就專注做好社區(qū)。要做工具和服務(wù),就專注做好工具和服務(wù)。如果工具或服務(wù)沒有用戶留存,那只能證明工具或服務(wù)本身沒做好,而不是其他原因,除非服務(wù)本身的使用頻率就極低。但我們做的不是這類,我們不做普通用戶,是因?yàn)槠胀ㄓ脩舻膭?chuàng)作需求通常非常低頻,比如僅僅是為了社交分享,他們?cè)谖⑿拧⒍兑舻绕脚_(tái)使用內(nèi)置 AI 功能即可,沒必要使用我們的產(chǎn)品。我們選擇做垂直領(lǐng)域,所以,雖然剛才討論了通用與垂直,但我們實(shí)際上已經(jīng)選擇了垂直領(lǐng)域。坦白講,做通用產(chǎn)品我們也競(jìng)爭(zhēng)不過(guò)大公司。
Founder Park:工作流數(shù)據(jù)能帶來(lái)更好產(chǎn)品體驗(yàn)嗎?比如 GitHub 擁有大量代碼數(shù)據(jù),也在做工具,但似乎在與 Cursor 等競(jìng)品競(jìng)爭(zhēng)中并未完全體現(xiàn)數(shù)據(jù)優(yōu)勢(shì)。您覺得 Lovart 從 1.0/2.0 時(shí)期積累的數(shù)據(jù)優(yōu)勢(shì)體現(xiàn)在哪里?
陳冕:我覺得 Cursor 才具備數(shù)據(jù)優(yōu)勢(shì),因?yàn)?GitHub 的代碼能力大部分已經(jīng)被 Claude 等底層模型內(nèi)化了。GitHub 基于自身數(shù)據(jù)做工具就沒有絕對(duì)優(yōu)勢(shì)。代碼能力被底座模型吸收了,代碼數(shù)據(jù)就不再是獨(dú)有優(yōu)勢(shì)。而 1.0 和 2.0 的數(shù)據(jù)之所以有意義,在于它們記錄了用戶如何運(yùn)用 AI 工具、如何結(jié)合 AI 與傳統(tǒng)方法進(jìn)行創(chuàng)作,這是非常有價(jià)值的。ComfyUI 的工作流本質(zhì)上是將各種模型和傳統(tǒng)功能模塊堆砌起來(lái)。
這些工作流數(shù)據(jù)是 AI 需要學(xué)習(xí)的,而底模在這方面是空白的。對(duì)于 Cursor 來(lái)說(shuō),知道哪些代碼應(yīng)該用 AI 寫,哪些應(yīng)該手動(dòng)寫,這部分知識(shí)很重要,但后來(lái)者可能難以準(zhǔn)確獲取。這就是區(qū)別所在。
Founder Park:你們會(huì)考慮自己開發(fā)模型嗎?這是很多 Agent 公司都會(huì)面臨的問(wèn)題。
陳冕:現(xiàn)在不會(huì)。這取決于如何定義「做模型」,是完全從預(yù)訓(xùn)練開始,還是強(qiáng)化微調(diào)。目前我們不會(huì)做完整的模型開發(fā)。
Founder Park:您認(rèn)為現(xiàn)階段的 Agent 產(chǎn)品,是否需要將 workflow 等用戶行為數(shù)據(jù)用于訓(xùn)練模型?
陳冕:是的,可能需要通過(guò) SFT 或更進(jìn)一步的強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行訓(xùn)練。RL 是必須做的。
Founder Park:考慮到設(shè)計(jì)領(lǐng)域有很多團(tuán)隊(duì)在探索,我們會(huì)思考,面對(duì)這些競(jìng)爭(zhēng),我們的核心差異化優(yōu)勢(shì)在哪里?
陳冕:差異化不是看了市場(chǎng)上有哪些產(chǎn)品、發(fā)現(xiàn)別人沒做什么才去做的,那樣反應(yīng)就太慢了。真正需要思考的是,你自身的優(yōu)勢(shì)是什么?在規(guī)劃要做的事情時(shí),要想清楚這需要哪些關(guān)鍵能力,其中哪些是你的核心優(yōu)勢(shì),并且這個(gè)優(yōu)勢(shì)目前還沒有被其他團(tuán)隊(duì)充分利用。基于自身優(yōu)勢(shì)去尋找市場(chǎng)機(jī)會(huì),這才有意義。所以核心并不是簡(jiǎn)單地看競(jìng)品有沒有做什么。
當(dāng)然,看到市場(chǎng)上有競(jìng)品,發(fā)現(xiàn)某個(gè)點(diǎn)他們沒做到,我們?nèi)ヌ钛a(bǔ),這一定。但有時(shí)如果認(rèn)知不夠深入,可能會(huì)發(fā)現(xiàn)沒人做某個(gè)方向是有原因的,比如它需要某種特定能力而大多數(shù)團(tuán)隊(duì)不具備。但如果你恰好擅長(zhǎng)某方面,那么我認(rèn)為無(wú)論何時(shí)進(jìn)入,只要想清楚了,并且確信自己能做得比現(xiàn)有方案更好,或者您認(rèn)為別人做得不如你,那就可以去做。
我認(rèn)為很多時(shí)候,創(chuàng)新與團(tuán)隊(duì)自身的特質(zhì)和核心能力緊密結(jié)合,會(huì)更有競(jìng)爭(zhēng)力。比如我們的競(jìng)爭(zhēng)優(yōu)勢(shì),也是從一開始就基于我們自身特點(diǎn)考慮清楚了要做什么,才朝著這個(gè)方向前進(jìn)的。如果說(shuō)先去研究競(jìng)品再找差異點(diǎn),我覺得這種思路是滯后的。
競(jìng)品分析是產(chǎn)品經(jīng)理的工作,想清楚目標(biāo)才是創(chuàng)業(yè)者的工作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.