猜一猜左右哪個(gè)是數(shù)字人老羅?
出品 | 網(wǎng)易科技《態(tài)度》欄目
作者 | 袁寧
編輯 | 丁廣勝
6月15日,羅永浩的數(shù)字人,在百度完成了第一次“真人版”直播。
6小時(shí),1300多萬人次觀看,GMV突破5500萬。這個(gè)成績,甚至超過了羅永浩本人不久前在百度的真人直播。
“其實(shí)我們當(dāng)時(shí)預(yù)期,和真人差不多就不錯(cuò)了。”平曉黎笑著說,“沒想到最后數(shù)據(jù)還超出預(yù)期。”
漂亮的GMV只是一部分,更讓她們感到“試驗(yàn)成功”的,是直播后復(fù)盤看到的觀眾停留時(shí)長——
許多用戶平均停留在一個(gè)小時(shí)以上。“這說明用戶是真的能接受數(shù)字人。”平曉黎說。
其實(shí),早在兩個(gè)月前,百度Create2025大會上,李彥宏就已用大量篇幅重點(diǎn)介紹數(shù)字人業(yè)務(wù),并直言“2025年最令人激動的突破性應(yīng)用之一,就是數(shù)字人。”
這次,羅永浩的數(shù)字人為何選擇在百度做首秀?百度又試圖借這場直播驗(yàn)證怎么樣的商業(yè)模型?
615直播后的一場溝通會上,我們和百度副總裁吳甜,百度副總裁、百度電商總經(jīng)理平曉黎聊了聊這件事。
聽她們講了講這場在外界看來轟動的數(shù)字人直播實(shí)驗(yàn)背后,那些復(fù)雜的IP復(fù)刻難題、商業(yè)邏輯與產(chǎn)業(yè)布局。
要像我,不像我不行
“復(fù)刻一個(gè)羅永浩,基本沒問題。但老羅本人對數(shù)字人的要求要高得多。”平曉黎透露。
作為甲方,羅永浩本人在項(xiàng)目初期給出的標(biāo)準(zhǔn)很簡單——但其實(shí)也最難:“要像我。”
與其說百度打造的是一個(gè)數(shù)字人,更像是在復(fù)刻一個(gè)復(fù)雜的IP資產(chǎn)——包括羅永浩的語言風(fēng)格、口頭禪、臨場反應(yīng)、以及那種特有的“羅氏幽默”。
吳甜把這個(gè)挑戰(zhàn)拆解為“淺層幽默”和“深層幽默”兩類:
“淺層的,比如調(diào)侃、口頭禪,這是可以通過歷史數(shù)據(jù)訓(xùn)練去模仿的;但深層幽默要結(jié)合社會熱點(diǎn)、文化語境,這背后對模型理解能力提出了很高的要求。”
老羅的直播習(xí)慣,就是隨時(shí)發(fā)揮、隨時(shí)接話,沒有劇本。這意味著模型既要隨時(shí)生成符合他人設(shè)的“羅氏幽默”,又必須時(shí)刻小心別踩到紅線。
平曉黎直言:“其實(shí)最擔(dān)心的也是安全問題,會不會大模型突然來一句不合適的話。我們做了很多特殊的可控性訓(xùn)練,某些話題是絕對不能講的。”
但觀看整場直播可以看到,數(shù)字人不僅復(fù)刻了羅永浩的語言風(fēng)格,甚至連他慣用的停頓節(jié)奏、小動作、手勢都實(shí)現(xiàn)了完整還原。
“有些東西,不是你AI生成出一句邏輯通順的句子就算成功了,而是要像羅永浩的那種說話方式。”吳甜說出了數(shù)字人帶來真人感受的核心所在。
復(fù)刻的不止一個(gè)人,而是一整個(gè)直播間
更復(fù)雜的是,這次不是單人直播,百度還挑戰(zhàn)了“雙數(shù)字人”組合:復(fù)刻了羅永浩和他的固定搭檔朱蕭木的直播配合。
“比如,老羅剛說完‘今天這個(gè)價(jià)格我都心動’,朱蕭木的數(shù)字人就馬上在旁邊比個(gè)點(diǎn)贊手勢,笑著接‘朋友們,這波可以沖’。”
吳甜現(xiàn)場做了個(gè)還原動作,“這個(gè)節(jié)奏感,其實(shí)比單人數(shù)字人更復(fù)雜得多。”
百度給到的數(shù)據(jù)也很驚艷:在這場6小時(shí)的直播中,后臺視覺大模型實(shí)時(shí)生成了8300多個(gè)動作,40%的動作是直播時(shí)臨場生成的,幾乎沒有動作重復(fù)循環(huán)。
此外,要想達(dá)到類似真人直播的效果,直播過程中和觀眾的實(shí)時(shí)互動,主動邀評,甚至和真人直播間一樣的抽獎、發(fā)福袋等營銷手段促進(jìn)轉(zhuǎn)化也是關(guān)鍵一環(huán)。
當(dāng)真正把一整套直播間操作還原出來,效果也是很明顯的,“整場看下來,觀眾很難察覺出它和真人直播的那種自然流暢有什么區(qū)別。”吳甜說。
3周上線,千元開播,主播走向工業(yè)化復(fù)制
在外界看來,百度像是在做一場高成本的技術(shù)炫技。
但百度的內(nèi)部邏輯,是要把這條路徑快速推向規(guī)模化商業(yè)交付。
平曉黎透露,羅永浩這場直播,從項(xiàng)目啟動到上線,只用了三周時(shí)間。
這個(gè)交付速度,意味著百度數(shù)字人系統(tǒng)的標(biāo)準(zhǔn)化生產(chǎn)能力已經(jīng)走到了工業(yè)化階段。
“未來做數(shù)字人,可能不需要什么復(fù)雜談判、劇本準(zhǔn)備了,直接進(jìn)系統(tǒng),快速訓(xùn)練就能出成品。”平曉黎說。
百度實(shí)際上已經(jīng)形成了兩條產(chǎn)品線:
一條是像羅永浩這樣高定版,專為頂流IP深度定制,打造行業(yè)標(biāo)桿;
另一條是標(biāo)準(zhǔn)量產(chǎn)版,服務(wù)更廣泛的中腰部商家,讓“人人可播”成為可能。
“不是每個(gè)人都要做到羅永浩這種精細(xì)度。”
平曉黎解釋,“很多商家要的其實(shí)是快速低成本能上線、能賣貨。現(xiàn)在千元級別就能開播,我們已經(jīng)做到了。”
播6小時(shí)是為了保護(hù)IP稀缺性,技術(shù)已經(jīng)可以做到24小時(shí)
在商業(yè)模式上,百度對數(shù)字人直播的投入其實(shí)已經(jīng)實(shí)現(xiàn)了正向閉環(huán)。
平曉黎算了一筆賬:
真人直播場地、布景、拍攝、燈光、策劃、人員成本極高,而數(shù)字人制作成本雖然前期定制投入不低,但一旦上線,每天直播的邊際成本極低
——只要服務(wù)器運(yùn)轉(zhuǎn)、后臺團(tuán)隊(duì)在線維護(hù),數(shù)字人可以無限次開播。
“真人一天播三四小時(shí)已經(jīng)很累了,數(shù)字人理論上24小時(shí)都能播。”吳甜補(bǔ)充道,“而且開播時(shí)長越長,單位成本越低,邊際效益越來越高。”
但像羅永浩這樣的頭部IP,他們反而主動限制了時(shí)長——每天只播6小時(shí),是為了保護(hù)品牌的稀缺感。
而對中小商家來說,這種全天候、低成本的數(shù)字人直播,正在成為他們快速起量的新手段。
平曉黎透露,目前百度平臺已經(jīng)有大量商家在咨詢數(shù)字人定制業(yè)務(wù),特別是在教育、旅游、圖書等對標(biāo)準(zhǔn)化講解有天然優(yōu)勢的品類中,效果往往比真人主播還好。
這已經(jīng)是一門正經(jīng)生意了
如果說過去一年外界還把數(shù)字人當(dāng)成試驗(yàn)品,現(xiàn)在百度的數(shù)字人直播,已經(jīng)成為一門實(shí)打?qū)嵉纳狻?/p>
平曉黎透露:“單純數(shù)字人業(yè)務(wù),今年一年下來已經(jīng)有幾十億的收入了,廣告投流、抽傭模型都跑通了。如果按照行業(yè)預(yù)期的百億規(guī)模市場,我們現(xiàn)在基本是遙遙領(lǐng)先的。”
而這背后,是百度的技術(shù)布局在加速融合:
- 文心大模型,不再只是語言生成模型,而是充當(dāng)“靈魂編劇”,控制整個(gè)直播間的劇情走向;
- 視覺大模型,負(fù)責(zé)動作、表情、鏡頭切換、配合節(jié)奏,把整個(gè)直播間動態(tài)還原成近乎真人效果;
- MCP協(xié)議,則在直播電商里形成人、貨、場的閉環(huán),推動智能化電商運(yùn)營全鏈路改造。
可以說,百度這次押注的不只是某一場直播的成敗,而是在用數(shù)字人重新定義電商平臺的底層技術(shù)邏輯與商業(yè)模型。
而交個(gè)朋友副總裁吳加錄的說法,也印證了這一點(diǎn)。
在他看來,電商行業(yè)正在經(jīng)歷從“流量競爭”向“技術(shù)驅(qū)動”的深刻變革。而這次合作不僅是一次技術(shù)嘗試,更是一個(gè)趨勢卡位。
而未來的直播間,很可能從主播、場控、助理、剪輯師、腳本編輯,幾乎全鏈路都將被AI重構(gòu)。
顯然,故事,才剛剛開始。