作者 | Yoky
郵箱 | yokyliu@pingwest.com
5500萬(wàn)GMV,這可能是迄今為止,一個(gè)AI數(shù)字人單次直播帶來(lái)的最高銷量。
過(guò)去幾年內(nèi),數(shù)字人直播代替真人主播的傳言總是一波又一波,空無(wú)一人的直播基地?zé)o數(shù)手機(jī)屏幕“自動(dòng)地”產(chǎn)生著GMV,這個(gè)畫面曾經(jīng)擊中了無(wú)數(shù)網(wǎng)友的心。但現(xiàn)實(shí)是,這些數(shù)字人們機(jī)械重復(fù)的動(dòng)作、無(wú)法隨機(jī)應(yīng)變的話術(shù)反而讓真人主播們都松了一口氣。
但這次,真正的轉(zhuǎn)折點(diǎn)來(lái)了。6月15日,羅永浩數(shù)字人在百度直播的第一次亮相,連播近7小時(shí),達(dá)成了1300萬(wàn)人次觀看、GMV突破5500萬(wàn)的成績(jī),不僅破了AI數(shù)字人圈里的記錄,甚至超過(guò)了真人的記錄——互動(dòng)量超真人直播間3倍。
一直以來(lái),數(shù)字人技術(shù)成熟度的一個(gè)核心評(píng)判標(biāo)準(zhǔn),都是與真人主是否存在差距,以及有多大的差距。而在此次的直播間,彈幕里“這是真的還是假的”的評(píng)論不斷刷屏,已經(jīng)證實(shí)了這次AI數(shù)字人的驚人效果。
更重要的是,這不是一次炫技式的表演,而是百度AI在真實(shí)商業(yè)環(huán)境的實(shí)戰(zhàn)演練。當(dāng)整個(gè)行業(yè)還在為文生視頻的“確定性” ,百度已經(jīng)用AI為商家和創(chuàng)作者們端起了第一個(gè)能真正“養(yǎng)活”自己的“飯碗”。
1
如何用AI煉成“真”羅永浩?
這背后并非單一模型的技術(shù)突破,而是一套多模協(xié)同的數(shù)字人技術(shù)。簡(jiǎn)單來(lái)說(shuō),這套技術(shù)將語(yǔ)言大模型置于“總導(dǎo)演”的位置,統(tǒng)籌指揮著語(yǔ)音、視覺等各個(gè)“演員”,完成了一場(chǎng)幾乎以假亂真的演出。
與傳統(tǒng)數(shù)字人技術(shù)形成鮮明對(duì)比的是,過(guò)去的方案往往采用語(yǔ)言、語(yǔ)音、視覺三條獨(dú)立流水線,各自生成內(nèi)容后再?gòu)?qiáng)行拼接,這必然導(dǎo)致音畫不同步、表情僵硬、言語(yǔ)乏味等問(wèn)題。
百度的技術(shù)方案重點(diǎn)包含劇本驅(qū)動(dòng)的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動(dòng)態(tài)決策的實(shí)時(shí)交互、文本自控的語(yǔ)音合成、高一致性超擬真數(shù)字人長(zhǎng)視頻生成五項(xiàng)創(chuàng)新技術(shù),實(shí)現(xiàn)了數(shù)字人“神、形、音、容、話”的高度統(tǒng)一。最終呈現(xiàn)出一個(gè)具備高表現(xiàn)力,內(nèi)容吸引人,人-物-場(chǎng)可自由交互的超擬真數(shù)字人。
具體而言,“劇本”模型扮演了總指揮的角色。它在生成時(shí)輸入的并非只有文本,而是包含商品信息、歷史視頻、主播人設(shè)要求等多模態(tài)信息。劇本會(huì)生成對(duì)視覺和語(yǔ)音的具體要求,即所謂的“標(biāo)簽”,為后續(xù)的視覺和語(yǔ)音模型提供方向性指引,從而確保內(nèi)容、語(yǔ)氣和表情在語(yǔ)義上的高度一致性。
百度集團(tuán)副總裁吳甜告訴硅星人,多模態(tài)協(xié)同的難點(diǎn)在于多個(gè)模型對(duì)于要求的理解是一致的。這意味著從劇本(導(dǎo)演)到語(yǔ)音、視覺(演員),整個(gè)團(tuán)隊(duì)對(duì)表演基調(diào)有統(tǒng)一認(rèn)知。同時(shí),各個(gè)演員(各模態(tài)模型)又保有自己的“發(fā)揮空間”,比如語(yǔ)音模型會(huì)根據(jù)自身對(duì)文本的細(xì)粒度理解調(diào)整語(yǔ)調(diào)頓挫,而不是完全被劇本的詞語(yǔ)鎖死。
以羅永浩數(shù)字人劇本為例,基于文心大模型4.5 Turbo生成的劇本,充分展現(xiàn)了主播的個(gè)人特色,具備典型的羅氏幽默風(fēng)格,并能夠?qū)崿F(xiàn)雙人主播的內(nèi)容協(xié)同,動(dòng)態(tài)實(shí)現(xiàn)豐富的實(shí)時(shí)互動(dòng)。
在單體完成“真老羅”的打造后,體現(xiàn)直播生命力的實(shí)時(shí)互動(dòng)成為另一個(gè)更關(guān)鍵的挑戰(zhàn)。面對(duì)評(píng)論區(qū)海量、無(wú)序的用戶提問(wèn),以及與助播的配合上,數(shù)字人如何做到實(shí)時(shí)、自然的回應(yīng)?這背后是一套動(dòng)態(tài)決策系統(tǒng)。
在直播過(guò)程中,模型并非對(duì)每個(gè)問(wèn)題都立即回復(fù)。系統(tǒng)會(huì)對(duì)評(píng)論區(qū)進(jìn)行智能分析,結(jié)合主播當(dāng)前的講解節(jié)奏,選擇合適的時(shí)機(jī)、合適的問(wèn)題,以及合適的回答策略進(jìn)行觸發(fā)。這種“謀定而后動(dòng)”的機(jī)制,遠(yuǎn)比簡(jiǎn)單的“一問(wèn)一答”更接近真人主播的互動(dòng)邏輯。
為了徹底解決實(shí)時(shí)生成的延遲問(wèn)題,百度采用了“流式生成”的工程化設(shè)計(jì)。語(yǔ)言、語(yǔ)音、視覺三個(gè)模態(tài)并非串行等待,而是像流水線一樣并行工作,極大縮短了用戶感知的時(shí)延。同時(shí),系統(tǒng)采用“離在線統(tǒng)一”的方法,部分可預(yù)見的交互內(nèi)容可以提前處理,而需要即時(shí)反應(yīng)的部分則在線動(dòng)態(tài)生成。通過(guò)系統(tǒng)性優(yōu)化,成功解決了生成視頻這類高耗時(shí)任務(wù)的卡點(diǎn)問(wèn)題,最終實(shí)現(xiàn)了絲滑的交互體驗(yàn)。
更進(jìn)一步地,在雙人直播中,大量的打斷、復(fù)說(shuō)、搶話等場(chǎng)景對(duì)語(yǔ)音合成提出了極高要求。吳甜提到,通過(guò)引入“對(duì)話上下文解碼器”,模型能夠結(jié)合歷史對(duì)話信息進(jìn)行推理,從而實(shí)現(xiàn)老搭檔之間那種默契、自然的對(duì)話流。
在數(shù)字人形象生成以及驅(qū)動(dòng)方面,百度通過(guò)結(jié)合多模態(tài)視頻理解、跨模態(tài)信號(hào)生成、視頻生成等技術(shù),克服了高可控交互,高精度、長(zhǎng)時(shí)間一致性保持等難點(diǎn),實(shí)現(xiàn)了高一致性超擬真羅永浩數(shù)字人長(zhǎng)視頻生成。
而且在此過(guò)程中,能保證語(yǔ)音、口型、表情與動(dòng)作始終保持高度同步,從而實(shí)現(xiàn)真正的「音、容、話」一致。
從煉成“羅氏幽默”到跑通商業(yè)閉環(huán),百度數(shù)字人不僅為行業(yè)樹立了新的技術(shù)標(biāo)桿,更重要的是,它為AI技術(shù)如何從“熱搜”走向真實(shí)的生產(chǎn)線,提供了一份極具說(shuō)服力的答卷。
1
不要“超級(jí)應(yīng)用”,要“超級(jí)有用”
對(duì)于在直播電商紅海中拼殺的千萬(wàn)商家而言,現(xiàn)實(shí)的挑戰(zhàn)正變得愈發(fā)尖銳:頭部主播簽約費(fèi)動(dòng)輒千萬(wàn),自建團(tuán)隊(duì)每月固定開銷數(shù)萬(wàn)甚至數(shù)十萬(wàn),而流量獲取成本卻在持續(xù)攀升。在這種環(huán)境下,如何在保證效果的前提下控制成本,成為每個(gè)商家必須面對(duì)的生存課題。
數(shù)字人技術(shù),一度被視為破局的希望。然而,早期的數(shù)字人更像是一個(gè)“不知疲倦的播報(bào)員”,形象呆板、互動(dòng)生硬,無(wú)法傳遞信任,更遑論激發(fā)購(gòu)買欲。它們解決了“有沒有”的問(wèn)題,卻沒能解決“好不好用”的核心痛點(diǎn)。市場(chǎng)真正需要的,不是一個(gè)僅僅能節(jié)省成本的“工具”,而是一個(gè)能真正替代真人、創(chuàng)造價(jià)值的“戰(zhàn)力”。
那么,一個(gè)“真正可用”的數(shù)字人到底意味著什么?它不僅要形象逼真,更要具備三項(xiàng)核心能力:能理解商品、能與人互動(dòng)、能建立信任。羅永浩數(shù)字人直播的案例,恰恰為這三點(diǎn)提供了行業(yè)標(biāo)尺。它不再是簡(jiǎn)單的產(chǎn)品復(fù)讀機(jī),而是能用“羅氏幽默”與觀眾調(diào)侃,能根據(jù)實(shí)時(shí)提問(wèn)調(diào)整講解策略,最終實(shí)現(xiàn)了與真人主播幾乎無(wú)異的帶貨效果。
從商業(yè)角度審視,這背后反映的是兩筆關(guān)鍵賬目的變化:
第一筆是成本賬。數(shù)據(jù)顯示,數(shù)字人直播能平均降低約80%的成本。這意味著商家可以將過(guò)去投入在昂貴主播身上的預(yù)算,轉(zhuǎn)移到供應(yīng)鏈優(yōu)化和市場(chǎng)推廣上,徹底重構(gòu)成本結(jié)構(gòu)。千元級(jí)別的投入,就能獲得一個(gè)7x24小時(shí)在線的主播,這在過(guò)去是不可想象的。
第二筆是效率賬。在保健品、教育、旅游等需要深度講解的品類上,知識(shí)儲(chǔ)備無(wú)限、表達(dá)精準(zhǔn)無(wú)誤的數(shù)字人,其轉(zhuǎn)化效率已開始超越真人。對(duì)于擁有好產(chǎn)品但缺乏優(yōu)秀主播的商家,或是不希望核心名師被直播消耗的教育機(jī)構(gòu)而言,數(shù)字人代表著一條全新的增長(zhǎng)路徑。
“好用”的數(shù)字人并非憑空而來(lái),它的出現(xiàn)反映了不同公司在技術(shù)路徑上的戰(zhàn)略分化。當(dāng)我們從市場(chǎng)應(yīng)用效果反推其背后的技術(shù)邏輯時(shí),百度的選擇便清晰地浮現(xiàn)出來(lái)。
當(dāng)前行業(yè)的主流敘事集中在卷模型,各家比拼參數(shù)規(guī)模和基準(zhǔn)測(cè)試成績(jī)。而百度的路徑更偏向卷應(yīng)用,這一選擇的底氣源于其在多模態(tài)技術(shù)上的長(zhǎng)期積累。
這種“應(yīng)用為王”的戰(zhàn)略,最終指向的是生產(chǎn)力的規(guī)模化落地。復(fù)刻羅永浩更多是技術(shù)天花板的展示,其真正的商業(yè)價(jià)值在于將這種能力以低門檻、可復(fù)制的方式賦能給廣大中小商家。百度電商總經(jīng)理平曉黎在接受采訪時(shí)表示,相比追逐頭部IP,更傾向于“讓更多的中小商家、腰部商家,還有創(chuàng)作達(dá)人能夠做起來(lái)”。
更關(guān)鍵的是,這條路徑驗(yàn)證了AI產(chǎn)業(yè)期待已久的商業(yè)閉環(huán)。從行業(yè)發(fā)展的角度看,羅永浩數(shù)字人直播的意義遠(yuǎn)超一場(chǎng)帶貨本身。它為AI產(chǎn)業(yè)提供了一個(gè)清晰的價(jià)值驗(yàn)證:技術(shù)的最終價(jià)值必須通過(guò)為實(shí)體經(jīng)濟(jì)創(chuàng)造可度量的商業(yè)成功來(lái)檢驗(yàn)。這種“超級(jí)有用”的路徑,或許比追逐“超級(jí)應(yīng)用”的概念更具現(xiàn)實(shí)意義。當(dāng)然,這種模式能否被廣泛復(fù)制,以及在更多垂直領(lǐng)域的適用性,仍需要市場(chǎng)的進(jìn)一步檢驗(yàn)。
點(diǎn)個(gè)愛心,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.