新智元報道
編輯:Aeneas 桃子
【新智元導讀】剛剛過去的618,羅永浩又創下炸裂新紀錄——被自己的AI分身打敗了!在百度電商直播間,羅永浩數字人強勢登場,不僅爆梗頻出、神似度拉滿,還一舉打破老羅本人首秀紀錄,成交額破5500萬。這背后,大模型已成為幕后操盤手!
爆了爆了,羅永浩直播間又爆了。
就在剛剛過去的618,老羅在百度電商直播破了紀錄——
觀看人次超過1300萬,商品交易總額破了5500萬!
你以為是真人打敗了真人?錯了,這一次,是老羅真人被他的數字人打敗了。
這次帶貨單量,直接超越了老羅真人百度電商首秀的同期數據。
這個紀錄,甚至驚動了外國媒體。
看看直播間這個老羅,隨便一張口就能爆個金句,那味兒簡直太正了。
「人到中年還能靠顏值吃飯,也是一種本事?!?/p>
「彈幕上問我怎么辨別茅臺真假,簡單喝一口,心疼就是真的,肝疼就是假的?!?/p>
「有人問方便面好不好吃,買回去嘗嘗,好吃就分給朋友一點,不好吃就全分給朋友。」
旁邊的助播——朱蕭木數字人,也是跟真人傻傻分不清。
而部分3C、食品等核心品類商品帶貨單量,老羅的數字人也直接吊打真人,超越了老羅本人5月份在百度電商直播首秀的同期數據,用戶平均觀看直播的時長也超過了5月真人首秀。
這個數字人,怎么比本人還像本人?
為什么我們看到的「老羅」,無論是長相、微表情、聲音,還是口中爆出的梗,都如此酷似真人,形神兼備,模仿出了老羅的「靈魂」?
是老羅本人都嚇到的程度
這背后,就是百度研制的多模協同數字人技術了。
該技術方案重點包含劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成五項創新技術,實現了數字人「神、形、音、容、話」的高度統一。
最終,呈現出一個具備高表現力,內容吸引人,人-物-場可自由交互的超擬真數字人。
如何解決?讓我們詳細看下這套多模協同的數字人技術。
黑科技揭秘,技術點全解讀
1.語言模型為核心的劇本生成
這套方案中,劇本生成是核心環節。
這是一個復雜的多維聯動的過程,包括臺詞、多模驅動和動態交互三部分。
·臺詞
劇本生成的核心是臺詞,這是一個融合了多模規劃和深度思考的過程。
這次老羅直播的反響之所以如此熱烈,一大原因就是兩位主播老師活靈活現的臺詞。
而做到這一點,有三大關鍵問題要解決。
首先,臺詞本身是有多樣化風格的,需要配合主播本人去打造,因此百度團隊開展了風格建模,能夠實現對不同風格的生成和定制。
第二,就是打造擬真化的人設,進行不同人設的建模和還原,面對直播間存在多位主播的情況還要在臺詞生成階段就考慮不同角色之間的協同。
第三,直播間講品時,在講述有吸引力內容的同時要杜絕幻覺出現,因此要平衡內容的創造力和真實性,需要引入深度思考和知識增強等。
具體到老羅數字人的實際技術實施中,百度基于文心大模型4.5 Turbo,投入了他真人直播數據,依托轉錄挖掘、優質提煉、仿寫合成與自動評估等四個環節不斷優化訓練語料,使模型學習兩位主播的語言特點與思維習慣。
同時引入多角色協同機制,對不同主播的表達邏輯進行建模,使對話在語義推進、節奏控制和風格調性上保持協調一致,帶給直播觀眾流暢、自然的觀看體驗。
·多模驅動
多模驅動,是指大語言模型基于任務目標與主播人設生成基礎臺詞,并同步輸出視覺與語音的多維標簽。
比如在語音合成的時候,會利用劇本當中的段間標簽,來完成語音段間語調的協調一致,而文本內容也能驅動TTS完成細顆粒度語調的協調一致。
有了語音合成的數據,和劇本對視頻的要求之后,在視頻的合成和生成時,就能夠對高表現力的動作進行對齊,對唇動、表情生成進行對齊,最終實現「聲、形、意」三模態的統一。
·動態交互
動態交互是數字人能夠像真人一樣,與用戶互動的關鍵能力,也是體現數字人真實性的關鍵因素。
百度團隊設計了豐富的動態交互模式,還通過視頻斷點設計,讓動態視頻片段能夠在視頻流中順暢銜接。
2.文本自控的語音合成
在數字人場景中,語音合成也有一系列難點和挑戰。
在以前,語音合成很多都是朗誦式的,非常字正腔圓,但在直播間里,說話就要更加自然、流暢,在特定場景時,主播還要非常有激情。
我們在老羅數字人直播間里看到的兩位數字人主播自然流暢、抑揚頓挫的語音,百度是如何通過技術手段實現的呢?
這就要歸功于文本自控的語音合成技術了。
比如下面這段,首先朱蕭木在開場時,會語氣平靜地說:「咱們今天給大家帶來一款特別適合夏天聚會喝的啤酒。」
然而老羅的語氣就會從平靜到熱烈,開始激情澎湃:「沒錯,青島啤酒,這可是真正的國民品牌,1903年就創立了,這不用說,真老品牌了吧。來,蕭木,咱們先倒上,給大家看看這酒體?!?/p>
可以看出,這個過程中的難點,就在于語音的高度還原,以及雙人配合中時常會出現的打斷說話、附和說話。
通過文本自控的語音合成大模型,實現字級別指令遵循的合成能力,控制聲音效果的平滑流暢,再結合直播文本及發音人信息,合成風格恰當、自然流暢的聲音。
而為了解決老羅和朱蕭木這種老搭檔式的雙人配合,團隊還加入了「對話上下文解碼器」,將歷史對話和當前對話的信息來統一進行合成時的推理計算,最終順利實現了大量打斷、復說的場景。
3. 數字人長視頻,超擬真,高一致性
在直播間,要實現數字人本身的形象生成和驅動,挑戰也非常大。
首先就是上文提到的多模協同,需要做到多向的對齊,從而實現「音、容、話」三者的一致性。
另外,看到兩位主播在帶貨過程中有大量講品的動作跟手勢,這種高表現力的動作和標簽,能給用戶更強的感染力,但對技術的要求極高。
而且,直播間中還有一個復雜交互的問題,主播本人、面前商品以及背后場景的自由交互,都需要符合物理世界規律,不能出錯。
比如一個數字人舉起茶杯,嘴里說出「一起品著茶,聽我娓娓道來」,此外還有語音和動作的配合,這就必須做到人-物-場的信息一致性,才能生成對應的高可控視頻。
最后一個挑戰,就是超長時長了?,F在的一場直播動輒七八個小時,如何在這么長的時間里保持這種高度的一致性,也是很大的挑戰。
在數字人形象生成以及驅動方面,百度通過結合多模態視頻理解、跨模態信號生成、視頻生成等技術,克服了高可控交互,高精度、長時間一致性保持等難點,實現了高一致性超擬真羅永浩數字人長視頻生成。
而且在此過程中,能保證語音、口型、表情與動作始終保持高度同步,從而實現真正的「音、容、話」一致。
而具體到老羅直播間,因為整場直播的商品都非常豐富,不僅品類繁多,體積、位置、用途也各異,為了實現超長視頻的一致性,團隊對人的ID和商品ID都進行了專門的建模。
這樣,就做到了在很長的講品時間內,數字人都體現出了令人驚嘆的高可控交互、人和物品的雙高精度,以及長時間的一致性。
大模型持續狂飆,這波風口不蹭虧大發!
羅永浩數字人直播的成功,是文心大模型持續迭代的最新成果。
作為國內最早投入大模型產研的企業之一,百度在芯片、框架、模型、應用四層技術棧上全面布局,并構建起一套從技術到應用的完整戰略打法。
作為百度AI技術的核心,文心大模型在過去幾年時間已從1.0連續迭代至4.5,再到最新4.5 Turbo和思考模型X1 Turbo的推出,恰為數字人直播提供了強大的支撐。
百度集團副總裁吳甜用了一個生動的比喻:數字人直播就像拍電影,劇本——語言模型提供整體框架,而演員——語音和視覺模型在理解劇本的基礎上進行個性發揮。
另一方面,技術和產品永不分家。體驗好不好,是要從這兩個角度同時考慮。
直播間直播時,數字人的回應如何照顧用戶感受,將體驗效果極大化,模型本身又觸發的邏輯和策略,但還需要綜合考慮產品體驗。
這種技術架構,不僅提升了直播的真實感,也為未來千人千面個性化奠定了基礎。
全面進入產業腹地,走向大規模應用
老羅數字人直播的核心優勢,在于成本和效率的領先。
如今,數字人直播的制作已控制在千元級別,遠低于真人主播的費用。
未來隨著AI迭代,生成制作和在線服務成本,將會進一步下降為規?;瘧娩伷降缆?。
百度計劃,在未來三個月到半年內,進一步優化技術降低成本,推動數字人直播的市場化。
文心大模型的泛化能力和遷移能力,使得數字人技術不僅適用頭部主播,也能快速適配中長尾主播。
即便是數據量較少的普通主播,模型也能通過其他主播數據,實現個性化數字人的生成。
這種普惠化策略,將推動數字人直播在電商、教育、旅游等領域的廣泛應用。
據預測,數字人市場規模將在2026年突破百億。而百度憑借先發優勢,已經處于行業領先地位。
數字人直播的長期價值,在于對直播生態的重塑。它不僅是技術的勝利,更是市場接受度和生態融合的起點。
未來,當數字人從直播間走向產業縱深,一場靜默的技術滲透早已悄然展開——它們不再是替代人類的「打工人」,而是進化成撬動行業升級的新杠桿。
從帶貨直播間到文旅場景,從在線客服到虛擬講師……數字分身正在重新定義「生產力」的新邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.