《日常生活中的自我呈現》一書中,歐文?戈夫曼將戲劇表演引入社會學。他提出,人們在日常互動里,會依照預設的“劇本”(即社會規范),借助行為管理進行表演,在他人心中留下良好印象。
按照這個理論,數字人直播總被吐槽,原因就是數字人的演技太差,無法呈現出真人主播一樣的觀感,表情僵硬、手勢不自然,無法給大眾留下好印象。
就在最近,數字人主播界突然出現了一位演技實力派——羅永浩。羅永浩數字人在百度電商的首場直播,以長達連續近7小時的高強度直播,實時解答彈幕問題,動輒輸出“羅式段子”,還與助播朱蕭木互相拋梗接梗,刷新了大眾心中數字人的觀感。
甚至有人問老羅,“是不是你在扮演數字人”,簡直倒反天罡。
難辨真假、技驚四座的羅永浩數字人,到底是怎么實現的?6月17日的百度AI開放日慧播星專場現場,百度集團副總裁吳甜,揭秘了羅永浩數字人背后的技術秘密。最關鍵的就是,基于文心大模型4.5T的“劇本”生成與多模協同。
618硝煙正燃,而一場以AI大模型為核心驅動的電商效率革命,正拉開序幕。
大家有沒有這樣的經歷:
評論區的彈幕太多,留言總是得不到主播的回復;
想看直播,但真人主播已經下班了,錯過了專屬紅包和優惠;
自己直播帶貨,但一面對鏡頭就緊張,直播效果不盡如人意;
等頭部主播來助農直播,還得看對方的差旅安排和時間調配……
數字人被視為解決人力局限、實現全天候直播的理想方案。然而,以往的數字人一直無法惟妙惟肖地飾演真人主播,槽點主要集中在幾個方面:
演得不像。數字人的表情、手勢與肢體細節與文案對不上,產生“恐怖谷”效應,讓觀眾感到詭異。
缺少互動。傳統數字人面對超出預設范圍的問題,無法像真人主播那樣靈活應對,只能唱“獨角戲”,讓觀眾喪失了參與直播的積極性與體驗感。
時長不夠。很多數字人只能將短視頻循環播放,難以支撐長時間且一致的內容生成與交互需求,低質量內容不僅影響用戶體驗,還可能被平臺限流甚至處罰。
行為不可控。數字人一旦出現失誤,不僅會損害品牌形象,還可能引發輿論危機,這也是許多頭部主播和品牌對數字人直播持謹慎態度的重要原因。
數字人扮演真人主播,需要跨越重重技術挑戰。那百度電商直播間的羅永浩,又憑啥成為直播“實力派”?
6月15日羅永浩數字人在百度電商,完成了數字人主播的極限挑戰,做到了不少業內首個。
業內首個超級頭部主播數字人直播。羅永浩的粉絲特別多,對真人主播的風格十分熟悉,需要數字人有極高的還原度。數字人羅永浩在直播間妙語連珠,與觀眾高頻互動,舉手投足間散發著熟悉的羅氏魅力。
業內首個超六小時超頭部主播數字人直播,突破了AI視頻生成極限時間,生成的產品講解內容就多達9.7萬字。
業內首個多數字人直播,雙人配合,告別了一個數字人尬聊的局面。羅永浩和朱蕭木的搭檔,高度還原了真實主播與助播的直播狀態。兩個數字人主播能做出喝奶茶、拎可樂等細節動作,還實現了與直播間用戶彈幕的實時互動。
這一系列操作下來,刷新了不少人對數字人的固有印象。而羅永浩數字人的誕生,只用了幾個月的時間,究竟是如何習得媲美真人的“直播神技”?我們扒開了數字人背后的一整個大模型“導師團”。
一場精彩的數字人直播,絕非單一技能的炫技。想象一下,如果數字人語言表達生動流暢,卻搭配著僵硬機械的表情和動作,或是語音語調平淡乏味,如同 “讀稿機器”。這正是傳統數字人技術的痛點:語言依賴臺詞模型,語音靠TTS 合成,表情肢體等視覺表現由視頻合成,各模態模型“各自為政”。數字人的臺詞、表情、動作完全不在一個節奏上,觀眾瞬間就會“出戲”。
作為業內首個多模高度融合數字人,羅永浩數字人的出色表現,正是得益于百度多模協同的數字人技術。
按照歐文?戈夫曼的理論,“劇本”是戲劇表演的核心,演員需依劇本塑造符合期待的形象。數字人領域,“劇本”同樣是關鍵所在。
擁有一個高質量的劇本,就如同數字人有了總指揮,讓語言、語音、視覺等不同模態圍繞劇本,彼此協同配合,才能讓數字人在直播中展現出渾然天成的表現力。
以數字人羅永浩為例,背后就有一個文心大模型的“導師團”進行助力:
首先,是基于大語言模型的劇本生成。
生成劇本的文心大模型,相當于總導演兼總編劇,通過臺詞,為數字人賦予生動鮮活的“靈魂”。拿羅永浩數字人來說,文心大模型4.5T需要攻克以下關鍵難題。其一,風格定制。羅永浩犀利幽默、朱蕭木風趣灑脫,每位主播都有獨特的語言風格,文心大模型通過風格建模,深度學習主播們的語言習慣、表達方式,從遣詞造句到語氣節奏,全方位貼合主播個人風格進行定制,在模型生成的臺詞中精準復現,讓數字人開口自帶主播“味道”。
除了語言風格,人設一致也是數字人獲得觀眾認可的關鍵。特別是在多角色配合時,羅永浩作為主咖,朱蕭木作為助播,文心大模型在生成劇本時,精準把握二人特點與分工,使臺詞在語言上自然附和、緊密配合。比如在產品推薦環節,主播重點介紹核心賣點,助播適時補充細節、引導互動,一問一答、一唱一和,展現出符合人設的行為與語言邏輯。
在文心大模型 4.5T的精心雕琢下,生成了既有真人溫度,高度還原主播個人特色,又有網感,能將商品賣點生動展現的直播劇本。
接下來,就是“劇本圍讀”,讓多模態系統基于劇本,進行信息對齊。
語音大模型作為口語導師,視覺大模型作為動作導師,先根據大語言模型生成的語音標簽和視覺標簽,然后生成協調一致的語音和表情動作,賦予數字人影帝、影后般的表現力。
這個過程的難點,是多個模型的對齊。想象一下,如果語音模型理解的臺詞情感激昂,而視覺模型呈現的卻是平淡表情,數字人就會“表里不一”,讓觀眾倍感違和。百度AI數字人,以大模型生成的劇本為統一標尺,確保從臺詞到語音、從表情到動作,各環節的理解與執行步調一致。
比如羅永浩與助播數字人之間,會出現頻繁的打斷說、同時說,需要語音合成系統精準捕捉對話節奏。百度通過加入對話上下文解碼器,整合歷史對話與當前信息,讓數字人在互動時的語音銜接自然流暢,重現真人搭檔的默契感。
同時還建立了反向對齊的反饋機制,也就是語音模型合成后,會基于自身對文本的細粒度判斷進行優化,再將這些信息反饋給視覺模型,實現音畫間的精準匹配,形成一個閉環的協同體系。
通過多模系統的“劇本圍讀”,可以在劇本指引下,完成聲臺行表的默契配合,讓數字人在直播鏡頭前展現出媲美真人的表現力,為觀眾帶來沉浸式的觀看體驗。
六七個小時的直播,數字人只能對著劇本“照本宣科”嗎?為什么數字人羅永浩還能在直播間跟用戶實時互動呢?這就要提到第三個關鍵能力:臨場發揮的靈活性與可控性。
據吳甜介紹,數字人直播就像拍電影,演員的表演并不是照本宣科,要有對劇本的理解和臨場發揮。
其中,劇本作為核心,確保數字人行為邏輯的一致性,而文心大模型則賦予其應對復雜場景的“應變力”和長時間的可控性。
在時長如馬拉松式的直播中,現實場景的復雜性遠超想象。用戶突如其來的刁鉆提問,直播間場景內人物、商品、環境的自由交互,都暗藏著不可控因素。讓數字人在復雜交互場景中也能游刃有余,文心大模型是這場技術突圍的“智慧中樞”。
一方面,依托大模型的語言理解與生成能力,結合直播場景的高頻需求進行針對性訓練,賦予數字人實時理解用戶意圖的“洞察力”。在羅永浩數字人直播中,AI知識庫1.3萬次的調用,9.7萬字的內容生成,正是文心大模型強大創造能力的直觀體現。
另一方面,依托文心大模型4.5T的深度思考能力,在劇本生成時先進行規劃和思考,搜索最優路徑,再通過評價和評估,提升最終的可控性。
當數字人在直播間自如切換講解模式、巧妙化解突發提問,與用戶深度互動,背后正是多文心大模型在持續穩定地發揮作用,為數字人直播行業開辟出長時、靈活、可控、優質的全新賽道。
總結一下,羅永浩數字人直播的成功,離不開百度大模型技術體系的托舉,也是百度大模型技術實力的具象化呈現。
歐文?戈夫曼的“擬劇理論”成為社會學經典,在于其揭露了社會協作的基礎——每個人依據劇本扮演良好形象,教師扮演好傳道授業的角色,醫生恪守救死扶傷的職責,整個社會才能有序運轉。
當直播行業走過野蠻生長的黃金期,流量紅利消退,主播需要扮演什么樣的角色呢?或許是專業導購,能夠對產品細節和專業知識娓娓道來;是貼心客服,及時響應用戶的每一個疑問;是知心朋友,在用戶需要的時候提供全天候陪伴……這樣才能與觀眾建立信任紐帶,走向高質量發展。
專業且敬業的真人主播,培養不易,開播成本也是中小商家所無力負擔的。這時候,AI數字人的技術革命,成為打破直播效率困局的關鍵。
在大廠紛紛布局數字人,競爭白熱化的背景下,百度依然憑借AI技術優勢,構建起數字人的差異化能力:
一是先進。百度數字人直播的技術能力如劇本生成、多模驅動、一致性和高擬真性等,是業界天花板。對數字人技術要求苛刻的超級頭部主播來說,選擇百度數字人放大IP價值,用自身的專業能力24小時服務用戶。
二是專精。當部分企業投入海量資源研發通用型視頻生成技術時,百度深耕數字人直播場景,推出的慧播星數字人系統已服務超10萬商家,覆蓋32個垂直行業。對中小商家來說,通過百度數字人可以輕松開播,品嘗到AI技術帶來的增長紅利。
三是性價比。借助百度AI技術,品牌商家可獲得“人貨場”的全面助力,除了數字人,還可以利用AI技術對商品進行深度分析和理解,實現商品的智能管理和精準營銷。提升收益的同時,百度數字人的綜合成本比真人主播要低,而且隨著開播的場次越多,它的邊際收益越高,未來數字人的生產制作成本還會進一步的下降。
這場從流量爭奪到技術深耕的變革,正在重新定義直播行業的未來。當數字人頂流登上直播舞臺,百度AI驅動的直播下半場,也是智能電商的新篇章。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.