西風 發自 凹非寺
量子位 | 公眾號 QbitAI
羅永浩,干不過羅永浩???
今年618大促,羅永浩數字人百度電商直播上崗,“一不小心”就創造了個紀錄——
帶貨單量超5月羅永浩真人百度電商直播首秀同期數據
只見交個朋友直播間中,不單單羅永浩一個數字人現身,還有朱蕭木(交個朋友直播間副主播)數字人擔任“助播”。
倆“人”全程互動配合默契,說話、動作、神態那叫一個自然。
看視頻效果,和真人直播不能說一毛一樣吧,那也是真假難辨的程度!
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
甚至有人在評論區問老羅“你是不是真人在扮演AI,要是被威脅了就眨眨眼”。
就連羅永浩本人“羅氏幽默”的特色直播風格,數字人也能高度復刻
比如羅永浩數字人賣花生油:
- 有人問吃花生油會不會變胖,胖也沒關系,我們有一款T恤可以穿到200斤,你在我直播間就能形成閉環。
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
各種花式回答,讓人眼前一亮又一亮,自嘲式回復網友問“棉柔巾臉大得用幾張”,be like:
- 你臉大有多大?能有我210斤的臉大嗎?我也就用一張就夠了。
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
一場直播下來倆數字人真的是贏麻了,戰績斐然:
不僅直播吸引了超1300萬人次觀看GMV(商品交易總額)突破5500萬元
甚至部分3C、食品等核心品類商品帶貨單量,羅永浩數字人超過了羅永浩真人5月份在百度電商直播首秀的同期數據,用戶平均觀看直播的時長也超過了5月真人首秀。
這究竟是怎么做到的?
數字人直播現在都進化成啥樣了?
在最新百度AI開放日慧播星專場現場,百度同步智能電商進展,其中就揭秘了羅永浩數字人背后的秘訣。
原來,這次出戰618的羅永浩數字人,是由百度電商數字人直播工具慧播星打造的高說服力數字人,本質上是一個具備形象+感知決策+行動的超級智能體
相比以往數字人,慧播星高說服力數字人實現了四大突破
首先,上線了業界首個雙數字人互動直播間體驗大突破。羅永浩和朱蕭木兩個數字人能默契配合進行互動講解就是基于此。
雙數字人互動直播間還原了“主播+助播”真實直播狀態。
得益于百度視覺大模型+語音大模型的全面升級,雙人講解時采用雙音軌,不僅銜接更自然,而且支持打斷說、同時說,能適配更復雜的場景。
觀眾在觀看時很難看出什么破綻,就像是在看真人直播。
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
其次,慧播星推出了全新大師級別劇本模式直播內容實現了突破
現在,直播劇本生成不再是簡單的腳本生成了,文心大模型4.5 Turbo加持,數字人能輕松復刻出個人直播風格。
這種人格化表達讓數字人直播告別機械感,有網感,懂熱點。
比如結合剛結束的四六級考試也能講段廣告詞:
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
另外一大突破是視覺上的,慧播星高說服力數字人在業內率先實現了多模高度融合
數字人由動作驅動,動作、表情、語調等多模態都能自動貼合話術表達進行配合
比如在介紹護膚品的功效時,數字人會一邊摸著自己的抬頭紋、頸紋,一邊講解。
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
另外,它還能基于腳本實時調度素材,畫面銜接也更流暢自然。
第四點是整體直播效果上的突破負責直播控場的AI大腦全面升級
在直播過程中,AI大腦會主動邀評,吸引直播間用戶參與互動;同時能即時回復用戶評論,哪怕是復雜直播場景,應對起來也游刃有余。
除此之外還有多種玩法,比如發福袋、在評論區抽幸運觀眾送禮物等,智能體能夠實時控場促進轉化。
視頻鏈接:https://mp.weixin.qq.com/s/xfkpXEo-MQVgjZP4mmtIcw
活動現場,百度還宣布了百度優選和交個朋友正式達成戰略合作,羅永浩成為慧播星首席體驗官
交個朋友副總裁吳加錄直言,看到羅永浩數字人的表現有被驚嚇到,逼近真的效果讓他擔憂——羅永浩本人要失業了?
背后“黑科技”:多模協同的數字人技術
深入探究這一系列突破的底層邏輯,會發現百度采用的是自研的以語言模型為核心驅動、多模協同的數字人技術解決方案。
從技術上來看,數字人若要在長時間內維持高水準的一致性與擬真性表現,單一模型顯然無法滿足需求。
百度的技術路徑是以語言模型作為核心驅動單元,通過語言模型生成直播劇本,再通過劇本指導協調語音、視覺等多模態系統實現動態交互,最終塑造出有高表現力、形神兼備的數字人形象。
具體來看其中關鍵環節的技術。首先是劇本生成,其重點之一在于數字人臺詞生成。
臺詞包括多樣化風格、擬真化人設和具有吸引力的內容。
其中多樣化風格,涉及風格建模、風格生成和風格定制;擬真化人設,需要模型在臺詞生成上建設相應的能力,包括人設建模、人設還原、多角色協同;吸引力內容靠的是內容規劃、深度思考以及知識增強。
此外,基于大語言模型的劇本生成也包含視覺標簽、語音標簽生成,以實現多模驅動的協同。
在大模型協同過程中,這些標簽是開放級的,由這些標簽驅動的語言來進行語調和風格的控制。
以羅永浩數字人劇本為例,基于文心大模型4.5 Turbo生成的劇本,需要展現主播的個人特色,具備典型的羅氏幽默風格,并能夠實現雙人主播的內容協同,動態實現豐富的實時互動。
劇本生成后,關鍵環節還包括語音合成視頻生成
語音合成方面,數字人場景對語音合成提出了更高的要求,和以往朗誦式語音合成有很大區別。
最主要的區別在于數字人需要語音自然流暢,但在講述不同內容時還要有抑揚頓挫感,在一些情況下甚至需要激情澎湃感以感染觀眾。
百度在這方面的做法是:
通過文本自控的語音合成大模型的,實現高復原的語音合成能力,再結合直播臺詞及發音人特征,合成風格適當、自然流暢的聲音。
具體到羅永浩數字人的這場直播,還要面對老羅和朱蕭木直播中雙人聲音配合的難點,對此百度采用了對話上下文編碼器,把對話歷史輸入和當前對話進行語音合成的統一推理計算,最終才讓我們看到了流暢、自然的雙人對話效果。
還有一個關鍵環節是數字人形象生成與驅動
視頻生成方面需要進行高表現力動作對齊,以及支撐唇動、表情生成和對齊。更重要的是,數字人不只是一個視頻,數字人還要和用戶實時進行動態交互。
目前市面上存在大量視頻生成模型,可以生成10s、20s,甚至30s的視頻。但數字人要進行直播工作,這些還遠遠不夠。
數字人需要的是小時級的一致性,而且還要高表現力,人、物、場要能自由交互。
百度為此建設了數字人形象生成和驅動的一整套技術,讓數字人具備多模協同、高表現力、復雜交互能力。
該技術是一個可控的、長視頻的生成工作;通過視頻、劇本、語言、骨骼等特征,結合多模態視頻理解、跨模態信號生成、視頻生成等技術,實現了高一致性數字人長視頻的生成。
普通人都能人均一個“主播”頭銜
數字人技術的突破,不只促成了羅永浩數字人直播的成功?,F在使用數字人技術的門檻越來越低,即使沒有團隊、沒有直播經驗的新人主播,也能輕松get數字人分身
一些中小商家早就用這種模式,實現7×24小時不間斷直播,訂單量猛漲。
真實案例如三農領域創作者東北翠花,通過短視頻分享東北的風土人情和美食,之前對于直播卻缺少經驗,效果一直不理想。
而通過慧播星,翠花的數字人直播間深度結合生活場景,利用極具地域特色的鄉村環境、貼近日常的呈現方式,構建強代入感的消費氛圍。
用戶產生了情感聯結與消費信任,驅動訂單量實現10倍增長。
另一個案例是新會陳皮的源頭產地商家廣蕓堂。
過去做真人直播時,廣蕓堂一直受主播差旅、時間調配這些高額成本所困。數字人突破了這一限制,借助技術優勢,一邊直觀呈現原料生長的真實環境,一邊通過靈活切鏡,把陳皮的色澤紋理、觸感細節等細微品質,全方位清晰展示。
“產地直采、品質可控”的概念轉化為可視化、可感知的體驗,大幅強化消費說服力,直接助推GMV實現160%的增長。
數字人技術的規模化落地,正是百度AI戰略深度實踐的重要印證。百度優選平臺作為國內最早提出智能電商的平臺,率先探索AI應用場景實踐。
數據顯示,目前已經有累計超過10萬的商家在百度通過數字人直播,覆蓋電商、教育、醫生、法律等幾十個行業,使用了數字人直播的商家GMV平均提升62%,降低了80%的開播運營成本
現在,伴隨618大促,百度還發布了兩大計劃扶持商家:
夢蝶計劃,通過流量扶持,超頭主播數字人打造、預算扶持,實現百度優選超頭主播的數量倍增。
繁星計劃,再次追加10萬個慧播星數字人,投入1億元數字人消費補貼,千萬級別的運營扶持,幫助更多的普通人、中小企業開啟數字人直播。
數字人技術不是頂級主播的專屬,而是普惠共享的新型生產力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.