撰文 | 懂懂
編輯 | 秦言
來源:懂懂筆記
谷歌在2015年曾預測:“未來互聯網世界80%的內容將是以視頻形式呈現的。”
未來已來!十年前的預判在今天幾乎全部實現。不僅如此,視頻在工作生活中的滲透率不斷提升,并且過去一年中又有很多全新視頻體驗來到我們身邊:
AIGC可以快速生產短劇,抖音聯合博納影業出品的《三星堆:未來啟示錄》一上線,便獲得了驚人的1.4億次播放量;
奧運會期間裸眼 3D 觀賽、VR 直播觀賽已成為現實,PICO 還為用戶全新打造了巴黎奧運會觀賽場景;
游戲《黑神話:悟空》爆火,為全球玩家提供了一場虛實融合的 中國文化盛宴,并且帶火了一眾線下旅游打卡圣地;
在15日火山引擎與intel聯合舉辦的“視頻云技術大會”上,火山引擎總裁譚待就以數字分身的形式出現,采用豆包語音合成模型和形象驅動算法,達到真人級別的效果,整個演講過程看上去非常自然、逼真……
所有這些創新應用的背后,都是AI帶來的顛覆性變化。當下,數字視頻時代已經向AI視頻時代躍遷,用戶的需求也在從更流暢、更實時、更高清——升級為更智能、更交互、更沉浸。而要實現這些“更……”,依賴的就是生產、交互、消費等全鏈路的AI升級。
智能生產,多模態使能高品質
正如譚待所描述的,“視頻正迅速崛起為人類的第二語言,其豐富的表達手段和效果遠超傳統文字,為我們提供了更多元、更生動的交流方式。”
隨著視頻的重要性不斷提升,生產端的挑戰便是如何以更少的時間、更低的成本生產出更高質量的內容。
比如在電商領域,過去一年中短視頻、直播、數字人占比越來越高。好的內容可以吸引用戶的注意力,有效傳遞品牌信息,并且激發消費者購買決策。顯然,“好內容”已經成為電商平臺收益增長的第一生產力:優質內容高效快速生產從而拉動商品銷量,隨著商品運營規模大幅增長,營銷成本也在大幅下滑(如上圖)。
火山引擎的多模態電商素材生成方案,通過融合圖像分析、AIGC(人工智能生成內容)、大模型處理、3D物體重建等先進技術,實現了商品氛圍圖、圖文視頻、解說視頻、AIGC視頻和3D商品模型等多模態營銷素材的自動化生。
其帶來的效果是門檻大幅降低:商家只需要提供基礎信息和一些簡單的多模態素材,就可以自動提取賣點、智能裁剪、自動生成視頻。舉些例子,比如輸入乳飲產品的受眾、產地、營養成分,就可以自動生成一張首銷圖或是一段營銷視頻;比如把服裝的圖片上傳,就可以自動生動模特上身的效果圖;比如上傳商品信息之后,可以自動生成一系列內容匹配直播、短視頻、貨架等不同場景需求。火山引擎的多模態電商素材生成方案,端到端自動化讓素材生成更智能、更快捷、更個性。
不止于電商,在短劇、賽事、演出等各種場景,也都有海量的自動化生成內容需求,比如短劇的宣發,演出的切片傳播,賽事的精彩瞬間等等。火山引擎視頻云推出的多模態視頻理解與生成方案,依托多媒體實驗室自研的AI視頻理解技術和AIGC技術,實現了視頻高光的自動化提取和解說內容的生成。一場精彩的演出,可以快速切出多個短片,短劇可以快速生成多段不同視角的預告片,顯著縮短了制作周期,大幅降低傳播、宣傳的成本。
我們知道,聲音是視頻中的關鍵要素, 火山引擎視頻云提供的跨語言同聲復刻直播服務,可以實現自動配音、自動匹配字幕,還可以聲音復刻。比如在直播中可以使用豆包大模型Seed-ASR,除了能自動打出 字幕,還支持中文、英語、日語、西班牙語、印尼語、葡萄牙語等多國語言輸出。在虛擬人的直播中,可以高度還原人聲特點、說話風格,還可以調整演講者口型,讓觀感更加自然。以“視頻云技術大會”活動為例,出現在講臺上的“數字人譚待”,無論是體態、表情還是聲音、語氣,都實現了對真人的高品質復刻,令人驚羨。
在新視界時代,生產端的挑戰是如何以更少的時間、更低的成本生成多角度、高信息密度的優質內容。火山引擎通過AI賦能,推出一系列解決方案從而推動了生產力變革:多模態內容根據用戶需求自動生成,智能生產讓創作者的創意得以充分釋放,多模態內容的生產與處理已經變得觸手可及。
智能交互變革,給AI加點“人味兒”
隨著去年大模型火爆之后,與AI交互的應用開始興起。比如手機中的智能助理已經成為用戶與手機溝通的主要方式,很多“I人”不喜歡線下社交,更喜歡與AI聊天機器人互動,現在我們撥打客服電話時很大比例都是機器人在提供服務。
舉個例子,AI陪伴已經開始走進日常生活,并且不僅局限文本交流,而是以數字人化身的形式出現,實現了實時語音對話。作為AIGC原生產品,AI陪伴目前的市場熱度極高,已經是當下人工智能領域成長最快速的賽道之一。據數據網站Insightrackr統計,AI陪伴類產品從今年二季度開始(特別是5月到7月),每月的下載量較上月平均增加94%。
萌寶是一家國內領先的幼兒娛樂啟蒙音視頻內容平臺,為用戶提供兒歌、故事、繪本、語言、認知、科學、藝術等多個領域內容。兒童在平臺上學習、娛樂的同時,高質量、有溫度的AI互動可以令用戶體驗大幅提升:新奇有趣的體驗讓他們更專注;個性化情感陪伴使其收獲理解與關懷;邊聊邊學的益智啟蒙互動使得學習效果更好。
平臺一直想為兒童定制一個AI伙伴,這其中存在諸多挑戰:語音響應延時要低,遇到打斷情況要能自然處理,IP角色音色要貼合,要能真正理解兒童的需求并給出恰當的引導……
總體來講,AI陪伴領域存在技術難度高、成本高、效果難保障等痛點。萌寶最終選了火山引擎AI實時交互方案。方案通過火山引擎豆包大模型和視頻云RTC技術實現了語音數據的高效采集、處理和傳輸,并在服務端為用戶提供了智能對話和自然語言處理的強大能力:毫秒級人聲檢測和打斷響應,以及絲滑穩定的端到端響應體驗。
萌寶對最終的應用效果十分滿意:實時響應,互動非常自然,即使交流中被孩子打斷也可以智能地續接,AI的音色親切且情緒飽滿,給孩子們帶來有感情還有趣的陪伴。最重要的是,系統能夠很精準地理解孩子的需求,提供相應的回復與引導。
這個解決方案源自豆包大模型與實時音視頻技術,用戶不僅能用語音與AI進行交談,還能像平時說話一樣,在對話過程中適時打斷或插話,對整體交流的質量也不受影響。經過升級后的AI聲音相較以往而言更具表現力和感情色彩,對話也因此更自然、更真實、更流暢。
誠然,人與AI交互的實現并不難,但要做好卻非常難。首先要實現功能價值,就是要精準理解用戶的需求是什么;其次還要提供情緒價值,在理解用戶意圖的基礎上,用最自然、最舒服的方式與用戶進行交流互動。
火山引擎對話式AI實時交互解決方案讓智能交互的生產更簡單,這也助力客戶可以針對不同場景不斷創新應用。目前這套方案已經普遍被企業用來定制智能助手、AI社交陪伴、兒童學習陪伴、AI教育、智能客服等服務。其中社交領域最為典型:用戶不僅能夠個性化定制專屬AI Agent,還能在精心設計的劇情中與AI角色深度互動。
顯然,交互端的智能化,給AI增加了不少的“人味兒”,AI變得越來越有溫度。
智能空間,跨時空使能消弭虛實縫隙
今年游戲圈最熱的就是《黑神話:悟空》,其大受追捧的原因之一就是跨時空。
游戲通過無人機實景三維重建等前沿技術,將真實場景的紋理與細節以1:1的比例精準還原到游戲世界中,為全球玩家提供了一場虛實融合的中國風盛宴。用戶在游戲中可以沉浸式觀賞風景與體驗文化,如果愛到極致還可以來一場說走就走的線下旅游,在游戲中被復刻的36個景點,甚至串起了“黑神話旅游專線”。
實際上,2D、3D以及虛實融合的應用已經越來越多地出現在人們的工作生活中。從消費端來看,時空不再有邊界,虛實融合正在引發空間智能化的變革。最近,凱文凱利(KK)預言AI帶來的顛覆第一條就是:5000天后鏡像世界將會誕生。所謂鏡像世界是依靠AR、VR、AI等技術將現實和虛擬世界完美融合,我們會處在一種“沉浸式計算”的時代,到處都是數字化,萬物皆可與AI相連。
針對空間智能化的需求,火山引擎視頻云推出了一系列方案:
基于AI的3D生成方案,用戶僅需簡單上傳所建3D內容參考圖,自研系統就會自動生成關鍵視角和稀疏視角圖像,快速構建出精確的3D幾何結構,與傳統手工3D建模相比,火山引擎AIG3D方案在效率、多樣性和操作成本等方面有明顯優勢;
大場景重建方案,實現了對真實場景的高質量3D幾何構建與外觀重建渲染,廣泛應用于虛擬直播,VR直播等場景中,高效率的生成三維直播布景,增強了用戶的沉浸感體驗;
6DoF直播方案,實現了高質量、超低延時的VR沉浸體驗,已成功應用于抖音VR直播,成為業內首個基于Apple Vision Pro的3D直播,為用戶帶來了震撼的XR體驗。
基于這些解決方案,用戶已經切實體驗到智能空間的價值:從文化傳承的角度,火山引擎與山西高平二郎廟金代戲臺、北京正乙祠戲樓等文物單位合作,將線下珍貴文物轉換為線上的永久數字資源,并打造成虛實融合的沉浸式虛擬直播間。目前已經應用于抖音戲曲直播場景,提升主播直播過程的沉浸感和互動感,助力非遺傳承與保護。
2024年奧運期間,PICO 還為用戶全新打造了會觀賽場景,借助于 VR 大屏,運動員的每一個動作、每一滴汗水、每一幀表情都近在咫尺,沉浸式的極致觀賽體驗讓用戶仿佛置身于賽場當中。英特爾與PICO團隊合作,依托英特爾領先的計算和渲染能力,借助火山引擎的解決方案,啟動了“何以華夏”項目,對珍貴的文化遺產進行虛擬再現和推廣,為用戶帶來沉浸式的文化體驗。
顯然,隨著AI技術的發展,空間智能化得以實現,用戶不再受到時間、空間的限制,消費端的智能化正在消弭物理世界與數字世界的縫隙。
【結束語】
隨著生成式AI、多模態大模型、全景直播、三維重建等技術進步,過去一年我們已經能夠明顯感受到科技飛躍帶來的變化,我們正在迎來一個AI加持下的“新視界”。
從數字視頻時代到AI視頻時代的進化,用戶需要更智能、更交互、更沉浸的體驗,這對生產端、交互端、消費端都提出全新的挑戰。只有通過AI全鏈路賦能實現“三智”,才能支持未來更多模式、應用的創新。
火山引擎視頻云為全鏈路升級提供了強大且穩定的音視頻技術基座,而英特爾則是強大算力的保障。英特爾? 至強? 服務器強大的CPU處理能力,從實時的高達8K的視頻處理能力,到基于 AMX 指令集的 AI 算力,從傳統的 CV 優化到 LLM 和 AIGC的最新應用支持,Xeon 服務器始終為火山引擎提供了強有力的算力支撐和可靠服務。
火山引擎視頻云+英特爾? 至強? 服務器全鏈路全面賦能視頻“新視界”。
冷眼旁觀 麻辣點評 深入分析
個人觀點,僅供參考
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.