本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第2期
專家點(diǎn)評(píng)
人工智能(AI)的第三次浪潮正以空間智能(Spatial Intelligence)為核心掀起新一輪變革。空間智能即AI在三維空間中感知、推理和行動(dòng)的能力,其核心在于賦予機(jī)器理解物理世界的深度、距離、方位及動(dòng)態(tài)關(guān)系,從而在復(fù)雜環(huán)境中實(shí)現(xiàn)自主決策。VR電影作為空間智能技術(shù)的重要應(yīng)用場(chǎng)景,其借助計(jì)算機(jī)系統(tǒng)及傳感器技術(shù)生成三維環(huán)境,創(chuàng)造出一種嶄新的人機(jī)交互方式,模擬人的視覺、聽覺、觸覺等感官功能,使觀眾沉浸在虛擬境界中。VR電影的全景式立體成像、環(huán)繞音響和人景交互,徹底沖破了傳統(tǒng)影院的維度,使觀眾在視覺和聽覺上完全浸潤(rùn)于影片內(nèi)容,為觀眾帶來(lái)嶄新的沉浸式交互式觀影體驗(yàn)。隨著空間智能技術(shù)的發(fā)展與應(yīng)用,AI技術(shù)與VR技術(shù)的耦合程度越來(lái)越深,未來(lái)VR電影將通過(guò)復(fù)雜運(yùn)動(dòng)模擬、多模態(tài)數(shù)據(jù)融合和智能體動(dòng)態(tài)敘事等技術(shù)的綜合應(yīng)用,推動(dòng)其走向更加交互、更加沉浸和更富個(gè)性化的影像體驗(yàn),并持續(xù)推動(dòng)敘事方式和交互模式的革新。《空間智能技術(shù)在VR電影空間映射中的應(yīng)用探索》一文針對(duì)VR電影創(chuàng)制中面臨的如何在虛擬空間中實(shí)現(xiàn)對(duì)現(xiàn)實(shí)空間的動(dòng)態(tài)映射這一困境,基于空間定位、空間認(rèn)知和空間涌現(xiàn)的邏輯層級(jí),從實(shí)時(shí)追蹤、多模態(tài)映射、三維生成和空間推理等維度,構(gòu)建VR電影的空間智能技術(shù)路徑,為VR電影中虛擬空間與現(xiàn)實(shí)空間的復(fù)雜交互問題提供了解決思路,對(duì)相關(guān)研究人員具有較高的參考價(jià)值。
——潘志庚
教授
南京信息工程大學(xué)人工智能學(xué)院院長(zhǎng)
作 者 簡(jiǎn) 介
陳焱松
北京師范大學(xué)藝術(shù)與傳媒學(xué)院數(shù)字媒體系助理研究員、勵(lì)耘博士后,主要研究方向:數(shù)字影像技術(shù)與藝術(shù)、AI生成藝術(shù)。
北京師范大學(xué)藝術(shù)與傳媒學(xué)院碩士研究生在讀,主要研究方向:數(shù)字媒體。
蔡若彤
摘要
伴隨人工智能技術(shù)的持續(xù)發(fā)展迭代,以空間智能為核心的技術(shù)集群逐漸改變虛擬現(xiàn)實(shí)(VR)電影中對(duì)于現(xiàn)實(shí)空間和虛擬空間的雙重認(rèn)知方式,使VR電影創(chuàng)制進(jìn)入全新階段。為解決VR電影創(chuàng)制面臨的運(yùn)動(dòng)映射、身體映射、動(dòng)態(tài)交互映射等空間困境,本文通過(guò)對(duì)空間智能技術(shù)與VR電影間的關(guān)系梳理,基于空間定位技術(shù)、空間認(rèn)知技術(shù)與空間涌現(xiàn)技術(shù)的邏輯層級(jí),從實(shí)時(shí)追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)、空間推理技術(shù)等維度,初步構(gòu)建VR電影的空間智能技術(shù)路徑,一定程度上解決了VR電影中虛擬空間與現(xiàn)實(shí)空間的復(fù)雜交互問題,有助于持續(xù)推動(dòng)VR電影創(chuàng)制技術(shù)在空間映射中的革新,構(gòu)筑一個(gè)更富沉浸性的虛擬空間環(huán)境。
關(guān)鍵詞
空間智能;VR電影;空間映射;空間涌現(xiàn);智能體(AI Agent)
1 引言
2024年4月,斯坦福大學(xué)教授李飛飛在溫哥華TED大會(huì)上首次向公眾詳細(xì)闡釋了空間智能(Spatial Intelligence)的相關(guān)概念[1]。這一概念最初來(lái)源于心理學(xué),由霍華德·加德納(Howard Gardner)在其著作《心智框架》(Frames of Mind: The Theory of Multiple Intelligences, 1983)中的多元智能理論[2]所提出,主要指人類理解和利用空間關(guān)系的能力,包括空間感知、空間推理、空間表征和空間想象等。此后在人工智能技術(shù)與心理學(xué)的耦合下,結(jié)合計(jì)算機(jī)視覺(CV)、圖像處理、深度感知、空間映射以及機(jī)器學(xué)習(xí)(ML)和神經(jīng)網(wǎng)絡(luò)等技術(shù),賦予機(jī)器感知、理解和導(dǎo)航物理世界的能力。與以往人工智能技術(shù)主要處理二維圖像(包含靜態(tài)和動(dòng)態(tài))不同,空間智能相關(guān)概念及其支撐技術(shù)將人工智能技術(shù)帶入新的深水區(qū),逐步發(fā)展出能夠解釋和推理三維空間的算法能力,邁向?qū)τ趧?dòng)態(tài)實(shí)時(shí)環(huán)境的深度感知與交互。
空間智能的認(rèn)知過(guò)程涉及對(duì)現(xiàn)實(shí)世界與抽象世界中的視覺信息進(jìn)行理解,以及對(duì)信息進(jìn)行想象的能力,其技術(shù)突破不僅推動(dòng)了智能導(dǎo)航、自動(dòng)駕駛和虛擬現(xiàn)實(shí)(VR)等領(lǐng)域的迅速發(fā)展,還為從科學(xué)研究到藝術(shù)創(chuàng)作的廣泛應(yīng)用場(chǎng)景提供了更多可能。尤其對(duì)VR電影而言,深度感知和空間映射技術(shù)為其提供了高度逼真的場(chǎng)景建模能力,機(jī)器學(xué)習(xí)則提升了VR電影系統(tǒng)實(shí)時(shí)優(yōu)化內(nèi)容生成與交互方式的能力。可以說(shuō),以空間智能為核心的系列技術(shù)逐漸改變了VR電影中對(duì)于現(xiàn)實(shí)空間和虛擬空間的雙重認(rèn)知方式,同時(shí)為各類媒介與技術(shù)的融合帶來(lái)深遠(yuǎn)影響。正如當(dāng)前的電影概念不再被簡(jiǎn)單定義為圖像與聲音的組合,不再局限于傳統(tǒng)線性敘事或非線性敘事,而是成為一個(gè)更具開放屬性、更富多維動(dòng)態(tài)、更能復(fù)雜交互的涌現(xiàn)性影像系統(tǒng)[3]。VR電影的表達(dá)形式也伴隨技術(shù)發(fā)展不斷迭代,通過(guò)整合實(shí)時(shí)空間計(jì)算、人工智能及多模態(tài)交互技術(shù),全面步入空間智能的新階段。
2 VR電影的空間困境
虛擬現(xiàn)實(shí)電影作為一種新興媒介,其核心在于構(gòu)建一個(gè)獨(dú)特且具備影像吸引力的數(shù)字世界,使觀眾能產(chǎn)生身臨其境的感受。然而,這種沉浸感的實(shí)現(xiàn)并非簡(jiǎn)單依賴于VR媒介本身的技術(shù)特性,而是建立在虛擬空間與現(xiàn)實(shí)空間之間復(fù)雜的交互技術(shù)機(jī)制之上。從認(rèn)知科學(xué)角度來(lái)看,沉浸感并非單純來(lái)源于虛擬空間所提供的構(gòu)想屬性,而是需建立在現(xiàn)實(shí)空間感知與大腦映射的和諧統(tǒng)一基礎(chǔ)之上。相關(guān)研究表明,無(wú)論是通過(guò)觸覺增強(qiáng)模擬物理觸感以提升虛擬環(huán)境中的真實(shí)感[4],還是通過(guò)虛擬空間與現(xiàn)實(shí)空間的動(dòng)態(tài)對(duì)齊以減輕認(rèn)知負(fù)擔(dān)[5],虛擬對(duì)象與物理對(duì)象的雙向交互能夠?qū)崿F(xiàn)真實(shí)行為映射,進(jìn)而顯著增強(qiáng)沉浸感。
因此,當(dāng)前VR電影創(chuàng)制中面臨的重要空間困境在于如何在虛擬空間中實(shí)現(xiàn)對(duì)現(xiàn)實(shí)空間的動(dòng)態(tài)映射,即當(dāng)VR創(chuàng)造出完全虛擬的環(huán)境時(shí),觀眾的真實(shí)身體仍存在于現(xiàn)實(shí)世界中,如何彌合這種虛擬與現(xiàn)實(shí)、具身性與意向性之間的裂隙。從本質(zhì)來(lái)看,VR電影的空間困境實(shí)際是一個(gè)系統(tǒng)性的問題,涉及計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、電影學(xué)等多重領(lǐng)域,當(dāng)前空間智能技術(shù)能夠從空間定位、空間認(rèn)知、空間涌現(xiàn)等方面對(duì)VR電影空間進(jìn)行優(yōu)化設(shè)計(jì),使觀眾能夠清晰地認(rèn)識(shí)“我”在虛擬情境中的位置、角色及規(guī)則,解決“觀眾是誰(shuí)、觀眾在哪、觀眾要到哪里去”等問題。
2.1 空間定位技術(shù)與運(yùn)動(dòng)映射
運(yùn)動(dòng)映射是指將觀眾在現(xiàn)實(shí)世界中的運(yùn)動(dòng)行為(如行走、旋轉(zhuǎn)、跳躍)映射到虛擬環(huán)境中,使虛擬角色運(yùn)動(dòng)、視角等保持與真實(shí)運(yùn)動(dòng)一致。在VR電影的空間移動(dòng)中,由于VR定位和追蹤技術(shù)的限制,觀眾常被限制為一個(gè)靜態(tài)的觀察者,對(duì)于360°影像進(jìn)行全景觀看,缺少觀眾在這一空間中的位置感知與運(yùn)動(dòng)映射。此后,部分VR電影采用“瞬移式”交互,通過(guò)手柄點(diǎn)擊完成位置跳轉(zhuǎn),以實(shí)現(xiàn)在VR空間中的大幅度移動(dòng)。這樣設(shè)計(jì)雖可解決虛擬空間的運(yùn)動(dòng)問題,但缺乏現(xiàn)實(shí)運(yùn)動(dòng)的連續(xù)性,可能降低沉浸感,同時(shí)也容易引發(fā)觀眾的眩暈感或暈動(dòng)癥[6],從而影響觀眾的體驗(yàn)。因此,靜態(tài)式觀察、程序化交互都限制了觀眾身體在VR空間中的實(shí)際移動(dòng),從而降低了觀眾的運(yùn)動(dòng)映射感。
空間定位技術(shù)集群引入VR電影后,能將觀眾的真實(shí)運(yùn)動(dòng)與在虛擬空間中的運(yùn)動(dòng)進(jìn)行精準(zhǔn)映射,實(shí)現(xiàn)觀眾與虛擬世界間的空間一致性,被廣泛用于解決“觀眾在哪”的問題,極大地推動(dòng)觀眾在場(chǎng)感的塑造。一般而言,空間定位技術(shù)涉及感知空間中的物體位置、自己的運(yùn)動(dòng)軌跡以及相對(duì)于周圍環(huán)境的關(guān)系。在基于人體的運(yùn)動(dòng)映射中,涉及旋轉(zhuǎn)、跳躍等復(fù)雜肢體運(yùn)動(dòng)的檢測(cè),對(duì)精準(zhǔn)動(dòng)作捕捉技術(shù)提出了更高要求。然而,這種高精度追蹤往往需要額外的硬件支持,比如多個(gè)傳感器、攝像頭、慣性測(cè)量單元(IMU)或外骨骼設(shè)備。這會(huì)導(dǎo)致觀眾需佩戴較笨重的設(shè)備,可能也會(huì)限制觀眾的運(yùn)動(dòng)范圍,影響自然的跳躍或旋轉(zhuǎn)動(dòng)作。
2.2 空間認(rèn)知技術(shù)與身體映射
身體映射是指將觀眾在現(xiàn)實(shí)世界中的身體感知(如視覺、聽覺、觸覺等感覺)行為映射到虛擬環(huán)境中,使虛擬角色的感知過(guò)程與觀眾的真實(shí)感知類似。在VR技術(shù)發(fā)展的初期,身體映射的設(shè)計(jì)和實(shí)現(xiàn)能力有限,尤其感官一致性是身體映射的難題之一。以觸覺設(shè)備為例,早期觸覺設(shè)備的功能多采用簡(jiǎn)單的振動(dòng)反饋,主要用于模擬單一的觸碰事件或物體邊緣的感知,缺乏對(duì)物體紋理、形狀和動(dòng)態(tài)變化的精細(xì)模擬,使觀眾的觸覺體驗(yàn)片面而生硬。而在觸覺之外的視覺、聽覺等其他感官,也常會(huì)出現(xiàn)感知不同步的問題。例如,觀眾在虛擬環(huán)境中抓取物體時(shí),視覺上物體已移動(dòng),但觸覺反饋可能延遲或完全缺失。這種感官不協(xié)調(diào)削弱了觀眾的沉浸感,甚至引發(fā)不適[7]。
當(dāng)空間定位技術(shù)解決了“觀眾在哪”的問題之后,空間認(rèn)知技術(shù)需解決“觀眾是誰(shuí)”的問題。空間認(rèn)知技術(shù)集群引入VR電影可增強(qiáng)觀眾對(duì)虛擬世界空間結(jié)構(gòu)、虛擬物品等之間的理解與感知。通過(guò)諸如認(rèn)知地圖映射[8]等技術(shù)框架,空間認(rèn)知技術(shù)能夠?qū)τ脩舾兄J胶驼J(rèn)知偏好進(jìn)行建模,實(shí)現(xiàn)虛擬場(chǎng)景的實(shí)時(shí)生成。例如,根據(jù)觀眾的視線焦點(diǎn)和注意力模式,動(dòng)態(tài)調(diào)整虛擬場(chǎng)景中的燈光、色彩或布局,確保觀眾的注意力集中在關(guān)鍵敘事點(diǎn)上。
2.3 空間涌現(xiàn)技術(shù)與動(dòng)態(tài)交互映射
動(dòng)態(tài)交互映射是指將觀眾在現(xiàn)實(shí)世界中的交互邏輯、交互動(dòng)作映射至動(dòng)態(tài)變化的虛擬環(huán)境及虛擬角色之上。以往 VR電影往往是運(yùn)用單一的交互反饋來(lái)表現(xiàn)虛擬環(huán)境的動(dòng)態(tài)屬性,但虛擬環(huán)境并非單一“觸發(fā)-反饋”的線性世界,而是隨著觀眾行為和敘事進(jìn)程實(shí)時(shí)變化的開放世界。然而,構(gòu)建一個(gè)能夠動(dòng)態(tài)交互的虛擬空間,不僅需要龐大的數(shù)字資產(chǎn)支持,還要依托強(qiáng)大的計(jì)算能力,以實(shí)現(xiàn)從空間設(shè)計(jì)到交互響應(yīng)的完整功能。
當(dāng)空間定位技術(shù)解決了“觀眾在哪”問題,空間認(rèn)知技術(shù)解決“觀眾是誰(shuí)”問題之后,空間涌現(xiàn)技術(shù)實(shí)際上解決了“觀眾要到哪里去”的問題。空間涌現(xiàn)技術(shù)集群引入VR電影后,通過(guò)實(shí)時(shí)的數(shù)據(jù)分析與模擬算法,提前預(yù)測(cè)出虛擬世界中的變化,并生成合適的環(huán)境反饋;與此同時(shí),虛擬角色通過(guò)實(shí)時(shí)感知觀眾行為并生成相應(yīng)反饋,可使虛擬敘事系統(tǒng)更具沉浸感和交互性。然而,這種高度動(dòng)態(tài)、個(gè)性化的敘事反饋對(duì)開發(fā)者提出了極高的技術(shù)要求,尤其是在復(fù)雜的交互場(chǎng)景下,如何保持動(dòng)態(tài)空間的一致性和降低復(fù)雜性,是一項(xiàng)技術(shù)難題。
3 構(gòu)建VR電影的空間智能技術(shù)路徑
針對(duì)VR電影的空間困境,本文基于空間智能技術(shù)集群進(jìn)行梳理,并從空間定位、空間認(rèn)知和空間涌現(xiàn)三個(gè)維度展開探討。通過(guò)實(shí)時(shí)追蹤技術(shù)實(shí)現(xiàn)精確的空間定位,借助多模態(tài)映射技術(shù)優(yōu)化空間認(rèn)知,結(jié)合三維生成與空間推理技術(shù)推動(dòng)空間涌現(xiàn)。基于此,本文構(gòu)建了VR電影的空間智能技術(shù)路徑,為VR電影的空間制作提供了系統(tǒng)性的技術(shù)框架(圖1)。
圖1 構(gòu)建VR電影的空間智能技術(shù)路徑
3.1 實(shí)時(shí)追蹤技術(shù)完成空間定位與地圖生成
在虛擬現(xiàn)實(shí)環(huán)境中,高精度實(shí)時(shí)追蹤技術(shù)是實(shí)現(xiàn)沉浸式體驗(yàn)的核心,其可通過(guò)追蹤觀眾的頭部、手部及全身姿態(tài),定位觀眾在VR電影場(chǎng)景中的位置和方向,還可根據(jù)觀眾在虛擬環(huán)境中自由走動(dòng)、隨機(jī)運(yùn)動(dòng)和視角動(dòng)態(tài)調(diào)整進(jìn)行自適應(yīng)變化,將觀眾的物理運(yùn)動(dòng)與虛擬世界進(jìn)行精準(zhǔn)對(duì)接,從而保證虛擬環(huán)境與現(xiàn)實(shí)世界之間的無(wú)縫交互。
從技術(shù)路線上看,實(shí)時(shí)追蹤技術(shù)包含定位(Localization)、建圖(Mapping)、同步(Simultaneous)三個(gè)邏輯層級(jí)。以新近出現(xiàn)的VR SLAM算法為例,VR/AR代表性產(chǎn)品中微軟HoloLens、谷歌ProjectTango以及Magic Leap都應(yīng)用了同步定位與建圖(Simultaneous Localization and Mapping, SLAM)技術(shù)作為視覺增強(qiáng)手段,SLAM算法生成VR空間地圖的過(guò)程涉及感知環(huán)境、構(gòu)建地圖和優(yōu)化位姿等多個(gè)步驟[9]。
(1)定位,即確定VR頭顯在真實(shí)環(huán)境中的具體位置和方向。一方面需感知環(huán)境,SLAM在生成VR空間地圖時(shí)需采集環(huán)境信息,可通過(guò)深度相機(jī)、激光雷達(dá)等傳感器提供空間內(nèi)的環(huán)境數(shù)據(jù),消費(fèi)級(jí)VR設(shè)備主要通過(guò)RGB攝像頭和IMU采集環(huán)境數(shù)據(jù)、幾何特征和位置關(guān)系。另一方面是特征提取與匹配,SLAM通過(guò)分析采集的數(shù)據(jù),在深度學(xué)習(xí)(DL)支持下提取環(huán)境中的關(guān)鍵特征點(diǎn),并進(jìn)行匹配以實(shí)現(xiàn)定位和建圖。
(2)建圖,即根據(jù)環(huán)境中的傳感器數(shù)據(jù),構(gòu)建環(huán)境的動(dòng)態(tài)空間地圖。基于傳感器數(shù)據(jù)和特征匹配結(jié)果,使用深度信息與位置數(shù)據(jù)將環(huán)境特征轉(zhuǎn)換為三維點(diǎn)云,并通過(guò)逐幀疊加生成初步的三維模型,再進(jìn)行網(wǎng)格化處理,逐步完善VR大空間地圖,同時(shí)通過(guò)算法優(yōu)化提高地圖和定位的精度。
(3)同步,即定位和建圖是同步進(jìn)行的,建圖依賴定位的準(zhǔn)確性,而定位需基于實(shí)時(shí)更新的地圖。SLAM基于地圖建圖階段所輸出的三種類型地圖,包括三維點(diǎn)云地圖(記錄空間中每個(gè)點(diǎn)的位置和顏色信息)、網(wǎng)格地圖(適用于VR系統(tǒng),提供連續(xù)的三角化表面)、語(yǔ)義地圖(標(biāo)注區(qū)域功能和物體類別,便于交互設(shè)計(jì))。隨后,相關(guān)地圖被導(dǎo)入VR引擎(如Unity或Unreal Engine),結(jié)合設(shè)備的實(shí)時(shí)位置和方向,實(shí)現(xiàn)用戶在虛擬空間中的精準(zhǔn)定位與交互[10,11]。
以VR大空間體驗(yàn)《消失的法老》(Horizon of Khufu)為例,整個(gè)體驗(yàn)區(qū)域超過(guò)500平方米,可同時(shí)容納80余名觀眾在以1∶1比例還原的金字塔內(nèi)部場(chǎng)景中自由探索,與其他參與者實(shí)時(shí)交互,這需要實(shí)時(shí)精準(zhǔn)的空間定位、高效的網(wǎng)絡(luò)同步和低延遲的數(shù)據(jù)傳輸技術(shù),以確保多人體驗(yàn)的流暢性和一致性。此后,2024年國(guó)內(nèi)相繼推出的VR大空間項(xiàng)目如《巴黎舞會(huì)》《永遠(yuǎn)的巴黎圣母院》《蒼蘭決》《秦潮覺醒》等都采用了空間定位技術(shù),體驗(yàn)空間達(dá)幾十到幾百平方米不等。SLAM系統(tǒng)的空間支持范圍從數(shù)十平方米的室內(nèi)環(huán)境到數(shù)千平方米的室外場(chǎng)景,隨著技術(shù)的不斷進(jìn)步,SLAM在更大空間中的應(yīng)用也在持續(xù)拓展。
3.2 多模態(tài)映射技術(shù)增強(qiáng)空間映射的具身體驗(yàn)
在虛擬現(xiàn)實(shí)環(huán)境中,感知空間映射是一項(xiàng)關(guān)鍵的設(shè)計(jì)與技術(shù)挑戰(zhàn)。從根本上來(lái)說(shuō),人類感知空間的過(guò)程深受海馬體映射的影響,諸如Aronov等[12]、Bao等[13]和Killian等[14]的研究表明,海馬體不僅可處理空間導(dǎo)航信息,還可結(jié)合多種感官輸入(如視覺圖像、聲音頻率、氣味等),將這些信息嵌入一個(gè)由感知特性定義的多維感知空間中。而從技術(shù)層面來(lái)看,前述對(duì)海馬體的影響實(shí)際上是以多模態(tài)映射的技術(shù)完成的,尤其是通過(guò)多模態(tài)感覺的輸入(如視覺、聽覺、觸覺等)構(gòu)建沉浸式空間體驗(yàn),幫助觀眾形成更自然的空間知覺,從而為VR環(huán)境中的感知空間映射提供了理論基礎(chǔ)。
(1)在視覺模態(tài)上,高分辨率圖像、動(dòng)態(tài)光影效果和三維深度感知技術(shù),能夠增強(qiáng)視覺輸入與虛擬空間之間的位置關(guān)系,而實(shí)時(shí)調(diào)整視點(diǎn)、焦距和透視投影,可使用戶感受到真實(shí)的空間深度和物體間的距離關(guān)系。
(2)在聽覺模態(tài)上,基于頭相關(guān)傳遞函數(shù)(HRTF)的三維音頻技術(shù),VR系統(tǒng)能夠模擬聲音的空間位置及其在環(huán)境中的傳播特性[15];在低光照或視覺信息不完整的情況下,空間化聽覺可增強(qiáng)觀眾定向感,通過(guò)聲音的方向、強(qiáng)度和頻率變化來(lái)感知物體的遠(yuǎn)近和方位[16];此外,動(dòng)態(tài)聲音設(shè)計(jì)還可引導(dǎo)觀眾的注意力到特定的虛擬場(chǎng)景區(qū)域,優(yōu)化空間探索體驗(yàn)。
(3)在觸覺模態(tài)上,通過(guò)力反饋設(shè)備和觸覺模擬技術(shù),為觀眾提供與虛擬物體的直接觸感。例如,當(dāng)用戶在虛擬環(huán)境中觸碰墻壁、拾取物體或感受水流時(shí),觸覺設(shè)備可實(shí)時(shí)傳遞對(duì)應(yīng)的振動(dòng)、壓力或溫度信息。這種感知不僅增強(qiáng)了觀眾的具身體驗(yàn),還能通過(guò)觸覺的反饋細(xì)節(jié)進(jìn)一步豐富感知空間的層次感。
(4)在其他感官模態(tài)上,諸如嗅覺上,通過(guò)氣味模擬技術(shù),能夠?qū)⒂筛惺芷骷せ畹碾娦盘?hào)傳遞至大腦,并調(diào)節(jié)大腦功能,包括記憶、想象與情緒等[17]。
正如早期的VR技術(shù)大多僅提供沉浸式的視覺體驗(yàn),受制于有限的物理空間及無(wú)法充分發(fā)揮的交互技術(shù)之間的矛盾,而在沉浸式大空間創(chuàng)制中,觀者的身體動(dòng)作,如腳步行走、奔跑、跳躍等,都能通過(guò)觸覺和視覺的動(dòng)態(tài)協(xié)作映射至虛擬空間,從而生成一種空間知覺與身體運(yùn)動(dòng)的真實(shí)整合。以VR大空間作品《風(fēng)起洛陽(yáng)》為例,燈光爆閃,震動(dòng)模擬爆炸,風(fēng)感模擬風(fēng)雪和下降,溫感與氣味模擬環(huán)境變化等多模態(tài)感官刺激與映射,加速了敘事的情緒節(jié)奏。綜上所述,通過(guò)整合視覺、聽覺、觸覺、嗅覺等多模態(tài)感知輸入,VR環(huán)境能夠幫助觀眾建立一個(gè)動(dòng)態(tài)而多維的感知空間。這種感知空間映射不僅提升了觀眾的沉浸感和存在感,還可優(yōu)化虛擬敘事與交互體驗(yàn)。但多模態(tài)輸入的同步性與實(shí)時(shí)性需要更高效的技術(shù)支持,跨模態(tài)感知的設(shè)計(jì)還需深入研究觀眾的認(rèn)知特性,如何避免感官過(guò)載以優(yōu)化觀眾體驗(yàn)也是關(guān)鍵問題之一。
3.3 三維生成技術(shù)構(gòu)建虛擬影像場(chǎng)景
VR電影中的虛擬影像場(chǎng)景綜合文本、圖像、視頻和三維模型等多種媒介形式,是一個(gè)融合多種媒介特征的復(fù)雜信息場(chǎng)域。其除了算力、資源、網(wǎng)絡(luò)等基礎(chǔ)要求外,往往同時(shí)需要算法驅(qū)動(dòng),來(lái)完成快速生成高質(zhì)量的虛擬場(chǎng)景、動(dòng)態(tài)角色以及環(huán)境細(xì)節(jié),從而為VR電影創(chuàng)造了可流動(dòng)、可動(dòng)態(tài)、可涌現(xiàn)的虛擬世界。當(dāng)前的空間智能技術(shù)集群為三維生成技術(shù)構(gòu)建虛擬影像場(chǎng)景提供了多重解決方案。
(1)圖像轉(zhuǎn)三維模型的技術(shù)集群,包括運(yùn)用攝影測(cè)量(Photogrammetry)、深度映射(Depth Mapping)、基于圖像的建模(Image?Based Modeling)等方式,以實(shí)現(xiàn)將二維圖像轉(zhuǎn)換為三維模型。首先,攝影測(cè)量通過(guò)拍攝多角度的照片來(lái)重建三維模型,算法通過(guò)識(shí)別單張圖像中的共視點(diǎn)和特征點(diǎn),推算出它們?cè)谌S空間中的位置,進(jìn)而重建物體的三維形態(tài),同時(shí)為了提高精度,使用多張圖片的結(jié)合最終構(gòu)建出完整的三維模型。其次,深度映射則通過(guò)為每個(gè)像素賦予一個(gè)深度值(即從觀察點(diǎn)到物體的距離),實(shí)現(xiàn)二維圖像向三維圖像的轉(zhuǎn)換。常見的深度映射方法包括立體視覺技術(shù)(Stereo Vision)和結(jié)構(gòu)光(Structured Light)掃描。基于圖像的建模技術(shù)通過(guò)分析單一或多張圖像的紋理、形狀和光照變化,推斷物體的深度和幾何特征,最終生成三維模型。這些技術(shù)通常依賴于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)算法來(lái)識(shí)別和匹配圖像中的關(guān)鍵特征點(diǎn),進(jìn)而推算三維結(jié)構(gòu)。再次,基于圖像的建模是將一組照片轉(zhuǎn)化為三維空間的邏輯,一方面它依賴于運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure from Motion, SfM)[18],即一種基于多個(gè)二維圖像推導(dǎo)三維結(jié)構(gòu)的技術(shù),通過(guò)檢測(cè)圖像間的匹配特征點(diǎn)來(lái)估算相機(jī)的相對(duì)位置和姿態(tài)以恢復(fù)場(chǎng)景中的三維點(diǎn)云或粗略表面模型。另一方面,它依賴于多視圖立體視覺(Multi?View Stereo, MVS)[19]底層算法,MVS在SfM基礎(chǔ)上進(jìn)一步優(yōu)化,通過(guò)對(duì)多個(gè)視角圖像中的每個(gè)像素高精度深度計(jì)算,生成更高分辨率的三維模型。兩種技術(shù)結(jié)合顯著提高了圖像到三維模型的轉(zhuǎn)換精度和效率。
(2)自然語(yǔ)言轉(zhuǎn)化為三維空間的技術(shù)集群。密歇根大學(xué)的研究人員提出了一個(gè)名為VRCopilot的系統(tǒng),將預(yù)先訓(xùn)練的生成式 AI 模型集成至沉浸式創(chuàng)作中,以促進(jìn) VR 中的人機(jī)共創(chuàng)[20]。VRCopilot系統(tǒng)利用自然語(yǔ)言處理(NLP)技術(shù)將人類語(yǔ)言描述轉(zhuǎn)化為三維空間布局。例如,用戶可通過(guò)語(yǔ)音命令描述“創(chuàng)建一把椅子”,系統(tǒng)會(huì)基于AI模型生成多個(gè)供用戶選擇的模型線框,用戶隨后可通過(guò)語(yǔ)音命令進(jìn)一步優(yōu)化設(shè)計(jì),或在虛擬地板使用手柄調(diào)整線框細(xì)節(jié),最后將線框變成具體的椅子。目前的生成系統(tǒng)還處于需多模態(tài)規(guī)范生成內(nèi)容的階段,三維影像生成AI技術(shù)仍需更進(jìn)一步提升對(duì)人類自然語(yǔ)言描述的理解能力,以識(shí)別空間概念、物體關(guān)系以及布局要求。
(3)以神經(jīng)輻射場(chǎng)(NeRF)為代表的基于深度學(xué)習(xí)的三維空間生成方法。其通過(guò)神經(jīng)網(wǎng)絡(luò)建模場(chǎng)景中每個(gè)點(diǎn)的輻射屬性,從稀疏的二維圖像中重建逼真的三維場(chǎng)景,是完全區(qū)別于傳統(tǒng)三維模型生成路徑的電影空間場(chǎng)景建構(gòu)新方式。
3.4 空間推理技術(shù)模擬復(fù)雜運(yùn)動(dòng)與路徑
空間推理的核心是使模型能夠理解并處理關(guān)于物體、環(huán)境及其相互關(guān)系的三維空間信息,尤其是其賦予智能體(如虛擬角色、機(jī)器人或其他虛擬對(duì)象)理解三維空間環(huán)境、識(shí)別物體及其相互關(guān)系的能力,這不僅包括物體的靜態(tài)位置和方向,還涵蓋了動(dòng)態(tài)場(chǎng)景中的物體運(yùn)動(dòng)趨勢(shì)、路徑規(guī)劃及與環(huán)境的交互。在VR電影中,智能體(AI Agent)的行為模擬與運(yùn)動(dòng)路徑生成是增強(qiáng)沉浸感和交互性的關(guān)鍵因素之一,虛擬角色通常需在復(fù)雜的三維環(huán)境中自由移動(dòng),并與其他物體或角色進(jìn)行交互。整體而言,空間推理技術(shù)通過(guò)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及視覺-語(yǔ)言模型的結(jié)合,能夠?qū)崟r(shí)生成合理的運(yùn)動(dòng)軌跡和行為路徑。
(1)大模型空間語(yǔ)義推理。大語(yǔ)言模型不僅需識(shí)別圖像或視頻中的物體,還需基于語(yǔ)言指令或語(yǔ)境描述推斷物體的空間關(guān)系,如位置、方向、距離等。在動(dòng)態(tài)場(chǎng)景中,模型需進(jìn)一步理解物體的運(yùn)動(dòng)趨勢(shì)、預(yù)測(cè)未來(lái)位置,并結(jié)合時(shí)間序列信息進(jìn)行邏輯推理,為虛擬場(chǎng)景中的復(fù)雜行為生成提供了可能性。在這些能力的基礎(chǔ)上,空間技術(shù)可進(jìn)一步融合視覺信息與語(yǔ)言模態(tài),通過(guò)多模態(tài)預(yù)訓(xùn)練架構(gòu)(如CLIP或Flamingo)學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊關(guān)系,從而理解諸如“紅色蘋果在桌子上”這樣的描述[21,22]。這種語(yǔ)義理解不僅限于靜態(tài)認(rèn)知,還可用于動(dòng)態(tài)推理。例如,模型可基于語(yǔ)句“跟隨那個(gè)移動(dòng)的黃色方塊”實(shí)時(shí)生成跟蹤路徑,展現(xiàn)對(duì)場(chǎng)景的動(dòng)態(tài)感知與反應(yīng)能力。
(2)機(jī)器人語(yǔ)言智能交互。目前最大的開源真實(shí)機(jī)器人數(shù)據(jù)集Open X?Embodiment Dataset[23],由 DeepMind 和斯坦福大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā),整合了來(lái)自全球 34 個(gè)實(shí)驗(yàn)室的 60 個(gè)機(jī)器人數(shù)據(jù)集。基于該數(shù)據(jù)集,研究人員訓(xùn)練了兩個(gè)核心模型:一是RT?1 (Robotics Transformer 1)[24],一個(gè)基于 Transformer 的高效架構(gòu),專為機(jī)器人控制設(shè)計(jì),能夠通過(guò)傳感器輸入和環(huán)境狀態(tài)計(jì)算智能體的最佳行動(dòng)路徑。圖2展示了RT?1模型從多個(gè)機(jī)器人收集數(shù)據(jù)時(shí)的訓(xùn)練方法,其中,藍(lán)色框內(nèi)表示機(jī)器人在日常任務(wù)(如桌面整理或物品分類)中收集視覺數(shù)據(jù),紅色框表示使用 KUKA 機(jī)械臂收集的抓取任務(wù)數(shù)據(jù)。二是RT?2 (Robotics Transformer 2)[25],一種視覺-語(yǔ)言模型,將機(jī)器人動(dòng)作與自然語(yǔ)言相結(jié)合,不僅生成運(yùn)動(dòng)路徑,還能生成與這些動(dòng)作相關(guān)的自然語(yǔ)言描述,提升了模型的理解和交互能力。利用這一模型,研究人員可在3D環(huán)境中訓(xùn)練機(jī)器人學(xué)習(xí)基于語(yǔ)言指令的操作(如“把蘋果放在布料旁邊、上面、罐頭和橙子中間”)。在這一訓(xùn)練過(guò)程中,機(jī)器人不僅能夠識(shí)別環(huán)境中的空間結(jié)構(gòu),還能動(dòng)態(tài)規(guī)劃路徑,根據(jù)實(shí)時(shí)環(huán)境的變化完成復(fù)雜任務(wù)。這項(xiàng)技術(shù)為虛擬角色(如機(jī)器人或其他虛擬智能體)提供類似人類的空間認(rèn)知能力,有助于其在VR電影等復(fù)雜環(huán)境中自然移動(dòng)和交互。
圖2 RT?1模型從多個(gè)機(jī)器人收集數(shù)據(jù)時(shí)的訓(xùn)練方法[24]
(3)AI驅(qū)動(dòng)的智能體交互。智能體行為驅(qū)動(dòng)技術(shù)通過(guò)空間推理能力賦予虛擬角色類似人類的行動(dòng)能力。在虛擬環(huán)境中,智能體可根據(jù)劇情需求和場(chǎng)景特性生成動(dòng)態(tài)行為。例如,在VR電影或游戲中,角色行為可基于空間推理技術(shù)實(shí)時(shí)調(diào)整,如在追逐、探索或戰(zhàn)斗場(chǎng)景中,智能體會(huì)根據(jù)環(huán)境變化(如障礙物、目標(biāo)位置)生成合理的行為路徑。智能體不僅依賴于視覺信息來(lái)感知空間,還能通過(guò)多模態(tài)的聽覺輸入(如指令或?qū)υ挘?qū)動(dòng)行為,使角色的動(dòng)作更具交互性和情感表達(dá)。在多人交互場(chǎng)景中,智能體之間的協(xié)同動(dòng)作更依賴于空間推理技術(shù),確保多個(gè)角色間協(xié)調(diào)并高效完成復(fù)雜任務(wù)。在VR作品《半衰期:愛莉克斯》(Half?Life: Alyx)中,每個(gè)智能體都擁有各自的記憶模塊,能夠?qū)Ⅲw驗(yàn)玩家與其交互的方式(如選擇對(duì)話的內(nèi)容、玩家的情緒反應(yīng))進(jìn)行記憶儲(chǔ)存,同時(shí)反饋出個(gè)性化的對(duì)話選項(xiàng)和動(dòng)態(tài)反應(yīng)。
4 VR電影技術(shù)展望
隨著人工智能技術(shù)與虛擬現(xiàn)實(shí)技術(shù)的耦合程度越來(lái)越深,未來(lái)VR電影技術(shù)將通過(guò)復(fù)雜運(yùn)動(dòng)模擬、多模態(tài)數(shù)據(jù)融合和智能體動(dòng)態(tài)敘事等技術(shù)的綜合應(yīng)用,推動(dòng)其走向更加交互、更加沉浸和更富個(gè)性化的影像體驗(yàn),并持續(xù)推動(dòng)敘事方式和交互模式的革新。尤其是在虛擬世界復(fù)雜性不斷增強(qiáng)的當(dāng)下,如何在保證沉浸感的同時(shí)提升交互的連貫性和響應(yīng)速度,成為VR電影技術(shù)發(fā)展的關(guān)鍵挑戰(zhàn)。
(1)人工智能技術(shù)實(shí)現(xiàn)對(duì)觀眾運(yùn)行路徑的預(yù)測(cè)及預(yù)渲染。在VR電影空間中,系統(tǒng)可基于觀眾的歷史行為數(shù)據(jù)(如移動(dòng)路徑、交互頻率、動(dòng)作偏好)和當(dāng)前的動(dòng)態(tài)空間交互運(yùn)載環(huán)境,建立個(gè)性化的觀眾行為模型,預(yù)測(cè)觀眾將要轉(zhuǎn)向、駐足觀察某物體或繼續(xù)前行的可能性,進(jìn)而基于路徑預(yù)測(cè)的結(jié)果,提前渲染觀眾可能接觸到的虛擬場(chǎng)景和反饋機(jī)制,從而避免因加載延遲導(dǎo)致的視覺卡頓、反饋錯(cuò)位及沉浸感下降等問題,提升交互連貫性和沉浸感。
(2)動(dòng)作捕捉技術(shù)持續(xù)提升模擬復(fù)雜運(yùn)動(dòng)的能力。傳統(tǒng)VR電影的運(yùn)動(dòng)映射十分有限,只能停留在相對(duì)小幅度的運(yùn)動(dòng)范圍,如行走、骨骼運(yùn)動(dòng)等。而VR大空間則運(yùn)用了線下大空間娛樂技術(shù)(Location?Based Entertainment, LBE),其運(yùn)動(dòng)映射體驗(yàn)涉及射擊、大規(guī)模行走、跳躍等更為復(fù)雜的肢體動(dòng)作,但現(xiàn)有動(dòng)作捕捉技術(shù)存在精準(zhǔn)性和實(shí)時(shí)性等問題,難以支撐具有復(fù)雜人物運(yùn)動(dòng)的敘事情節(jié),如奔跑、跳躍、旋轉(zhuǎn)等。未來(lái)的運(yùn)動(dòng)映射技術(shù)需更加關(guān)注虛擬空間中運(yùn)動(dòng)的連續(xù)性,通過(guò)引入更先進(jìn)的路徑規(guī)劃算法與場(chǎng)景自適應(yīng)技術(shù),以實(shí)現(xiàn)虛擬角色在空間中的平滑運(yùn)動(dòng)。當(dāng)然,在技術(shù)發(fā)展的同時(shí)相關(guān)設(shè)備需向小型化和輕量化方向邁進(jìn)。例如,通過(guò)整合可穿戴傳感器與嵌入式IMU,減少對(duì)外部攝像頭的依賴,實(shí)現(xiàn)更便捷的動(dòng)作捕捉。同時(shí),探索無(wú)接觸的動(dòng)作識(shí)別技術(shù),以顯著減少觀眾的佩戴負(fù)擔(dān),為自由運(yùn)動(dòng)提供更大的可能性。
(3)智能體驅(qū)動(dòng)實(shí)現(xiàn)涌現(xiàn)敘事。智能體可結(jié)合真實(shí)機(jī)器人軌跡與虛擬環(huán)境,模擬復(fù)雜運(yùn)動(dòng)模式,學(xué)習(xí)如何繞過(guò)障礙物、與物體或角色交互,或依據(jù)虛擬場(chǎng)景特征(如重力、地形)調(diào)整行動(dòng)策略。這使VR電影敘事中的動(dòng)態(tài)行為生成成為可能。進(jìn)一步而言,智能體可根據(jù)劇情實(shí)時(shí)生成行動(dòng)路徑,并同時(shí)生成與這些行為相關(guān)的語(yǔ)言描述(如指令或?qū)υ挘@纾谧分稹⑻优堋⑻剿鞯葓?chǎng)景中,角色的行為可由模型動(dòng)態(tài)生成,使敘事更具交互性和隨機(jī)性。
5 結(jié)語(yǔ)
在空間智能技術(shù)的驅(qū)動(dòng)下,VR電影正在逐漸突破傳統(tǒng)影像的“空間困境”,構(gòu)建起與人類感知深度耦合的敘事范式,并通過(guò)實(shí)時(shí)追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)及空間推理技術(shù)等手段,使虛擬環(huán)境能夠更加自然地與觀眾的感知模型對(duì)接,從而帶來(lái)更加真實(shí)、連貫的沉浸體驗(yàn)。面向未來(lái),在可持續(xù)發(fā)展與跨學(xué)科協(xié)作的深度框架下,VR電影也將不斷與人工智能、計(jì)算機(jī)視覺、空間計(jì)算、多模態(tài)交互等多領(lǐng)域技術(shù)相融合,并真正意義地全面邁入空間智能的新階段,成為VR電影創(chuàng)制的重要驅(qū)動(dòng)力。尤其是伴隨以DeepSeek為代表的AI大模型與多模態(tài)交互的底層技術(shù)轉(zhuǎn)型,空間智能技術(shù)集群不僅使虛擬世界能夠“理解”并“適應(yīng)”觀眾的凝視邏輯,更在深層次上重構(gòu)影像創(chuàng)作的本體論框架,為影像藝術(shù)的發(fā)展注入更多的前沿科技屬性。
參考文獻(xiàn)
(向下滑動(dòng)閱讀)
[1] LI F. With spatial intelligence, AI will understand the real world[EB/OL]. [2025?01?03].https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_
understand_the_real_world?subtitle=en.
[2] GARDNER H. Frames of Mind: The Theory of Multiple Intelligences. 10th Anniversary Edition (2nd ed.) [M]. New York: Basic Books, 1983: 179?215.
[3] 陳焱松,周雯.人工智能影像敘事的涌現(xiàn)化生成[J].當(dāng)代電影,2024(05):14?20.
[4] HOFFMAN H G. Physically touching virtual objects using tactile augmentation enhances the realism of virtual environments[C]//IEEE Virtual Reality Annual International Symposium. Atlanta, GA, USA: IEEE, 1998:59?63.
[5] THOMAS J, ROSENBERG E S. Reactive Alignment of Virtual and Physical Environments Using Redirected Walking[C]//IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Atlanta, GA, USA: IEEE, 2020:317?323.
[6] HEESEOK O, WOOKHO S. Cybersickness and Its Severity Arising from Virtual Reality Content: A Comprehensive Study[J]. Sensors (Basel), 2022, 22(4):1314.
[7] CREEM-REGEHR S H, STEFANUCCI J K, BODENHEIMER B. Perceiving distance in virtual reality: theoretical insights from contemporary technologies[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2023, 378.
[8] 吳際,李會(huì)杰.認(rèn)知空間映射及其神經(jīng)機(jī)制[J].心理科學(xué)進(jìn)展,2025,33(01):62?76.
[9] KAUR D P, BHARDWAJ V, MALHOTRA P, et al. Vision?based intelligent systems: State of the art and perspectives[J]. AIP Conf. Proc., 2024, 3209(1).
[10] NGUYEN T H, YUAN S, XIE L. VR?SLAM: A Visual?Range Simultaneous Localization and Mapping System using Monocular Camera and Ultra?wideband Sensors[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2303.10903.
[11] LAI T. A Review on Visual?SLAM: Advancements from Geometric Modelling to Learning?based Semantic Scene Understanding[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2209.05222.
[12] ARONOV D, NEVERS R, TANK D W. Mapping of a non?spatial dimension by the hippocampal?entorhinal circuit[J]. Nature, 2017, 543(7647):719?722.
[13] BAO X, GJORGIEVA E, SHANAHAN L K, et al. Grid?like neural representations support olfactory navigation of a two?dimensional odor space[J]. Neuron, 2019, 102(5).
[14] KILLIAN N J, JUTRAS M J, BUFFALO E A. A map of visual space in the primate entorhinal cortex[J]. Nature, 2012, 491(7426):761?764.
[15] ZHAO J, ZHANG C. Acoustic rendering and spatialization of 3D sound in virtual environments[C]// Proceedings of the 11th Sound and Music Computing Conference, 2015: 85?91.
[16] KUMAR S, GREEN M. The impact of binaural audio cues on spatial perception in virtual reality[J]. Journal of Virtual Reality and Broadcasting, 2020, 17(2): 61?73.
[17] 陳焱松,王之綱.嗅覺的景觀:“氣味電影”的記憶、情感與敘事[J].藝術(shù)傳播研究, 2022(01):31?38.
[18] SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: Exploring photo collections in 3D[C]//ACM SIGGRAPH 2006 Papers. ACM, 2006:835?846.
[19] GOESELE M, SCHINDLER K. Multi?View Stereo[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):625?633.
[20] ZHANG L, PAN J, GETTIG J, et al. VRCopilot: Authoring 3D Layouts with Generative AI Models in VR[EB/OL].(2024?08?18)[2025?01?21].https://arxiv.org/pdf/2408.09382.
[21] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748?8763.
[22] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few?shot learning[J]. Advances in neural information processing systems, 2022, 35: 23716?23736.
[23] O'NEILL A, REHMAN A, GUPTA A, et al. Open x?embodiment: Robotic learning datasets and rt?x models[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2310.08864.
[24] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?1: Robotics transformer for real?world control at scale[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2212.06817.
[25] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?2: Vision?language?action models transfer web knowledge to robotic control[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2307.15818.
【項(xiàng)目信息】中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“智能媒體時(shí)代中國(guó)文化對(duì)外傳播敘事策略與效果研究”(123330009)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.