Vision Pro 一轉(zhuǎn)眼已經(jīng)發(fā)布了一年半了,人們的新鮮感和熱度也早已褪去。而銷量的不佳,遲遲未有起色的生態(tài)也為他的未來(lái)蒙上了更多不確定性。那 Vision Pro 到現(xiàn)在還有哪些不為人知的特點(diǎn),蘋果在產(chǎn)品設(shè)計(jì),API 上又有哪些優(yōu)缺點(diǎn)。歡迎來(lái)到這期深度銳評(píng) Vision Pro。 作為一個(gè)蘋果生態(tài)的開(kāi)發(fā)者,今天咱們就來(lái)聊點(diǎn)你在其他地方從來(lái)沒(méi)有聽(tīng)過(guò)的獨(dú)到觀點(diǎn)。
▍交互
Vision Pro 和前輩 Quest 最顯而易見(jiàn)的不同,就在于其完善的眼手交互設(shè)計(jì),在絕大多數(shù)情況下都要更為優(yōu)雅和省力。并且將選擇和確定完全解耦。不會(huì)像 Quest 點(diǎn)擊要十分小心精確的控制手指的位置,一旦在捏合的時(shí)候手的位置不小心偏移就會(huì)選擇失敗。
而在對(duì)手部的處理上,Vision Pro 也是無(wú)情的展示著擁有強(qiáng)大算力的任性。vp 之前的設(shè)備,例如 Hololens 絕大多數(shù)時(shí)候完全不對(duì)手部的遮擋做任何處理。Quest 則好一些。有一個(gè)還算精細(xì)的半透明手部模型。
Vision Pro 直接選擇了對(duì)每秒 100 幀的視頻流與深度流進(jìn)行實(shí)時(shí)的手部摳像和合成,而且邊緣非常精細(xì)。而這所帶來(lái)的巨大開(kāi)銷,是其他廠商不敢想的。同時(shí)手部的明暗和色彩會(huì)根據(jù)所處虛擬場(chǎng)景的不同動(dòng)態(tài)變化,提供了遠(yuǎn)超手部模型的沉浸感。蘋果用一種最為暴力的解法,做到了將科技隱于無(wú)形。而愿意投入大量的資源去打磨看似不影響核心體驗(yàn)的做法,也是只有蘋果能做到了。
不同設(shè)備的手部追蹤對(duì)比
在延遲處理方面,Vision Pro 采用了極其巧妙的分層策略,將畫面處理分為三個(gè)不同的延遲等級(jí)。首先,攝像頭采集到的畫面會(huì)立即經(jīng)過(guò)渲染后顯示,延遲僅約 12ms;同時(shí)系統(tǒng)會(huì)對(duì)該幀圖像進(jìn)行扣像處理,完成后,舊的扣像蒙版隨后會(huì)與新到達(dá)的視頻幀一起合成顯示;這個(gè)過(guò)程要 30-40ms,而對(duì)于更復(fù)雜的手勢(shì)識(shí)別和手部關(guān)節(jié)三維位置重建,則需要約 100ms 的處理時(shí)間。
渲染流程演示
這就是為何當(dāng)你快速移動(dòng)手部時(shí),會(huì)發(fā)現(xiàn)摳像效果總是略有滯后。但由于系統(tǒng)不需要顯示手部建模,用戶在大多數(shù)情況下并不會(huì)察覺(jué)到接近 100ms 的手部追蹤延遲,并且在 visionOS 2 中開(kāi)發(fā)者也可以開(kāi)啟手部動(dòng)作預(yù)測(cè)降低手追的延遲至和 Quest 近似的 60ms 左右。
快速移動(dòng)時(shí)手追延遲的直觀展示
那么 vp 的時(shí)候是方案是不是就完美了呢?并不是。Quest 也有更為出色的設(shè)計(jì)。Quest 的手部模型并不是永遠(yuǎn)和現(xiàn)實(shí)中的手部保持一致,而是能夠與虛擬物體發(fā)生的碰撞和互動(dòng)。比如在使用視覺(jué)手部模型抓握一個(gè)具有碰撞盒的物體時(shí),即使我已經(jīng)握拳,但是我看到的我的時(shí)候仍然是最自然的抓握狀態(tài)。同時(shí) Quest 還提供了不同的抓握預(yù)設(shè)。例如捏合,掌握,遠(yuǎn)程選擇,能夠很方便的對(duì)不同物體定義不同的選中標(biāo)準(zhǔn)。甚至還支持將手部自動(dòng)貼合為特定姿勢(shì)。并且基本不需要額外的代碼就能完成。大大提升了在 3D 場(chǎng)景下雙手操作的沉浸感。
Meta Interaction ToolKit
而這樣的設(shè)計(jì)貫穿在 Quest 的各個(gè) App 中。在日常的界面導(dǎo)航中,相比 Vision Pro 的僅靠光暈提醒,quest 都要更明確與舒適。而在蘋果的原生開(kāi)發(fā)框架下,除了告訴開(kāi)發(fā)者手部各個(gè)關(guān)節(jié)的位置,沒(méi)有做任何額外的處理與優(yōu)化。一個(gè)反面案例就是淘寶的小米的 SU7 沉浸模型。想象一下當(dāng)你坐在車?yán)飼r(shí),系統(tǒng)引導(dǎo)你去啟動(dòng)車輛,你肯定下意識(shí)的要伸手去按。雖然車輛成功啟動(dòng)了,但是模型上卻沒(méi)有任何反饋。鬧了半天原來(lái)是還是要用眼睛看和手指捏合。再比如這個(gè)取木塊游戲,在 Quest 是這樣的,在 Vision Pro RealityKit 開(kāi)發(fā)的 App 中,卻仍然需要靠眼神鎖定 + 手勢(shì)拖拽。這樣的設(shè)計(jì)在真正的 3D 體驗(yàn)中,是不符合直覺(jué)的,不沉浸的。
說(shuō)了這么多你會(huì)發(fā)現(xiàn),蘋果的交互思路,就好像是你拿著遙控器,你可以遙控你眼睛看到的任何東西。當(dāng)然在很多情況下這種體驗(yàn)是更省力的,但并不是所有東西,都適合被遙控。而在真正的 3D 互動(dòng)中,就像是隔著一層窗戶紙,也難免產(chǎn)生更強(qiáng)的距離感。
另外 Quest 的另一個(gè)優(yōu)點(diǎn)就是手柄的支持。手柄通過(guò)特定排列的紅外燈組,由頭顯多個(gè)視角下相機(jī)的解算確定位置,完全不受光線影響。同時(shí)手柄還內(nèi)置了加速度計(jì)和陀螺儀。就算是短暫脫離頭顯視線也能維持定位。而目前的純光學(xué)手勢(shì)識(shí)別,無(wú)論算法再?gòu)?qiáng)大,都會(huì)受到視角,光線,移動(dòng)速度等各種影響,造成準(zhǔn)確性下降和延遲。并且信息密度低,同時(shí)沒(méi)有振動(dòng)反饋。
就像在 Vision Pro 上的健身游戲,要么就是只能做慢速移動(dòng)。要么就是一旦手速加快,丟追蹤和延遲導(dǎo)致的 miss 也讓人心生不快。再例如繪畫 App,使用手追也經(jīng)常有斷觸和誤觸的情況出現(xiàn)。你必須十分小心的擺出特定手勢(shì)。并且確保速度不會(huì)太快。而如果使用手柄,那怕你發(fā)了瘋的甩動(dòng)手臂,也不會(huì)有任何追蹤丟失的情況。
也許 Vision Pro 的手追在 90% 的日常場(chǎng)景下都能完美工作。但對(duì)于游戲和 3D 創(chuàng)作這類場(chǎng)景下,10% 的概率也是難以接受的。就好像如果你的鼠標(biāo)左鍵開(kāi)火十次只能觸發(fā)九次,上班的鬧鐘十天能響九天。你還愿意用這樣的設(shè)備么。而這也造成了 Vision Pro 上沒(méi)有也不會(huì)有像節(jié)奏光劍,Alyx 一樣經(jīng)久不衰的神級(jí)游戲,以及像 Gravity Sketch 類似的嚴(yán)肅的 3D 創(chuàng)作軟件。
難堪大用的手追 VS 完全可靠的手柄
▍空間視頻
接下來(lái)咱們來(lái)聊空間視頻。你可以將空間視頻理解成 3D 電影,就是使用兩顆模擬人眼間距的攝像頭同時(shí)記錄畫面。確實(shí)不是新鮮事。但蘋果在 Vision Pro 的流程設(shè)計(jì)上,將空間視頻無(wú)縫融合在相冊(cè)中,你不用像其他 VR 一樣,打開(kāi) 3D 播放器,選擇文件,調(diào)整格式。他就在你的眼前,就像一個(gè)充滿魔法的盒子。并且讓你能夠一鍵回到那個(gè)瞬間。雖然這早就不是什么革命性技術(shù),但是蘋果的空間視頻,從拍攝,到回看。交互和設(shè)計(jì)上的雕琢確實(shí)足以讓人眼前一亮。而且由 Vision Pro 拍攝視頻的效果特別好,絕對(duì)讓你看過(guò)一次就難以忘記。
不過(guò)也許鑒于大多數(shù)人都不會(huì)購(gòu)買 VP,于是蘋果在 iPhone 15 Pro 就推出了手機(jī)空間視頻拍攝。那我是不是可以先用 iPhone 拍著空間視頻,等到 Vision Pro 普及之后,這些在 iPhone 相冊(cè)里的普通視頻就變成了 3D 視頻,一舉兩得。且慢,我要告訴你:iPhone 和 VP 的空間視頻,可以說(shuō)效果天差地別。完全不是一回事。
首先空間視頻的立體感完全來(lái)源于兩顆攝像頭的視差。在 Vision Pro 上攝像頭剛好等于人眼的寬度。并且每個(gè)鏡頭的視角都和人眼相同。然而在 iPhone 上。蘋果使用廣角和超廣角裁切作為兩個(gè)攝像頭。這視差小的可憐。除非物體離的特別近,否則視差幾乎沒(méi)有,立體效果打達(dá)折扣。那我就拍點(diǎn)離得近物體不就好了。不好意思,兩顆鏡頭光圈不同,最近對(duì)焦距離不同。你會(huì)得到一個(gè)眼睛有背景虛化,一個(gè)眼睛沒(méi)有的效果。而手機(jī)也會(huì)提示你離遠(yuǎn)一點(diǎn)。并且由于系統(tǒng)相機(jī)只能拍攝 30 幀的空間視頻。如果快門速度過(guò)快。在大范圍移動(dòng)時(shí),就會(huì)導(dǎo)致很強(qiáng)烈的閃爍效果。而如果光線過(guò)暗,超廣角鏡頭就有會(huì)噪點(diǎn)起飛,影響觀感。
所以 iPhone 的空間視頻,無(wú)論是對(duì)光線,運(yùn)鏡,題材都有很多要求。更重要的是,你無(wú)法像 Vision Pro 一樣立刻知道成片的效果。而你失去了變焦,4K 60fps HDR 的高規(guī)格的視頻,換來(lái)一段大概率不及格的空間視頻。所以除非你明確知道空間視頻的最終效果。我都不建議使用 iPhone 拍攝空間視頻。
iPhone 空間視頻截圖
▍開(kāi)發(fā) & 系統(tǒng)
Vision Pro 發(fā)布于 2023 年,然而蘋果對(duì) AR 的布局,早在 2017 年就開(kāi)始了:
WWDC 2017: ARKit-- 提供最底層的空間定位能力,夢(mèng)開(kāi)始的地方
WWDC 2018: USDZ-- 統(tǒng)一蘋果 AR 生態(tài)的 3D 文件標(biāo)準(zhǔn)
WWDC 2019: RealityKit-- 專為 AR 設(shè)計(jì)的渲染引擎
iPad Pro 2020: 激光雷達(dá) -- 首次具備深度感知能力
WWDC 2021: AirPods 支持空間音頻 -- 提供音頻的空間定位能力
WWDC 2022: SharePlay-- 打通跨設(shè)備的遠(yuǎn)程交流
這一切的技術(shù)積淀與升級(jí)。都指向了那個(gè)蘋果眼中下一個(gè)時(shí)代的計(jì)算設(shè)備 --Vision Pro。
除了強(qiáng)悍的空間計(jì)算能力之外,Vision Pro 還擁有蘋果更為成熟的移動(dòng)端 App 開(kāi)發(fā)框架。在 Quest 上,要么使用 Android Studio 開(kāi)發(fā)出一套純平面的 App。一旦涉及到 3D,就要使用 Unity 或者 Unreal 這些游戲引擎。而在這里面進(jìn)行 UI 繪制,簡(jiǎn)直是噩夢(mèng)般的體驗(yàn)。但在 Vision Pro 中, 原來(lái)在 iPhone iPad 上的平面 UI 框架,搖身一變,僅需要增添幾行代碼,就能顯示 3D 物體。而且能夠?qū)崿F(xiàn)一次開(kāi)發(fā),Vision Pro,移動(dòng)端的多端部署。無(wú)論是純 2D,還是 2D 與 3D 結(jié)合,還是純 3D。使用 ARKit,RealityKit,Reality Composer 都能獲得比在 Unity 中更高的抽象層級(jí),提升開(kāi)發(fā)效率。
▍何為空間計(jì)算
不過(guò)從另一個(gè)角度來(lái)說(shuō),Vision Pro 不像是 iPhone 2G 一樣從無(wú)到有的顛覆性的產(chǎn)物。只能說(shuō)是一款在蘋果多年來(lái)恐怖研發(fā)能力的加持下符合預(yù)期的產(chǎn)品。而作為一款核心是空間計(jì)算的設(shè)備,甚至某些地方還開(kāi)了倒車。誒為什么這么說(shuō)。咱們先要談?wù)効臻g計(jì)算的發(fā)展歷史:
顯示器階段,代表產(chǎn)品:HTC Vive, Valve Index。這些設(shè)備對(duì)空間的感知僅僅是得到自己離基站的距離和角度,并且由 PC 渲染畫面后展示。
自定位階段,代表產(chǎn)品:Oculus Quest。通過(guò)頭顯攝像頭完成定位的方式。優(yōu)點(diǎn)在于不需要架設(shè)基站,但其相較于 VR 體驗(yàn)上并沒(méi)有本質(zhì)區(qū)別。
混合現(xiàn)實(shí)階段,代表產(chǎn)品:Meta Quest 3, Apple Vision Pro。擁有完善的手勢(shì)識(shí)別,深度感知,房間感知能力,以及與之相關(guān)的 API。產(chǎn)生了更多依托于手勢(shì)與空間的應(yīng)用形式與場(chǎng)景。
由感知位置,到雙手,再到空間。感知能力這才是空間計(jì)算進(jìn)步的核心。
那 Vision Pro 在這方面有什么突破么,很遺憾的是沒(méi)有。目前蘋果開(kāi)放出的 API 中,開(kāi)發(fā)者能訪問(wèn)的空間信息只有:
1. 手部結(jié)構(gòu)信息
2. 系統(tǒng)識(shí)別到的桌子,墻,地面,窗戶等不同平面的位置
3. 空間 Mesh
4. 2D 圖像的空間錨點(diǎn)
5. 經(jīng)過(guò)預(yù)處理的 3D 模型的位置信息
聽(tīng)起來(lái)也不少對(duì)吧。但這些功能 iPhone 全部都能做到,還能做的更好。例如我?guī)啄昵皩懙囊粋€(gè) AR Demo,通過(guò)追蹤不同電器的面板給用戶提供 AR 實(shí)時(shí)的操作指引。在 iPhone 上能做到每秒鐘 30 幀的流暢追蹤。然而在 Vision Pro 上幀率只有每秒 1 幀。
iPhone 和 Vision Pro 追蹤能力對(duì)比
并且 iPhone 還能實(shí)現(xiàn)物體識(shí)別,動(dòng)物識(shí)別,3D 人體追蹤,我的另外一個(gè) Demo 通過(guò)識(shí)別 3D 軀體為用戶的引體向上打分。而這在 Vision Pro 上則是完全做不到的。
AR 引體向上打分 App
而造成 visionOS 開(kāi)倒車的原因之一就是過(guò)于嚴(yán)苛的權(quán)限控制。在 1.0 攝像頭完全不對(duì)用戶開(kāi)放,而 2.0 則只針對(duì)企業(yè)用戶開(kāi)放。這就造成 Vision Pro 喪失了很多應(yīng)用場(chǎng)景。比如 Quest 三月份開(kāi)放了攝像頭權(quán)限。社區(qū)中有意思的應(yīng)用如雨后春筍般涌現(xiàn)。又像是安卓版 Vision Pro 炫酷的圈圖即搜功能。 也許 Vision Pro 可以說(shuō)為了用戶的隱私安全,但作為一個(gè)空間計(jì)算設(shè)備,這未免也有點(diǎn)因噎廢食。
所以在絕大多數(shù) App 都還是平面,感知水平并沒(méi)有新的提高的 Vision Pro 中。把窗口擺滿整個(gè)房間就是空間計(jì)算的未來(lái)了嗎。當(dāng)然不是。所以在這一點(diǎn)上,我覺(jué)得 vp 就像是三體中的人類艦隊(duì),擁有在當(dāng)下看來(lái)最頂尖的科技,但在基礎(chǔ)學(xué)科上并沒(méi)有從空間感知到理解的突破。
而且當(dāng)我們被大火的空間計(jì)算概念視頻所驚嘆時(shí),仔細(xì)分析一下,如何讓設(shè)備知道廣告牌的位置。 如何將素材準(zhǔn)確跟蹤在人臉上,如何讓不同元素出現(xiàn)在對(duì)應(yīng)的位置。這需要的則是更強(qiáng)大的空間理解能力。而空間計(jì)算的 iPhone 時(shí)刻,似乎還沒(méi)有到來(lái)。
▍怒其不爭(zhēng)的 Apple Intelligence
而說(shuō)到 AI,大模型 + 空間計(jì)算絕對(duì)是一個(gè)充滿潛力的應(yīng)用場(chǎng)景。但 Vision Pro 又一次成為蘋果的吊車尾選手, 在 WWDC24 上沒(méi)有任何關(guān)于空間計(jì)算 AI 的更新。一年之后才補(bǔ)上了和 iPad 一摸一樣的 AI 功能。說(shuō)真的,又有誰(shuí)會(huì)在 Vision Pro 上用通知總結(jié),寫作工具呢。
遲到了一年的 Apple Intelligence
這是否代表蘋果的 AI 團(tuán)隊(duì)其實(shí)就將 Vision Pro 視作一個(gè)大號(hào) iPad 呢?如此慢的進(jìn)度,如此缺乏想象力的功能,包括前段時(shí)間的 Siri 團(tuán)隊(duì)對(duì) Apple Intelligence 發(fā)布會(huì)內(nèi)容毫不知情的傳聞,而唯一做好的功能竟然是 Siri 的新動(dòng)畫,讓他的未來(lái)更加悲觀。而如果蘋果在即將到來(lái)的 WWDC 25 上還沒(méi)能兌現(xiàn)自己畫了一整年的大餅,又沒(méi)能拿出點(diǎn)狠活,那我覺(jué)得蘋果智能也真的翻身無(wú)望了。
好了,感謝你能看到這里,以上就是深入銳評(píng) Vision Pro 的全部?jī)?nèi)容了。 而轉(zhuǎn)眼又是一年 WWDC,希望 Vision Pro 能夠在 AI 和空間感知能力上有一些新的突破。
https://sspai.com/post/98901?utm_source=wechat&utm_medium=social
作者:深空灰SpaceGrey
責(zé)編:廣陵止息
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.