文/VR陀螺 冉啟行
AI 眼鏡爆發(fā)的近一年時間里,從互聯(lián)網(wǎng)大廠、手機廠商到 XR 創(chuàng)業(yè)公司紛紛入局。
然而,喧囂之下,路徑選擇的困惑與場景定位的迷思,依然是懸在所有玩家頭頂?shù)倪_摩克利斯之劍。AI 眼鏡的價值錨點究竟是什么?它是在復(fù)刻一個“戴在臉上的手機”,還是在開創(chuàng)一個全新的 AI 交互范式?
要回答這個問題,最有效的方式就是拆解其功能矩陣,解析場景背后的產(chǎn)品邏輯。 基于此,VR陀螺整理了 24 款主流 AI 眼鏡產(chǎn)品功能矩陣,試圖從中量化出市場的真實格局與選擇。
在本文中,VR陀螺將 AI 眼鏡功能分為「基礎(chǔ)功能」和「進階功能」兩類,基礎(chǔ)功能主要指高度依賴硬件原生能力、技術(shù)成熟度高且已形成市場標(biāo)配的功能,而「進階功能」指需深度整合 AI 大模型、云服務(wù)或復(fù)雜算法,更能體現(xiàn)產(chǎn)品差異化與核心競爭力的功能。
市場共識:三大應(yīng)用場景,最高100%重合度
“腦”的能力——「AI對話」首當(dāng)其沖, 場景滲透率達到 100%。通過語音與設(shè)備交互,已經(jīng)成為 AI 眼鏡的主流交互方式,這是其區(qū)別于傳統(tǒng)“藍牙眼鏡”的關(guān)鍵所在。當(dāng)然,這也是分類為 AI 眼鏡的最基礎(chǔ)「標(biāo)準(zhǔn)」,它們通常以 Agent 的形式存在,不僅僅支持普通的 AI 問答式的對話,還有「系統(tǒng)級的指令」執(zhí)行,如播放XXX的音樂,拍一下照片。為達到更好的拾音效果,3-5 個麥克風(fēng)成為不少 AI 眼鏡的標(biāo)配,當(dāng)然音頻算法也非常重要。
“說”的能力——「藍牙音頻」次之, 場景滲透率達到了96%。開放式音頻讓用戶在接收 AI 大模型內(nèi)容、傾聽音樂或通話的同時,依然能保持對周圍環(huán)境的感知,這被普遍認(rèn)為是眼鏡形態(tài)相比耳機的核心優(yōu)勢,正如大家經(jīng)常戲謔道的——“你的下一款 AirPods 何必是耳機”。在陀螺君收集的 24 款產(chǎn)品中唯一款特別的是主打 AR 提示眼鏡的 EVEN G1,雖然沒有藍牙音頻,不過其在顯示上彌補了人機交互上的不足。在 AI 眼鏡這個「寸土寸金」的設(shè)備里,“如何端好一碗水”是大家一直在做的必修課。
“溝通”能力——「同聲傳譯」,場景滲透率達到了 83%。該功能實際上既可以依靠傳統(tǒng)翻譯 API 實現(xiàn),也能利用 AI 大模型更加精準(zhǔn)輸出,對于 AI 眼鏡的傳感器配置最低要求僅為「麥克風(fēng)與揚聲器」,當(dāng)然,AR 實時翻譯字幕顯示效果更佳。作為滲透率排名第三的功能,其在出國旅行,商務(wù)交流等場景上表現(xiàn)為準(zhǔn)剛需能力。對于廠商而言,「同聲傳譯」功能能夠基于現(xiàn)有硬件配置進行高效的場景延伸,構(gòu)成了極具吸引力的產(chǎn)品賣點,并精準(zhǔn)觸達了高凈值用戶群體。
AI 對話、開放式音頻與同聲傳譯,以其極高的滲透率,共同構(gòu)成了當(dāng)前 AI 眼鏡市場的“最大公約數(shù)”,它們回答了“AI眼鏡首先應(yīng)該是什么”的根本問題。從這個“地基”之上,我們看到了第一個重要的分化方向——視覺能力的引入與深化。
「視覺能力」持續(xù)深入,從可選到標(biāo)配
“眼”的能力——「攝影攝像」,搭載該功能的比例為 58%。在 Ray-Ban Meta 引發(fā)市場關(guān)注以來,攝像頭也逐漸開始成為不少 AI 眼鏡的標(biāo)配,解放雙手,“第一視角”拍攝與記錄的概念開始更加深入人心。但值得注意的是,攝像頭的加入也讓 BOM 成本水漲船高。區(qū)別于普通 AI 音頻眼鏡只需要單個藍牙主控芯片的設(shè)計,AI 拍攝眼鏡至少需要一個藍牙主控芯片加一個 ISP 芯片,又或是系統(tǒng)級 SoC 芯片,如驍龍 AR1、W517 等。所以,目前整個 AI 眼鏡市場使用攝像頭搭配比例并不算特別高,同時也形成了一個千元級別的價格差分水嶺。
當(dāng)然,在近半年時間以來,我們也看到了如全志、杰理等「華強北」芯片解決方案的涌入,預(yù)計 2025 年會出現(xiàn)更多「華強北系」 AI 拍攝眼鏡。當(dāng)然,在不追求較高拍攝質(zhì)量,僅依賴于 AI 識圖等功能的背景下,「華強北芯片組合」也是一個非常不錯的性價比選擇。
“視覺”能力——「AI識圖」,搭載該功能的比例為 58%。當(dāng) AI 眼鏡搭載攝像頭,可以實現(xiàn)基礎(chǔ)拍攝能后,基于多模態(tài) AI 大模型的圖片識別功能便成為自然延伸 —— 攝像頭作為圖像采集入口,為數(shù)據(jù)接口提供原始視覺信號,而多模態(tài) AI 大模型則通過深度學(xué)習(xí)算法,將像素信息轉(zhuǎn)化為語義可理解的結(jié)構(gòu)化數(shù)據(jù)。目前,市面上的主要 AI 拍攝眼鏡均已具備 AI 圖片翻譯、AI 物體識別、AI 圖片分析等功能。
“跨終端”能力——「通知提醒」,搭載該功能比例為 54%。通知提醒本質(zhì)上是基于手機配件的產(chǎn)品邏輯,實現(xiàn)跨終端信息同步。在 AI 大模型沒有普及之前,該功能已經(jīng)在 AR 眼鏡、智能音頻眼鏡上有所普及,通知提醒功能以監(jiān)控手機信息通知欄為主,將原本在手機上顯示的信息,轉(zhuǎn)移到眼鏡上,以 AR 顯示或語音播報的形式出現(xiàn)。對于部分開車場景、運動場景下,該功能可以保證信息實時接收的同時,有效減少注意力分離,提升安全性。得益于手機系統(tǒng)級的底層權(quán)限,在部分手機玩家廠商的手里,AR 眼鏡的通知提醒還支持「快捷回復(fù)」,如星紀(jì)魅族系列 AR 眼鏡產(chǎn)品。
超過 60% 的場景重合度,共同勾勒出 AI 眼鏡當(dāng)前的基礎(chǔ)形態(tài)——一個以“語音交互”為核心,以“視聽感知”為主要入口的智能設(shè)備。但這僅僅是起點,真正的差異化與價值創(chuàng)造,更在于“進階功能”的場景博弈。
AR顯示,邁向“生產(chǎn)力工具”的場景分層
當(dāng)基礎(chǔ)功能趨于同質(zhì)化,進階功能的布局便成為各家廠商定義產(chǎn)品價值、搶占用戶心智的主戰(zhàn)場,而這些進階功能通常表現(xiàn)在「AI+AR拍攝眼鏡」上,如雷鳥 X3 Pro、Rokid Glasses 等
“信息記錄”能力——「AI會議紀(jì)要」,搭載該功能比例為 50%。AI 會議紀(jì)要功能主要依托于麥克風(fēng)進行語音記錄,其后端處理流程包括聲紋識別、語音轉(zhuǎn)文字+AI 文生文等。事實上,類似的功能已經(jīng)在手機、電腦上有了一定沉淀。而 AI 眼鏡的核心優(yōu)勢還是在于解放雙手下的無感記錄,以及「一鍵操作」的便捷性。該功能在商務(wù)會談、客戶訪談等高信息密度的場景下價值尤為突出,屬于生產(chǎn)力功能。不過,需要注意的是 AI 眼鏡有限的續(xù)航能力下,也極大壓縮了「錄音」的總時長。
“空間感知與視覺引導(dǎo)”能力——「AR導(dǎo)航」,搭載該功能比例為 38%。AR 導(dǎo)航將虛擬的路線指引信息與真實世界環(huán)境進行融合,目前主要是基于 GPS+陀螺儀等技術(shù)進行 AR 指示,部分產(chǎn)品融入了一定空間標(biāo)定算法,可實現(xiàn)貼地導(dǎo)航。對于用戶而言,這意味著不再需要頻繁低頭查看手機,導(dǎo)航指令直觀地呈現(xiàn)在眼前,與道路融為一體,在騎行、跑步、甚至開車時等高速場景下,擁有更好的體驗。
雷鳥X3 Pro地圖導(dǎo)航展示(圖源:VR陀螺)
“輔助表達”能力——「AR提詞器」,搭載該功能比例為 38%。年初 Rokid CEO Misa 爆火的演講視頻,正是使用了該技術(shù)。AR 提詞器是將預(yù)設(shè)文本以半透明形式懸浮于用戶眼前,實現(xiàn)“看著觀眾讀稿”的效果,是一種輕量但高效的生產(chǎn)力工具。該功能的技術(shù)邏輯相對直接,核心是將手機 App 作為內(nèi)容輸入和控制端,通過無線連接(如藍牙)將文稿數(shù)據(jù)發(fā)送至 AR 眼鏡。
相比傳統(tǒng)提詞器,AR 提詞器極大地降低了使用門檻和設(shè)備成本,能讓演講者向觀眾或?qū)υ捜顺尸F(xiàn)出一種更為自然的溝通姿態(tài)。當(dāng)然,受限于當(dāng)前 AR 光波導(dǎo)技術(shù)光學(xué)特性,AR 眼鏡的提詞器還難以做到完全的私密性,在某些角度下,顯示內(nèi)容仍有可能被窺見。
那些滲透率不足20%的“未來場景”
數(shù)據(jù)中最有趣的部分,往往是那些滲透率極低的“異常值”。它們代表了技術(shù)的前沿、市場的藍海,也預(yù)示了AI 眼鏡未來可能進化的方向。在我們分析的 24 款產(chǎn)品中,直播與支付功能的滲透率不足 5%。
直播,該功能場景高度綁定于“內(nèi)容創(chuàng)作者經(jīng)濟”。不過,滲透率非常之低,一方面,直播功能受限于各大直播平臺,它們沒有更開放的 API 接口可以直接給到眼鏡廠商去做推流。目前,已上市的眼鏡中,僅有 Ray-Ban Meta 支持,因為 Meta 擁有自家的社交平臺 Instagram 作為接口支持。
從硬件本身看,AI眼鏡在續(xù)航、算力和傳感器規(guī)格上與手機存在天然差距,這決定了它無法提供媲美專業(yè)設(shè)備的直播體驗。此前,VR陀螺測試了 Ray-Ban Meta 在 Instagram 上的直播功能,不僅延遲較大(不排除網(wǎng)絡(luò)原因),并且畫質(zhì)體驗較差。當(dāng)然,憑借「第一人稱視角」的錄像方式,以及增強型的攝像頭規(guī)格、類似于頸環(huán)電池等專業(yè)向配置,可能會在某些場景下帶來全新的直播體驗,簡化直播形式。
星紀(jì)魅族支付功能演示
支付, 這是所有場景中最稀缺、也最大膽的探索。雖然目前還沒有任何一款 AI 眼鏡能真正實現(xiàn)支付功能,但包括星紀(jì)魅族、雷鳥創(chuàng)新和 Rokid 等在內(nèi)的廠商已在積極探索。
我們不禁要問,當(dāng)手機已擁有掃碼、NFC、人臉等成熟的支付方案后,AI 眼鏡的機會在哪里?考慮到眼鏡離五官最近的獨特形態(tài),以及對 BOM 成本和功耗的極致要求,利用現(xiàn)有麥克風(fēng)實現(xiàn)“聲紋支付”,成為了大家一致的技術(shù)路徑。
將用戶的聲音作為獨一無二的“鑰匙”,無疑是種優(yōu)雅且經(jīng)濟的設(shè)想。它避免了為支付功能增加額外硬件的復(fù)雜性和成本。不過,這個方案的根本挑戰(zhàn)在于:如何確保聲紋識別在開放環(huán)境下的精準(zhǔn)度和安全性,使其達到金融級別的可靠性。
寫在最后
在深度體驗了多款產(chǎn)品后我們發(fā)現(xiàn),AI 眼鏡的功能并非越多越好,場景的精準(zhǔn)契合遠比功能的盲目堆砌更能打動用戶。
或許,AI 眼鏡,本身就沒有統(tǒng)一的產(chǎn)品形態(tài)與場景標(biāo)準(zhǔn)。
受限于供應(yīng)鏈技術(shù)、整體市場規(guī)模等因素,我們不得不承認(rèn),目前 AI 眼鏡雖然在部分應(yīng)用場景上呈現(xiàn)出趨同性,但整體來看,依舊是“百花齊放”。AI 大模型的注入,為這個賽道帶來了前所未有的想象空間,但一個僅重 50g 的硬件,終究無法承載用戶對手機、PC 的同等性能預(yù)期。這并非是 AI 眼鏡的缺陷,而是其生來就應(yīng)遵循的克制。
當(dāng)然,如果僅僅將其視為「手機配件」,我們可以發(fā)現(xiàn)它相對于傳統(tǒng)耳機、手表而言,已經(jīng)展現(xiàn)出截然不同的交互范式和信息維度。耳機延伸了聽覺,手表占據(jù)了手腕,它們本質(zhì)上是手機的“傳聲筒”和“速覽窗”。而 AI 眼鏡,不僅是傳統(tǒng)視力工具的功能增值,更是大模型時代下,一個極具代表性的硬件新物種。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.