文/VR陀螺 冉啟行
“新的交互應該是更可穿戴、更便攜、更自然的。”
今年 2 月,字節跳動舉辦了全體員工會,公司 CEO 梁汝波提出了 2025 年的重點目標:探索新的交互。而梁汝波這一對「新的交互」產品定義與形態表述,直指 AI 眼鏡。
為了踐行這一目標,字節跳動于 2024 年收購了耳機品牌 Oladance (深圳市大十未來科技有限公司),并于同年推出 AI 智能體耳機 Ola Friend,開始探索 AI 硬件。
事實上,Ola Friend 在市面上并未掀起太大風波,畢竟無線耳機這一品類在市面上已相當成熟,不僅市場增量有限,且市場競爭激烈,面對眾多手機廠商、音頻廠商,光一個 AI 智能體概念加持卻是很難撬動市場。
而字節跳動的下一款 AI 硬件——「多模態 AI 眼鏡」,或能憑借字節跳動的一系列業務生態深度協同,成為下一個 Ray-Ban Meta。
AI眼鏡,字節跳動下一張硬件王牌?
多方消息已證實,字節跳動正積極推進自研 AI 眼鏡項目。據報道,字節跳動自去年起就開始研發 AI 眼鏡項目,公司已招聘具備硬件設計經驗的工程師參與開發。目前,字節跳動正在優化電池續航與攝影上的性能平衡,確保在不犧牲過多電池的前提條件下,讓眼鏡能夠拍攝出高質量的影像。
與此同時,字節跳動已開始與供應鏈廠商接洽,就產品功能、技術規格、成本控制及發布時間進行商談。盡管具體的上市時間和銷售區域尚未確定,但這系列動作表明,字節跳動的 AI 眼鏡計劃已遠超概念階段,進入了實質性的研發與落地籌備期。
從目前透露的信息來看,這款AI眼鏡的核心定位將是 AI 能力的延伸與視覺交互的實現。它預計將深度集成字節自研的豆包大模型的部分 AI 功能,在 Ola Friend 的語音交互基礎上,增加視覺維度的信息輸入與處理能力。
豆包AI生成
具體配置方面,早前,據 XR Vision Pro 援引知情人士稱,字節在研的 AI 眼鏡或考慮采用恒玄 2800+研極微的 ISP 芯片方案。恒玄 2800 芯片是一塊主控芯片,但鑒于眼鏡拍攝等需要,還需要外掛一塊 ISP 芯片。據稱,該解決方案相比于高通 AR1 芯片具備高性價比,低功耗長續航的特點。
調校 ISP 芯片雖然也可以達到接近于高通 AR1 實現的拍攝效果,但對于廠商而言,圖像與視頻算法的調校困難度并沒有想象中容易。目前,市面上也有不少直接采用系統級 SoC 芯片 AR1、W517 的 AI 眼鏡,以及相關廠商 demo。整體來看,圖像拍攝效果參差不齊,部分圖像、視頻效果表現能力較弱。
一方面,出于可穿戴產品設計考慮,AI 眼鏡本身可用空間較小,電池小,較難塞下大底 CMOS 圖像傳感器與高性能 ISP 芯片;另一方面,區別于手機、相機等擁有可視化拍攝預覽界面的硬件,AI 眼鏡的拍攝完全依賴于硬件本身+軟件算法的優化,不存在所謂的對焦、調整曝光等人為操作,拍攝變成了完全的「智能化處理」。
如何針對不同的光線條件下,精準且迅速地優化軟件算法,以確保在強光直射、昏暗室內、逆光等復雜光線場景中,都能讓 AI 眼鏡拍攝出清晰、色彩還原度高且細節豐富的影像,對于 AI 眼鏡廠商而言,這是一道道難題。
產品售價方面,盡管目前的 BOM 成本價格可以可控制在千元以內。不過,按照字節跳動目前較為保守的商業策略,Ola Friend 都售價 1199 元,AI 眼鏡最少也得接近 2000 元,很難再回到 PICO 那個全面砸錢、砸流量、砸資源堆人氣的時代了。
豆包大模型,需要一款AI硬件
事實上,字節跳動 AI 硬件布局背后,是其自研大模型“豆包”的落地的需求。字節需要自己的 AI 硬件,進一步開疆拓土,而不僅僅是在「能力受限」的軟件產品上尬舞。
公開資料顯示,字節跳動大模型團隊于 2023 年 2 月開始組建,分別在語言和圖像兩種模態上發力,由 TikTok 產品技術負責人朱文佳帶隊。 2023 年 8 月,字節自研的底層大模型“云雀”上線,隨即推出 AI 對話軟件產品“豆包”。
在用戶數據表現方面,截至 2024 年 11 月,豆包 APP 月活躍用戶數已接近 6000 萬,成為中國用戶規模最大的 AI Chatbot。豆包的成功,這主要得益于字節跳動強大的生態導流能力,特別是在抖音等內容平臺的鈔能力 KOL 宣發上(不卡流、卡審版),為其迅速打開市場、積累大量初始用戶奠定了堅實基礎。
當然,歷經兩年的不斷迭代,豆包在大模型本身的能力其實也已實現了階級式跨越、追趕,在一定程度證明了大象也能跳舞。其最新發布的豆包 1.5 深度思考模型采用了 MoE(Mixture of Experts)架構,總參數達到 200B,但激活參數僅為 20B。與業界同類模型相比,豆包 1.5 的參數規模降低了 50%。
據介紹,該模型在數學、編程、科學推理等專業領域及創意寫作等通用任務中表現突出。其在數學推理 AIME 2024 測試得分追平 OpenAI o3-mini-high,編程競賽和科學推理測試成績也接近 o1。
對一款 AI 硬件而言,AI 大模型本身的能力十分重要,而目前的豆包大模型顯然已經具備了較為強大的多模態能力。從文本、圖像、音頻到視頻皆有較強的交互,既能‘看見’,又能‘思考’”,基于 AI 眼鏡第一人稱視角的佩戴屬性,有望催生出更高效的應用場景。不過,需要注意的是,眼鏡與手機、電腦不同的是,它算力有限、續航有限,要在 50g 以內的眼鏡中打造極致 AI 體驗,難度不小。
于字節而言,通過深入用戶日常生活的可穿戴設備,其可以收集到更多真實的、多模態的交互數據(視覺、聽覺、語音、可能還有位置和運動信息),這些數據對于訓練更強大的、能夠理解物理世界的下一代 AI 至關重要。這形成了一個良性循環:當前的硬件為未來的 AI 研究提供數據和場景,而 AI 研究的突破又將反哺硬件,催生出功能更強大、交互更自然的智能設備。
場景為王:「AI眼鏡直播」或能引爆市場
技術和硬件的進步固然重要,但決定 AI 眼鏡能否真正走向大眾、成為下一代計算平臺的關鍵,在于能否找到并落地足夠有吸引力的應用場景。
在 AI 眼鏡發展的初期階段,各大廠商都在追求大而全的功能,以滿足不同消費的應用需求,如 AI 識物、AI 翻譯、AI 語音助理、AI 聽音樂等等。不過,基于每家廠商各自的能力不同,AI 眼鏡所附帶的具體功能也有所差別。
而字節跳動本身的優勢與 Meta 類似,相對于其他廠商而言,其核心優勢在于自家內容平臺可調用權限,包括但不限于抖音、今日頭條、西瓜視頻、懂車帝等。基于這些內容平臺,字節跳動一方 AI 眼鏡可以做到第一人稱視角的 AI 眼鏡直播。
圖源:三個皮匠報告
VR陀螺此前早前了解到,在 AI 眼鏡上做直播并非易事,因為內容平臺通常不會直接把直播接口開放給除手機以外的設備廠商。此外,手機廠商也不會輕易開放權限,讓第三方 AI 眼鏡廠商的 APP 來調用手機內的其他軟件功能。一個可行的解決方案在于廠商做第云端功能集成,如模擬手機環境,自定義直播各選項功能等,在不考慮延遲的條件下,整體技術難度都相當復雜。
所以,字節跳動做 AI 眼鏡擁有這一較大的差異化場景能力。
第一視角(First-Person View, FPV)直播,對于擁有抖音這一超級內容平臺的字節跳動而言,無疑具有獨特的戰略價值和爆發潛力。相關數據統計,抖音月活躍用戶已達 7.66 億,作為一個 UGC 平臺,人人都是創作者,即使只有一小部分涌入 AI 眼鏡直播,其數據也是不可估量的。
AI 眼鏡+直播優勢明顯:
- 第一人稱視角體驗:FPV 直播帶來的“所見即所得”的第一視角,能夠極大地增強直播內容的真實感、臨場感和沉浸感。對于創作者而言,無論是分享旅行見聞、烹飪過程、戶外探險、才藝展示、直播帶貨還是進行現場報道等,AI 眼鏡都能提供一種極其便捷、自然的拍攝方式。
- 解放雙手,提高生產力:傳統的直播方式往往需要手持手機或架設相機,限制了主播的活動自由和互動性。 AI 眼鏡的佩戴特性可以徹底解放雙手,讓主播可以更專注于當下的活動和與觀眾的交流,從而催生出更多元、更生動、更具互動性的直播內容。
對于抖音平臺上的數百萬內容創作者而言,能夠制作出與眾不同、更具吸引力的直播內容,將是購買字節跳動 AI 眼鏡的強大動力。對普通用戶而言,體驗喜愛主播的第一視角直播的 AI 眼鏡,也可能成為購買的理由,抖音預計將成為其 AI 眼鏡硬件銷售的關鍵應用場景和流量入口。
「綁定抖音」是字節跳動一定會走的市場策略,類似的推廣其實在 PICO 上已經走過來了一遍,包括在抖音上實現 VR 直播、360 度全景視頻展示、在 PICO 上實現刷抖音等等,旨在以差異化內容展現形式拉動硬件增長。
直播技術與平臺軟件集成,對于字節跳動而言并不是難點,難的是如何依靠 AI 眼鏡做好一場直播,這需要考慮畫面防抖、畫質分辨率、網絡延遲等,再加之眼鏡本身電池較小,如何權衡二者關系,找到一個最佳平衡點。
「務實的浪漫」,好聽,但絕不好做。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.