智能眼鏡,要么不夠智能,要么不像眼鏡,如何破局?
作者|王博
2007年,喬布斯發(fā)布初代iPhone,正在美國(guó)芝加哥出差的茹憶第一次體驗(yàn)iPhone。
當(dāng)時(shí)茹憶在摩托羅拉北京研發(fā)中心工作,iPhone絲滑的iOS系統(tǒng)讓他十分震撼,“它的硬件不一定比我們好,但系統(tǒng)做得太好了。”
后來(lái),茹憶做了摩托羅拉智能手機(jī)、小米電視、天貓精靈等智能硬件產(chǎn)品,他始終堅(jiān)信硬件背后軟件系統(tǒng)的重要性。在此期間,一件事情對(duì)他產(chǎn)生了很大的影響——AlphaGo戰(zhàn)勝李世石,當(dāng)時(shí)茹憶就對(duì)AI產(chǎn)生了一種直覺(jué)——“AI一定是未來(lái)”,這也是他當(dāng)時(shí)加入阿里巴巴做天貓精靈的原因。
2021年,茹憶選擇創(chuàng)業(yè),創(chuàng)辦了一家智能眼鏡公司——李未可(Lawaken)。
李未可科技創(chuàng)始人兼CEO茹憶
智能眼鏡是一個(gè)承載著AI應(yīng)用落地愿景的行業(yè),也是一個(gè)充斥著謊言和暴論的行業(yè)。
過(guò)去幾年間,不少公司蜂擁而至,以各種新穎的概念堆砌產(chǎn)品,用夸張的宣傳制造泡沫。然而,真正能夠落地,讓用戶(hù)愿意長(zhǎng)時(shí)間佩戴的智能眼鏡產(chǎn)品寥寥無(wú)幾。
問(wèn)題的根源在于:智能眼鏡,要么不夠智能,要么不像眼鏡。
不夠智能,公司就只能去卷硬件,陷入價(jià)格戰(zhàn);不像眼鏡,產(chǎn)品就難以讓用戶(hù)長(zhǎng)時(shí)間佩戴,使用場(chǎng)景會(huì)受限。
李未可科技創(chuàng)始人兼CEO茹憶對(duì)這兩個(gè)問(wèn)題的看法很明確:“AI眼鏡,AI在前硬件在后,AI技術(shù)必須成為用戶(hù)需求的第一響應(yīng)者,而非硬件的附屬品。”“智能眼鏡的重量越低越好,40克是一個(gè)門(mén)檻。智能眼鏡不能讓用戶(hù)‘哇’一下就放起來(lái),我們要做用戶(hù)可以戴一整天的智能硬件設(shè)備。”
5月25日,李未可推出了三款A(yù)I智能眼鏡,這些眼鏡都搭載了李未可自研的“WAKE-AI 2.0任務(wù)式交流系統(tǒng)”“零級(jí)智能體ZeroAgent”,而從續(xù)航、重量、外觀等角度來(lái)說(shuō)可以讓用戶(hù)佩戴一整天,并可滿足用戶(hù)翻譯、錄音、拍照等需求。
因?yàn)槔钗纯纱饲霸鲞^(guò)專(zhuān)注騎行場(chǎng)景的AR眼鏡產(chǎn)品,這次的三款新產(chǎn)品少了AR(增強(qiáng)現(xiàn)實(shí)),加強(qiáng)了AI,讓不少人覺(jué)得有些意外,但重視硬件產(chǎn)品背后的軟件系統(tǒng),近二十年來(lái),茹憶都沒(méi)有變過(guò)。
「甲子光年」發(fā)現(xiàn),李未可正在構(gòu)建一套軟硬件閉環(huán)的體系,這套體系以智能眼鏡為載體,背后支撐的是一個(gè)“多模態(tài)大模型+多Agent”的AI系統(tǒng)。
而這套AI系統(tǒng)研發(fā)成本要幾千萬(wàn)元,對(duì)一家智能眼鏡創(chuàng)業(yè)公司來(lái)說(shuō),這并不是一筆小的開(kāi)銷(xiāo)。
這也引發(fā)了一個(gè)疑問(wèn):一家智能眼鏡公司,為什么非要自研AI大模型系統(tǒng)?
1.為什么不能只做終端硬件
每一個(gè)進(jìn)入智能眼鏡市場(chǎng)的公司,都要面對(duì)兩個(gè)對(duì)手:飛秒刀和華強(qiáng)北。
飛秒激光近視手術(shù)正在蠶食眼鏡的市場(chǎng)。根據(jù)觀研報(bào)告網(wǎng)發(fā)布的《中國(guó)屈光手術(shù)行業(yè)發(fā)展趨勢(shì)分析與未來(lái)投資預(yù)測(cè)報(bào)告(2023-2030年)》,中國(guó)屈光手術(shù)滲透率不斷提升,2021年為0.29%,預(yù)計(jì)2025年將達(dá)到0.64%,2030年將上升至1.19%。近年來(lái),飛秒激光近視手術(shù)在技術(shù)成熟、效果提升的同時(shí),價(jià)格保持相對(duì)穩(wěn)定。
隨著更多人擁有“摘鏡自由”,智能眼鏡公司必須用遠(yuǎn)超“矯正視力”的價(jià)值,才能讓消費(fèi)者仍有理由在鼻梁上留一副電子設(shè)備。
而華強(qiáng)北正在快速壓低智能眼鏡的價(jià)格。這里是全球消費(fèi)電子產(chǎn)品的“晴雨表”,任何被市場(chǎng)驗(yàn)證有潛力的產(chǎn)品,都可能在極短時(shí)間內(nèi)被“華強(qiáng)北模式”消化、拆解,并以更低廉的價(jià)格迅速推向市場(chǎng)。這里的電子市場(chǎng)已經(jīng)出現(xiàn)售價(jià)90~200元的“中國(guó)版Ray-Ban Meta”快裝套件,再貼上“AI眼鏡”標(biāo)簽即可出貨;一些原本賣(mài)藍(lán)牙耳機(jī)的檔口,現(xiàn)在也轉(zhuǎn)型賣(mài)智能眼鏡了。
在這種“抄作業(yè)”速度面前,單純拼硬件的品牌注定淪為價(jià)格表上的一行數(shù)字。
在飛秒刀與華強(qiáng)北之間,智能眼鏡公司真正要回答的,不是能否做出一款智能眼鏡,而是能否交付一套讓用戶(hù)愿意日復(fù)一日佩戴并且難以被復(fù)制的AI體驗(yàn)閉環(huán)。
對(duì)于李未可們來(lái)說(shuō),這才是通往規(guī)模化的唯一通道。
觀眾體驗(yàn)李未可智能眼鏡
“我們最擅長(zhǎng)做的事情是‘AI+硬件’,而不是跟別人拼硬件。”茹憶坦言,雖然在創(chuàng)辦李未可的時(shí)候自己就相信AI,但是在2023年到2024年,自己做了“很艱難的選擇”,放棄了單光機(jī)雙目AR的方案,原因是“不夠AI”,并將更多精力投入到智能眼鏡專(zhuān)屬的AI大模型的研發(fā)中,目標(biāo)用戶(hù)也更聚焦在了商旅群體。
2024年4月,李未可推出了針對(duì)AI+終端定向優(yōu)化研發(fā)的多模態(tài)AI大模型平臺(tái)WAKE-AI 1.0。WAKE-AI 1.0具備文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力,并針對(duì)眼鏡端用戶(hù)的使用方式、場(chǎng)景等進(jìn)行了優(yōu)化。
而這次,李未可發(fā)布了WAKE-AI 2.0任務(wù)式交流系統(tǒng),其定位是針對(duì)AI眼鏡的多模態(tài)大模型及Agent架構(gòu)。這不僅僅是一個(gè)多模態(tài)大模型,而是一個(gè)圍繞AI Agent生態(tài)閉環(huán)設(shè)計(jì)的系統(tǒng),并為未來(lái)多終端協(xié)同預(yù)留了空間。
2.為什么不能只接入通用大模型API
智能眼鏡實(shí)現(xiàn)“智能”主要有三種方式:接入通用大模型API、合作研發(fā)大模型、自研大模型,部署方式則有:云側(cè)、端側(cè)、端云結(jié)合。
接入通用大模型API最簡(jiǎn)單,李未可科技合伙人兼AI負(fù)責(zé)人古鑒告訴「甲子光年」,李未可最初也嘗試過(guò)這種方案,但是團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)問(wèn)題,接入通用大模型API無(wú)法很好地完成“用戶(hù)意圖識(shí)別”。
李未可科技合伙人兼AI負(fù)責(zé)人古鑒
舉個(gè)例子,通用大模型API對(duì)“今天天氣怎么樣”“幫我導(dǎo)航到西湖”“幫我記一下會(huì)議要點(diǎn)”這類(lèi)常見(jiàn)指令的識(shí)別不錯(cuò),但對(duì)“我吃完飯想去西湖轉(zhuǎn)轉(zhuǎn)”這類(lèi)指令,到底是識(shí)別成導(dǎo)航需求還是聊天需求呢?更不要說(shuō),“根據(jù)當(dāng)下視野中的路況提示最佳騎行路線”或“基于鏡頭捕捉的迎面人臉自動(dòng)調(diào)出客戶(hù)資料”這種場(chǎng)景化、跨模態(tài)的意圖,通用大模型API容易出現(xiàn)誤解或漏識(shí)。
通用大模型API雖然強(qiáng)大,但對(duì)于智能眼鏡特有的交互模式、特定領(lǐng)域知識(shí)以及設(shè)備狀態(tài)感知的理解和整合能力可能不足,需要額外的開(kāi)發(fā)。而隨著使用量的增加,API調(diào)用費(fèi)用也會(huì)成為一筆持續(xù)且不小的開(kāi)銷(xiāo)。用戶(hù)數(shù)據(jù)隱私和延遲也是智能眼鏡公司需要考慮的問(wèn)題。
李未可選擇的方式是,基于開(kāi)源大模型微調(diào)AI智能眼鏡的專(zhuān)用大模型,并且在行業(yè)內(nèi)率先通過(guò)國(guó)家網(wǎng)信辦的大模型算法備案,確保合規(guī)。
在大模型訓(xùn)練階段,微調(diào)是利用特定任務(wù)的有標(biāo)簽數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練,使其更好地適應(yīng)某個(gè)具體任務(wù)或領(lǐng)域。
“我們準(zhǔn)備了很多符合智能眼鏡使用場(chǎng)景的數(shù)據(jù),花了很多時(shí)間去做數(shù)據(jù)精標(biāo),然后不斷去修正。”古鑒告訴「甲子光年」,“用戶(hù)意圖識(shí)別和分發(fā)對(duì)智能眼鏡十分重要,也是我們的著力點(diǎn)。”
在去年發(fā)布的WAKE-AI 1.0中,李未可以自研的分發(fā)決策大模型為核心,形成了一套AI多模型架構(gòu)。
WAKE-AI 1.0架構(gòu)圖
過(guò)去的一年,李未可做了很多用戶(hù)調(diào)研。在軟件、功能方面,用戶(hù)最關(guān)心實(shí)時(shí)翻譯和AI功能集成,而在使用場(chǎng)景上,用戶(hù)更傾向于在旅行和工作場(chǎng)景使用智能眼鏡。
用戶(hù)調(diào)研數(shù)據(jù)
結(jié)合用戶(hù)調(diào)研數(shù)據(jù)和使用場(chǎng)景,WAKE-AI 2.0主要在三個(gè)方面進(jìn)行了升級(jí):大模型ASR(自動(dòng)語(yǔ)音識(shí)別)、多模態(tài)交互、多智能體交互。
具體來(lái)說(shuō)就是,從“傳統(tǒng)ASR”升級(jí)為“大模型ASR”,從“語(yǔ)言大模型”升級(jí)為“多模態(tài)大模型”,從“分發(fā)決策大模型+智能體”升級(jí)為“思維鏈分發(fā)大模型+零級(jí)智能體ZeroAgent+內(nèi)外部多智能體協(xié)作”。
針對(duì)場(chǎng)景進(jìn)行升級(jí)
ASR是整個(gè)語(yǔ)音交互鏈條的第一步,其準(zhǔn)確率決定了后續(xù)AI理解與響應(yīng)的效果,尤其是在翻譯場(chǎng)景中。
前段時(shí)間,在越南胡志明市舉辦的CHINA HOMELIFE越南展上,李未可科技為展會(huì)主辦方米奧蘭特特別定制的AI智能翻譯眼鏡,以支持超過(guò)180種語(yǔ)言的實(shí)時(shí)翻譯,及會(huì)談內(nèi)容自動(dòng)生成紀(jì)要等AI功能引起了眾多參展商的關(guān)注。
李未可智能眼鏡在越南展會(huì)受關(guān)注
李未可采用了兩種方案來(lái)優(yōu)化ASR。
針對(duì)中文和英文,李未可采用大模型ASR技術(shù),音頻經(jīng)過(guò)encoder+adapter編碼和適配為token,結(jié)合用戶(hù)語(yǔ)境和上下文消息等文本模態(tài)數(shù)據(jù)共同作為大模型輸入,優(yōu)化通用領(lǐng)域的語(yǔ)音識(shí)別率,尤其是在多音字、相似音、人物地點(diǎn)名稱(chēng)等有顯著效果提升。
針對(duì)小語(yǔ)種識(shí)別,李未可通過(guò)whisper-encoder+ LLM進(jìn)行ASR訓(xùn)練,使用自回歸方案訓(xùn)練。李未可和合作伙伴采集約3000小時(shí)的專(zhuān)業(yè)小語(yǔ)種數(shù)據(jù),并且經(jīng)過(guò)人工精心標(biāo)注,配合通用領(lǐng)域的大規(guī)模語(yǔ)音數(shù)據(jù),進(jìn)行定制訓(xùn)練,以提升外貿(mào)翻譯場(chǎng)景的語(yǔ)音識(shí)別體驗(yàn)。
目前,李未可的大模型ASR字錯(cuò)率在通用和專(zhuān)業(yè)測(cè)試集測(cè)評(píng)上已全面優(yōu)于基線模型0.1~0.7個(gè)百分點(diǎn)。
李未可智能眼鏡
在文旅場(chǎng)景中,相比傳統(tǒng)語(yǔ)言大模型,多模態(tài)大模型能適應(yīng)更豐富的實(shí)際應(yīng)用場(chǎng)景,極大提升人機(jī)交互的智能化和自然度。這也對(duì)智能眼鏡的多模態(tài)數(shù)據(jù)處理能力提出了更高的要求:能同時(shí)理解和融合文本、圖像、音頻、視頻、地理等多種信息,滿足復(fù)雜場(chǎng)景需求。
李未可基于開(kāi)源多模態(tài)大模型,進(jìn)行了微調(diào)。不要小看這樣的微調(diào),團(tuán)隊(duì)進(jìn)行了大量的圖像數(shù)據(jù)采集及清洗工作,自采100多個(gè)展館,4700多個(gè)點(diǎn)位,并結(jié)合公開(kāi)的海內(nèi)外博物館數(shù)據(jù),構(gòu)建博物館類(lèi)目數(shù)據(jù)。另外,為對(duì)齊圖像-文本向量空間,李未可專(zhuān)門(mén)構(gòu)建訓(xùn)練文本。訓(xùn)練文本包含講解內(nèi)容、展品的年代及屬性標(biāo)簽等文本信息。基于結(jié)構(gòu)化數(shù)據(jù)及語(yǔ)言類(lèi)大模型增廣,形成超過(guò)50K的指令數(shù)據(jù)集。
最后就是多智能體的交互。
多智能體交互的前提還是精準(zhǔn)的用戶(hù)意圖識(shí)別,WAKE-AI 2.0在分發(fā)決策大模型的基礎(chǔ)上引入了思維鏈,升級(jí)為思維鏈分發(fā)大模型。
“去年我們就發(fā)現(xiàn),分發(fā)決策大模型如果要進(jìn)一步提升準(zhǔn)確度,必須要通過(guò)思維鏈的方式來(lái)判斷很多任務(wù)到底能不能夠執(zhí)行,所以DeepSeek-R1開(kāi)源對(duì)我們來(lái)說(shuō)非常利好。”古鑒告訴「甲子光年」。
思維鏈分發(fā)大模型
在這個(gè)前提下,李未可提出了“零級(jí)智能體ZeroAgent”概念。“我們認(rèn)為一個(gè)具備理解用戶(hù)意圖,并進(jìn)行分發(fā)、執(zhí)行和反饋的AI智能體才是關(guān)鍵,所以我們提出了一個(gè)概念,叫‘零級(jí)智能體ZeroAgent’。”茹憶說(shuō)。
之所以叫“零級(jí)”,意味著它是所有Agent中最先接觸用戶(hù)、響應(yīng)用戶(hù)的那一級(jí),相當(dāng)于“AI交互的門(mén)衛(wèi)”。
用戶(hù)輸入的文字、語(yǔ)音、圖像等信息首先會(huì)由Zero Agent解析意圖,判斷是“一般對(duì)話”還是導(dǎo)航、購(gòu)票、備忘錄這樣的“特定任務(wù)”。
當(dāng)請(qǐng)求超出其輕量化能力或需要調(diào)用專(zhuān)業(yè)流程時(shí),Zero Agent會(huì)觸發(fā)MCP(模型上下文協(xié)議)與A2A(Agent-to-Agent)機(jī)制,將任務(wù)路由給對(duì)應(yīng)的內(nèi)部或外部Agent。
Zero Agent還負(fù)責(zé)管理短期對(duì)話上下文,保證在多Agent協(xié)作時(shí),前后語(yǔ)義連貫,不丟失關(guān)鍵信息。
智能體交互
「甲子光年」認(rèn)為,隨著智能體(AIAgent)成為新交互范式,AI終端不再是“遙控器”,而是“Agent容器”。以WAKE-AI 2.0為例,其系統(tǒng)架構(gòu)已經(jīng)支持:多Agent調(diào)度執(zhí)行、私有知識(shí)嵌入Agent邏輯、Agent商店/平臺(tái)等。
這意味著,硬件本身正在成為軟件生態(tài)的承載體。不掌握系統(tǒng)平臺(tái),就無(wú)法定義生態(tài)。
WAKE-AI 2.0架構(gòu)
智能眼鏡的核心價(jià)值在于“持續(xù)、高效、自然”的人機(jī)交互,而決定用戶(hù)體驗(yàn)“爽不爽”的是:多模態(tài)識(shí)別精度(圖像、語(yǔ)音、文字理解)、語(yǔ)義推理能力(長(zhǎng)記憶、上下文理解)、Agent調(diào)度能力(能不能真正“干活”)。
這些核心體驗(yàn),無(wú)法單純靠接入通用大模型API實(shí)現(xiàn),必須進(jìn)行深度定制和系統(tǒng)級(jí)協(xié)同。
3.為什么不是大廠來(lái)做AI系統(tǒng)平臺(tái)
對(duì)于很多中小公司來(lái)說(shuō),經(jīng)常會(huì)被問(wèn)到的問(wèn)題是:“相比大廠,你們有什么壁壘?”
金沙江創(chuàng)投主管合伙人朱嘯虎曾告訴「甲子光年」:“在中國(guó),聰明人太多了,我從來(lái)不相信在中國(guó)有技術(shù)壁壘,我只相信客戶(hù)壁壘、數(shù)據(jù)壁壘。”
而在智能眼鏡領(lǐng)域,可以理解為平臺(tái)壁壘高于終端壁壘。那么,誰(shuí)更有動(dòng)力也更沒(méi)有退路去打造真正意義上的AI系統(tǒng)平臺(tái)?
大廠依靠算力租賃和API分發(fā),不愿冒險(xiǎn)走端上之路;大模型公司雖有技術(shù)和產(chǎn)品,但缺交互閉環(huán)、終端入口以及用戶(hù)數(shù)據(jù);而智能眼鏡公司,為了生存,為了體驗(yàn),為了差異化,只能卷“全棧”。
而從另一個(gè)角度來(lái)說(shuō),相比大廠的某個(gè)事業(yè)部,李未可在AI智能眼鏡細(xì)分賽道上可以更加專(zhuān)注。
這種專(zhuān)注體現(xiàn)在解決實(shí)際問(wèn)題上。比如,多智能體協(xié)作任務(wù)對(duì)模型的能力要求非常強(qiáng),由于多輪自主迭代,模型的token消耗量也很大,如何解決?
古鑒告訴「甲子光年」:“我們通過(guò)設(shè)計(jì)的多智能體框架,在線上實(shí)際運(yùn)行已經(jīng)收集很多真實(shí)agentic數(shù)據(jù),去增強(qiáng)大模型的agentic能力,然后設(shè)計(jì)更加自由靈活的架構(gòu),支持讓大模型自主決策、工作流配合的方式,這就可以明顯減少模型的token消耗。”
通過(guò)過(guò)往和不斷更新的用戶(hù)數(shù)據(jù)來(lái)迭代AI系統(tǒng)平臺(tái),的確可以逐漸構(gòu)筑壁壘。
這就是為什么,李未可必須做自己的AI系統(tǒng)平臺(tái),它不僅僅可以李未可的智能眼鏡服務(wù),也可以成為其他可穿戴智能終端的入口。
“AI是大時(shí)代,我們希望貢獻(xiàn)自己的力量,去共同促進(jìn)AI賦能硬件賦能生態(tài),共同推進(jìn)AI普惠,因此我們正在積極和伙伴合作,把我們的AI能力開(kāi)放給各廠商,而且現(xiàn)在已經(jīng)有了很多實(shí)質(zhì)性進(jìn)展和合作了。”古鑒說(shuō)。
2025年,AI大模型領(lǐng)域的競(jìng)爭(zhēng),正在從“誰(shuí)的模型大”轉(zhuǎn)向“誰(shuí)的系統(tǒng)強(qiáng)”。
過(guò)去的焦點(diǎn)主要放在“參數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模、架構(gòu)新穎性”上,現(xiàn)在的競(jìng)爭(zhēng),不再局限于“單體模型能力”,而是看誰(shuí)能把AI大模型落地體系打通,到底誰(shuí)的“系統(tǒng)”更可靠、反應(yīng)更快、體驗(yàn)更流暢。
“我們嘗試用Agent解決我們?nèi)粘I钪兴械膯?wèn)題,在未來(lái)的三個(gè)月,我們會(huì)推出真正的群體智能,讓Agent會(huì)調(diào)用多個(gè)Agent。ZeroAgent其實(shí)是一種全新的交互方式,也是一個(gè)新的交互入口。”茹憶說(shuō)。
「甲子光年」認(rèn)為,誰(shuí)能率先構(gòu)建可控、可部署、可落地的系統(tǒng)級(jí)AI能力,誰(shuí)就能在可穿戴終端中之戰(zhàn)中拔得頭籌。
這套WAKE-AI系統(tǒng)或許不是“最通用”的,但它是國(guó)內(nèi)為數(shù)不多以終端為場(chǎng)景、以智能體為中樞、以多模態(tài)為核心的真正落地的AI系統(tǒng)。
構(gòu)建真正的壁壘不能靠別人,只能靠自己。
(封面圖及文中配圖來(lái)源:李未可)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.