互聯(lián)網(wǎng)大廠(chǎng)每年會(huì)更新無(wú)數(shù)個(gè)產(chǎn)品與功能迭代,有一些是追風(fēng)口的熱點(diǎn),而有一些會(huì)被時(shí)間證明背后更深遠(yuǎn)的價(jià)值。
舉個(gè)例子,盡管市面上不少AI應(yīng)用都具備拍照識(shí)圖等多模態(tài)功能,但大多數(shù)產(chǎn)品仍停留在“識(shí)別-展示信息”的淺層交互階段。
夸克于近期上線(xiàn)了“拍照問(wèn)夸克”,基于通義與夸克的多模態(tài)能力,AI不僅能看,還能理解物理世界并采取行動(dòng),調(diào)用對(duì)應(yīng)的智能體來(lái)完成后續(xù)服務(wù),實(shí)現(xiàn)了從“看見(jiàn)物理世界”到“理解并行動(dòng)”的質(zhì)變。
“拍照問(wèn)夸克”功能,讓搜索第一次從視覺(jué)層面,實(shí)現(xiàn)了從獲取物理信息到解決問(wèn)題的閉環(huán)。也意味著,夸克作為AI超級(jí)框,可以“一框解讀物理世界”。
當(dāng)前,AI超級(jí)應(yīng)用將各家技術(shù)能力轉(zhuǎn)化為用戶(hù)可感知的消費(fèi)級(jí)產(chǎn)品,成為這一輪大模型技術(shù)浪潮中的風(fēng)口,也是互聯(lián)網(wǎng)巨頭們都在搶奪的入口。阿里將“AI原生應(yīng)用”列為未來(lái)三年的核心投入方向。“拍照問(wèn)夸克”不僅讓夸克打開(kāi)了數(shù)字世界與物理世界的觸點(diǎn),也進(jìn)一步打開(kāi)了阿里AI To C業(yè)務(wù)的想象空間。
所以,這一功能的上線(xiàn),值得放在更加縱深的阿里AI戰(zhàn)略中來(lái)解讀。我們首先要解答的問(wèn)題是,夸克究竟對(duì)AI相機(jī)做了什么?
從交互體驗(yàn)來(lái)看,圖像搜索更適合用來(lái)與現(xiàn)實(shí)物理世界進(jìn)行交互。相比文字搜索,圖像表達(dá)的信息更豐富,可以減少用戶(hù)語(yǔ)言表達(dá)的誤差,更真實(shí)地反映物理世界的原貌,搜得更精準(zhǔn);圖像交互也更快捷,現(xiàn)實(shí)場(chǎng)景中很多信息是突發(fā)的,比如臨時(shí)需要識(shí)別陌生植物,旅游時(shí)路過(guò)一座有趣的建筑,這時(shí)往往來(lái)不及轉(zhuǎn)換成文字描述,抬手一拍,搜起來(lái)更方便。
所以,滿(mǎn)足用戶(hù)探索物理世界的需求,AI搜索必須看清、看懂物理世界。但透過(guò)搜索引擎,探索豐富的物理世界,為什么一直沒(méi)能實(shí)現(xiàn)?
原因是傳統(tǒng)搜索,眼(視覺(jué)感知)、腦(圖像理解推理決策)、手(執(zhí)行服務(wù))的脫節(jié):
看不全。文本搜索已經(jīng)成熟,但多模態(tài)搜索還在發(fā)展中。早在2001年,谷歌就發(fā)布過(guò)圖像搜索引擎。但AI傳統(tǒng)方法受限于文本元數(shù)據(jù),ImageNet數(shù)據(jù)集僅含1000類(lèi)物體,遠(yuǎn)未覆蓋現(xiàn)實(shí)場(chǎng)景的復(fù)雜性,導(dǎo)致檢索效果差。移動(dòng)應(yīng)用孤島問(wèn)題,各平臺(tái)數(shù)據(jù)不互通,跨平臺(tái)整合不足,搜索效果仍然受限。
看不懂。用戶(hù)的搜索意圖有模糊性,NLP模型已經(jīng)可以較好地理解意圖和智能匹配,但很多基座大模型在跨模態(tài)理解上仍有局限,一旦涉及圖片等多模態(tài)交互,無(wú)法從圖片中準(zhǔn)確理解用戶(hù)意圖,檢索準(zhǔn)確性不足,十分依賴(lài)用戶(hù)的提示詞,普通用戶(hù)難以掌握,又進(jìn)一步限制了多模態(tài)功能的使用意愿和頻率。
動(dòng)不了。夸克AI相機(jī)產(chǎn)品經(jīng)理認(rèn)為,“當(dāng)用戶(hù)面向一個(gè)客觀物理世界,既想讓你告訴他這是什么,當(dāng)然是什么背后有一些原因原理、趨勢(shì)判斷等,還有一些是面向面前畫(huà)面或者已有的自己圖像里相冊(cè)的內(nèi)容,希望進(jìn)行一些處理”。但傳統(tǒng)搜索止步于單向信息輸出,無(wú)法觸發(fā)場(chǎng)景化服務(wù),缺乏行動(dòng)能力。
進(jìn)入大模型時(shí)代,許多應(yīng)用或多或少都上線(xiàn)了AI拍照能力,但大多是碎片化場(chǎng)景,或者垂域場(chǎng)景(如購(gòu)物、美顏修圖、植物識(shí)別),通用全能的一體化產(chǎn)品幾乎沒(méi)有。直到“拍照問(wèn)夸克”的上線(xiàn)。
“拍照問(wèn)夸克”以幾乎“滿(mǎn)配”的AI能力,“眼腦手”的聯(lián)動(dòng),賦予了搜索全新的“視界觀”。
夸克整體的定位是AI全能助手,AI超級(jí)框之前先解決了文本檢索的難題,“拍照問(wèn)夸克”AI拍照功能的上線(xiàn),則有望補(bǔ)齊傳統(tǒng)搜索“看不全、看不懂、動(dòng)不了”的短板,為用戶(hù)打開(kāi)物理世界的更大想象力。
夸克是如何提高AI搜索的“視力”的?AI相機(jī)的眼、通義基模+夸克后訓(xùn)練的腦、智能體的手,整合起來(lái),重新打造圖像搜索。
首先,教AI看圖,準(zhǔn)確告訴用戶(hù)這個(gè)東西“是什么”。夸克在做搜索引擎過(guò)程當(dāng)中積累了大量的專(zhuān)業(yè)圖片數(shù)據(jù)庫(kù),用戶(hù)用圖片發(fā)起需求的時(shí)候,夸克能夠快速去調(diào)取數(shù)據(jù)庫(kù)進(jìn)行匹配,精準(zhǔn)回答給用戶(hù)這是什么。當(dāng)前,夸克的各類(lèi)實(shí)體識(shí)別幾乎做到了市場(chǎng)的最好水平。
接下來(lái),教AI理解圖片,理解用戶(hù)“為什么問(wèn)”。基于多模態(tài)視覺(jué)理解能力與深度思考的復(fù)雜推理能力,相當(dāng)于調(diào)動(dòng)大模型的“大腦”去思索視覺(jué)信息,自動(dòng)識(shí)別用戶(hù)提問(wèn)意圖,先理解用戶(hù)想干什么、這道題是什么,理解完之后再去檢索,想一些對(duì)應(yīng)的解決思路。一些用戶(hù)“沒(méi)見(jiàn)過(guò)、說(shuō)不清、問(wèn)不出口”的問(wèn)題(如外語(yǔ)標(biāo)志、沒(méi)見(jiàn)過(guò)的植物),也能秒懂用戶(hù)需求。同時(shí),“拍照問(wèn)夸克”還支持多輪圖片對(duì)話(huà)、以圖追問(wèn)和深度對(duì)話(huà),幫用戶(hù)解析復(fù)雜問(wèn)題。
然后,讓智能體動(dòng)起來(lái),提供“下一步怎么辦”的行動(dòng)方案。用戶(hù)面向一個(gè)客觀物理世界,既想讓你告訴他這是什么,后續(xù)也關(guān)聯(lián)著下一步行動(dòng),比如希望進(jìn)行一些圖片處理。“動(dòng)腦”分析完用戶(hù)的意圖,夸克還聚合多智能體能力,采取行動(dòng),一個(gè)入口就可以完成掃描、修圖、編輯、翻譯、找圖等的高效處理,實(shí)現(xiàn)解題、健康問(wèn)題解讀、AI PPT、創(chuàng)作、生圖等多樣化創(chuàng)作需求。
眼(感知)腦(推理)手(智能體)的聯(lián)動(dòng),大幅提升了多模態(tài)搜索的產(chǎn)品體驗(yàn)。“拍照問(wèn)夸克”讓搜索從單一模態(tài)到多模態(tài),提升了視覺(jué)搜索處理復(fù)雜查詢(xún)的能力,可能成為行業(yè)的新標(biāo)準(zhǔn)。
當(dāng)AI有了“視界觀”,多模態(tài)搜索融入“AI超級(jí)框”之后,夸克AI產(chǎn)品化范式的又一次成功自證。所以我們也很好奇,為什么夸克會(huì)一次又一次打造出爆款A(yù)I原生應(yīng)用?夸克做AI產(chǎn)品的思路究竟是怎樣的?
從這兩個(gè)爆款A(yù)I功能來(lái)看,夸克做AI具備幾個(gè)特點(diǎn):
一是以前的基礎(chǔ)。夸克憑借極簡(jiǎn)、科技感在搜索領(lǐng)域快速占據(jù)一席之地,成為2億人都在用的AI應(yīng)用,自身在AI產(chǎn)品化上的積累,鍛煉出了產(chǎn)品感覺(jué)和技術(shù)積累,這為其在產(chǎn)品中融入大模型的最新能力如多模態(tài),打好了基礎(chǔ)。
二是當(dāng)下的位置。2025年,夸克升級(jí)為阿里AI旗艦應(yīng)用,戰(zhàn)略地位進(jìn)一步提升,承擔(dān)起打通阿里內(nèi)部?jī)?yōu)勢(shì)能力與資源的重任,可以聚合模型(通義)、應(yīng)用(淘寶)等各個(gè)渠道的優(yōu)勢(shì)資源,打造更加完整的用戶(hù)體驗(yàn)。
三是始終在線(xiàn)的戰(zhàn)斗力。再好的基礎(chǔ)和資源,都要靠行動(dòng)來(lái)發(fā)揮出最大效果。公允地說(shuō),夸克的創(chuàng)新競(jìng)爭(zhēng)力是業(yè)內(nèi)首屈一指的,比如去年第一時(shí)間整合大模型能力,把AI搜索融入夸克高考等功能。敏銳的需求洞察,快速反應(yīng)不斷迭代,夸克的AI產(chǎn)品化在這一年多里進(jìn)展飛快,成為行業(yè)標(biāo)桿。
值得一提的是,阿里2024年明確AI To C(AI to Consumer)業(yè)務(wù),其中夸克其中的代表性AI應(yīng)用,是C端超級(jí)入口。由此可以推斷,夸克未來(lái)集中資源的能力進(jìn)一步加強(qiáng),其AI能力未來(lái)或?qū)⒋钶d到智能消費(fèi)硬件(如AI眼鏡)中,進(jìn)一步打通物理世界入口。
從這個(gè)角度說(shuō),“拍照問(wèn)夸克”多模態(tài)搜索功能的上線(xiàn),只是夸克的一小步,卻進(jìn)一步證明了夸克AI產(chǎn)品范式的有效性,指向了更寬廣的未來(lái)。
承載著阿里AI旗艦應(yīng)用的定位,夸克的產(chǎn)品化能力,對(duì)業(yè)務(wù)估值和市場(chǎng)競(jìng)爭(zhēng)的重要性有多大,值得我們仔細(xì)評(píng)估。
具體來(lái)看,“拍照問(wèn)夸克”功能的上線(xiàn),至少對(duì)阿里AI to C業(yè)務(wù)帶來(lái)幾重影響。
首先,多模態(tài)落地搜索的實(shí)際效果、整合速度,是阿里AI能力的佐證。AI相機(jī)作為多模態(tài)入口已是標(biāo)配,但夸克上線(xiàn)即滿(mǎn)配,說(shuō)明其技術(shù)整合能力強(qiáng),通過(guò)通義基模+后訓(xùn)練,使得功能上線(xiàn)即具備高成熟度,直接滿(mǎn)足用戶(hù)多樣需求,減少迭代周期,快速占領(lǐng)市場(chǎng)。
這無(wú)疑是阿里通義大模型為應(yīng)用賦能的有力佐證。
此外,夸克結(jié)合其已有的AI能力,如多模態(tài)推理、圖像生成等,讓用戶(hù)通過(guò)拍照直接獲取信息或服務(wù),比如掃描物體識(shí)別、文檔處理等,增強(qiáng)實(shí)用性,進(jìn)而提高用戶(hù)粘性和活躍度。
從數(shù)據(jù)來(lái)看,夸克00后用戶(hù)占比超50%,該群體對(duì)物理世界探索(如學(xué)習(xí)、旅行)需求強(qiáng)烈,且更習(xí)慣多模態(tài)交互。通過(guò)滿(mǎn)足其高頻剛需,比如購(gòu)物(掃描商品)、教育(拍照解題)、健康(醫(yī)療報(bào)告解讀)等,夸克快速建立AI服務(wù)心智,形成“入口即服務(wù)”的強(qiáng)綁定。
以拍照為例,當(dāng)你拍了一個(gè)東西并“拍照問(wèn)夸克”多少錢(qián),它會(huì)首先描述一下你拍的東西,并給出相應(yīng)的淘寶參考鏈接。并且夸克并不是直勾勾的引導(dǎo)購(gòu)買(mǎi),更多是作為一個(gè)信息提供給用戶(hù)。一個(gè)直接觸達(dá)用戶(hù)的鏈路,就被打通了。
未來(lái)拍照功能還可以放到AI眼鏡等智能終端上,夸克成為阿里首個(gè)整合“視覺(jué)+語(yǔ)言”交互的超級(jí)入口,成為物理世界與數(shù)字服務(wù)的連接點(diǎn),打開(kāi)阿里AI To C的想象力。
透過(guò)夸克的拍照入口,我們不只能進(jìn)一步看清、看懂物理世界,也看見(jiàn)了阿里與AI的無(wú)限可能性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.