網易首頁 > 網易號 > 正文申請入駐

夸克新入口：重構AI“視界觀”，望見阿里AI新版圖

2025-04-27 23:31:52　來源: 腦極體

天津舉報

分享至

互聯網大廠每年會更新無數個產品與功能迭代，有一些是追風口的熱點，而有一些會被時間證明背后更深遠的價值。

舉個例子，盡管市面上不少AI應用都具備拍照識圖等多模態功能，但大多數產品仍停留在“識別-展示信息”的淺層交互階段。

夸克于近期上線了“拍照問夸克”，基于通義與夸克的多模態能力，AI不僅能看，還能理解物理世界并采取行動，調用對應的智能體來完成后續服務，實現了從“看見物理世界”到“理解并行動”的質變。

“拍照問夸克”功能，讓搜索第一次從視覺層面，實現了從獲取物理信息到解決問題的閉環。也意味著，夸克作為AI超級框，可以“一框解讀物理世界”。

當前，AI超級應用將各家技術能力轉化為用戶可感知的消費級產品，成為這一輪大模型技術浪潮中的風口，也是互聯網巨頭們都在搶奪的入口。阿里將“AI原生應用”列為未來三年的核心投入方向。“拍照問夸克”不僅讓夸克打開了數字世界與物理世界的觸點，也進一步打開了阿里AI To C業務的想象空間。

所以，這一功能的上線，值得放在更加縱深的阿里AI戰略中來解讀。我們首先要解答的問題是，夸克究竟對AI相機做了什么？

從交互體驗來看，圖像搜索更適合用來與現實物理世界進行交互。相比文字搜索，圖像表達的信息更豐富，可以減少用戶語言表達的誤差，更真實地反映物理世界的原貌，搜得更精準；圖像交互也更快捷，現實場景中很多信息是突發的，比如臨時需要識別陌生植物，旅游時路過一座有趣的建筑，這時往往來不及轉換成文字描述，抬手一拍，搜起來更方便。

所以，滿足用戶探索物理世界的需求，AI搜索必須看清、看懂物理世界。但透過搜索引擎，探索豐富的物理世界，為什么一直沒能實現？

原因是傳統搜索，眼（視覺感知）、腦（圖像理解推理決策）、手（執行服務）的脫節：

看不全。文本搜索已經成熟，但多模態搜索還在發展中。早在2001年，谷歌就發布過圖像搜索引擎。但AI傳統方法受限于文本元數據，ImageNet數據集僅含1000類物體，遠未覆蓋現實場景的復雜性，導致檢索效果差。移動應用孤島問題，各平臺數據不互通，跨平臺整合不足，搜索效果仍然受限。

看不懂。用戶的搜索意圖有模糊性，NLP模型已經可以較好地理解意圖和智能匹配，但很多基座大模型在跨模態理解上仍有局限，一旦涉及圖片等多模態交互，無法從圖片中準確理解用戶意圖，檢索準確性不足，十分依賴用戶的提示詞，普通用戶難以掌握，又進一步限制了多模態功能的使用意愿和頻率。

動不了。夸克AI相機產品經理認為，“當用戶面向一個客觀物理世界，既想讓你告訴他這是什么，當然是什么背后有一些原因原理、趨勢判斷等，還有一些是面向面前畫面或者已有的自己圖像里相冊的內容，希望進行一些處理”。但傳統搜索止步于單向信息輸出，無法觸發場景化服務，缺乏行動能力。

進入大模型時代，許多應用或多或少都上線了AI拍照能力，但大多是碎片化場景，或者垂域場景（如購物、美顏修圖、植物識別），通用全能的一體化產品幾乎沒有。直到“拍照問夸克”的上線。

“拍照問夸克”以幾乎“滿配”的AI能力，“眼腦手”的聯動，賦予了搜索全新的“視界觀”。

夸克整體的定位是AI全能助手，AI超級框之前先解決了文本檢索的難題，“拍照問夸克”AI拍照功能的上線，則有望補齊傳統搜索“看不全、看不懂、動不了”的短板，為用戶打開物理世界的更大想象力。

夸克是如何提高AI搜索的“視力”的？AI相機的眼、通義基模+夸克后訓練的腦、智能體的手，整合起來，重新打造圖像搜索。

首先，教AI看圖，準確告訴用戶這個東西“是什么”。夸克在做搜索引擎過程當中積累了大量的專業圖片數據庫，用戶用圖片發起需求的時候，夸克能夠快速去調取數據庫進行匹配，精準回答給用戶這是什么。當前，夸克的各類實體識別幾乎做到了市場的最好水平。

接下來，教AI理解圖片，理解用戶“為什么問”。基于多模態視覺理解能力與深度思考的復雜推理能力，相當于調動大模型的“大腦”去思索視覺信息，自動識別用戶提問意圖，先理解用戶想干什么、這道題是什么，理解完之后再去檢索，想一些對應的解決思路。一些用戶“沒見過、說不清、問不出口”的問題（如外語標志、沒見過的植物），也能秒懂用戶需求。同時，“拍照問夸克”還支持多輪圖片對話、以圖追問和深度對話，幫用戶解析復雜問題。

然后，讓智能體動起來，提供“下一步怎么辦”的行動方案。用戶面向一個客觀物理世界，既想讓你告訴他這是什么，后續也關聯著下一步行動，比如希望進行一些圖片處理?！皠幽X”分析完用戶的意圖，夸克還聚合多智能體能力，采取行動，一個入口就可以完成掃描、修圖、編輯、翻譯、找圖等的高效處理，實現解題、健康問題解讀、AI PPT、創作、生圖等多樣化創作需求。

眼（感知）腦（推理）手（智能體）的聯動，大幅提升了多模態搜索的產品體驗?！芭恼諉柨淇恕弊屗阉鲝膯我荒B到多模態，提升了視覺搜索處理復雜查詢的能力，可能成為行業的新標準。

當AI有了“視界觀”，多模態搜索融入“AI超級框”之后，夸克AI產品化范式的又一次成功自證。所以我們也很好奇，為什么夸克會一次又一次打造出爆款AI原生應用？夸克做AI產品的思路究竟是怎樣的？

從這兩個爆款AI功能來看，夸克做AI具備幾個特點：

一是以前的基礎。夸克憑借極簡、科技感在搜索領域快速占據一席之地，成為2億人都在用的AI應用，自身在AI產品化上的積累，鍛煉出了產品感覺和技術積累，這為其在產品中融入大模型的最新能力如多模態，打好了基礎。

二是當下的位置。2025年，夸克升級為阿里AI旗艦應用，戰略地位進一步提升，承擔起打通阿里內部優勢能力與資源的重任，可以聚合模型（通義）、應用（淘寶）等各個渠道的優勢資源，打造更加完整的用戶體驗。

三是始終在線的戰斗力。再好的基礎和資源，都要靠行動來發揮出最大效果。公允地說，夸克的創新競爭力是業內首屈一指的，比如去年第一時間整合大模型能力，把AI搜索融入夸克高考等功能。敏銳的需求洞察，快速反應不斷迭代，夸克的AI產品化在這一年多里進展飛快，成為行業標桿。

值得一提的是，阿里2024年明確AI To C（AI to Consumer）業務，其中夸克其中的代表性AI應用，是C端超級入口。由此可以推斷，夸克未來集中資源的能力進一步加強，其AI能力未來或將搭載到智能消費硬件（如AI眼鏡）中，進一步打通物理世界入口。

從這個角度說，“拍照問夸克”多模態搜索功能的上線，只是夸克的一小步，卻進一步證明了夸克AI產品范式的有效性，指向了更寬廣的未來。

承載著阿里AI旗艦應用的定位，夸克的產品化能力，對業務估值和市場競爭的重要性有多大，值得我們仔細評估。

具體來看，“拍照問夸克”功能的上線，至少對阿里AI to C業務帶來幾重影響。

首先，多模態落地搜索的實際效果、整合速度，是阿里AI能力的佐證。AI相機作為多模態入口已是標配，但夸克上線即滿配，說明其技術整合能力強，通過通義基模+后訓練，使得功能上線即具備高成熟度，直接滿足用戶多樣需求，減少迭代周期，快速占領市場。

這無疑是阿里通義大模型為應用賦能的有力佐證。

此外，夸克結合其已有的AI能力，如多模態推理、圖像生成等，讓用戶通過拍照直接獲取信息或服務，比如掃描物體識別、文檔處理等，增強實用性，進而提高用戶粘性和活躍度。

從數據來看，夸克00后用戶占比超50%，該群體對物理世界探索（如學習、旅行）需求強烈，且更習慣多模態交互。通過滿足其高頻剛需，比如購物（掃描商品）、教育（拍照解題）、健康（醫療報告解讀）等，夸克快速建立AI服務心智，形成“入口即服務”的強綁定。

以拍照為例，當你拍了一個東西并“拍照問夸克”多少錢，它會首先描述一下你拍的東西，并給出相應的淘寶參考鏈接。并且夸克并不是直勾勾的引導購買，更多是作為一個信息提供給用戶。一個直接觸達用戶的鏈路，就被打通了。

未來拍照功能還可以放到AI眼鏡等智能終端上，夸克成為阿里首個整合“視覺+語言”交互的超級入口，成為物理世界與數字服務的連接點，打開阿里AI To C的想象力。

透過夸克的拍照入口，我們不只能進一步看清、看懂物理世界，也看見了阿里與AI的無限可能性。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.