文:王智遠 | ID:Z201440
去年火山引擎大會上,豆包團隊展示一項功能:
用攝像頭對準一個物體提問,AI能實時作答。當時看完演示視頻,我有一個念頭:如果做成了,AI 真的「長」眼睛了。
但這類技術(shù)從演示到落地,需要時間。畢竟,理解真實世界的視覺信息,遠比生成文字或圖像復雜得多;過去大半年我一直關(guān)注進展,直到上周六,終于上線了:視頻通話功能。
多數(shù)人把它當作新奇玩意兒,用來玩梗、搞笑。我認為,這是一個技術(shù)拐點,它會在商業(yè)世界里引發(fā)一系列新的想象。
01
可以先思考一個問題:視覺理解跟傳統(tǒng)的圖像識別,有什么本質(zhì)不同?可能有三點關(guān)鍵差異。
首先,技術(shù)從“標簽化”走向“語義化”。
以前圖像識別,是一個巨型分類器。你給它一張圖,它能告訴你這是貓、那是蘋果,僅此而已,它的邏輯,靠大量打標簽的數(shù)據(jù)訓練出來的。
看到某種像素組合,就知道對應哪個對象,但它不理解貓為什么會在這兒,也不知道蘋果放在廚房和實驗室意味著什么。
語義化不一樣。當看到一張“貓?zhí)稍谏嘲l(fā)上的照片”,AI要識別出貓和沙發(fā)這兩個元素,還要理解「躺著」的狀態(tài)、「沙發(fā)」這個環(huán)境,甚至推測這是一個安靜的家庭場景:貓在休息,家里沒人打擾。
它開始解析背后的“故事”,進行推理和常識判斷。這種能力怎么實現(xiàn)的呢?
表面上看,是多模態(tài)大模型的突破。傳統(tǒng)圖像識別只能處理圖像,是單模態(tài)系統(tǒng)。豆包這次的能力,是建立在一個既能看懂圖像、又能理解語言的大模型之上。
這意味著 AI 不僅能看到,還能調(diào)用知識庫,把畫面翻譯成語言,再進一步分析思考。但這還不是全部,它還有兩個關(guān)鍵能力:實時交互和上下文理解。
傳統(tǒng)圖片、拍照對話,三四輪就結(jié)束了,豆包是實時的、連續(xù)的、可追問的。你可以一邊對著畫面提問,一邊不斷深入,聊到你煩了為止,這對用戶體驗來說,是個質(zhì)的飛躍。
第三點最值得關(guān)注:它已經(jīng)顯現(xiàn)出「具身智能」的雛形。
什么叫具身智能?簡單講,AI 沒有實體,但可以通過攝像頭感知外部世界,并作出反應。
它不再是那種被動等你下指令的工具,而是一個能看、會想、還能回應的智能體——把圖像、語言和邏輯整合在一起,開始具備類似人類的感知能力。
所以我說,這種對真實世界的“感知”能力,是 AI 走向更高階智能形態(tài)的關(guān)鍵一步。
02
讓AI看到東西,還能回答問題,聽起來像開掛,背后卻藏著一堆技術(shù)難題。什么難題呢?
講技術(shù),太干巴了,跟你講個故事:
你生過孩子嗎?生過,更好;沒有,也不要緊張。至少見過剛出生的嬰兒吧,他一睜眼,世界就在面前了,哇哇的哭,看起來特別可愛。
不過,他能「看見」,卻什么都「不懂」;你指著一個杯子說:這是杯子。他眨眨眼,腦子里壓根沒建立起聲音、圖像和意義之間的聯(lián)系。
AI也是一樣。它不是不會看,而是看得見但看不懂。豆包這次上線的能力,不是加了個攝像頭讓它多認幾個字,是讓它完成了一次真正的「認知成長」。
就像嬰兒一樣,AI也得一步步來,第一步:先學會「眼睛和耳朵對得上」,把「看到的畫面」和「聽到的語言」真正連接起來。
它看到一張圖里有人在笑,你問它:他在干嘛?它識別出「嘴巴張開了」后,還得知道「張開嘴巴+眼角彎彎=笑」,然后才能說:他在笑。
所以,這跟嬰兒第一次聽到「笑」這個詞,再看到大人笑的樣子一樣,慢慢把信號對在一起。
對在一起,然后呢?還得反應快,還要會想。
要知道,我們不是來看AI做作業(yè)的,是來問問題的。你不可能等它慢慢分析完再來回答你;它得一邊看,一邊聽,一邊想,三件事同步進行,而且還要說得準。
好像那個長大的孩子,你指著一個東西問他:這是啥?;他不用翻字典,就能立刻告訴你答案,甚至還能補一句:我記得上次你也用過它。
有了反應還不夠,還要能猜出來。怎么猜?
現(xiàn)實世界哪有什么標準答案?拍一張照片,光線暗、角度怪、遮擋多,AI得在這種混亂中找出線索。你還可以指著一個它沒學過的工具問:“這是干啥用的?”
這時候,不能只會說“我不認識”,得靠自己推理出一個合理的答案。
孩子長大了,你帶他去工地,他沒見過某個零件,但他能根據(jù)它的形狀、位置、顏色,猜出它可能是用來擰螺絲的。這才是真正的「看懂」。
所以,長眼睛和開天眼,不一樣;一個是具備某個能力,一個是把看、聽、說串聯(lián)在一起。它像人一樣,經(jīng)歷從「看得到」到「看得懂」的成長過程,這一層一層的認知升級,才有機會理解人類的世界。
03
既然AI能「看懂」物理世界,那麻煩來了。比如:會不會改變熟悉的行業(yè)?又會催生哪些新的商業(yè)模式?
說點近距離的。辦公場景中,很多人面對屏幕時,除了看文字、圖表、設(shè)計圖、還有代碼界面等等。
當你看到一段K線圖搞不懂時,只要共享一下屏幕,AI能幫你分析走勢,告訴你是漲還是跌;再比如寫文章卡殼了,靈感沒了,怎么辦?拿出手機對著屏幕一拍,AI能根據(jù)你寫的內(nèi)容提供建議。
這種能力,會催生一種新服務模式:我把它叫做「屏幕即服務」。
當然,未來真正值得關(guān)注的是教育、醫(yī)療這兩個對“理解”要求很高的行業(yè)。
你想,孩子做題時突然卡住了,問誰呢?以后,他可以直接指著題目說:幫我看看這道題怎么解?AI能一邊看題,一邊聽問題,然后,用語音告訴你思路。
那醫(yī)生呢?
以前看CT片要花很多時間,醫(yī)生找角度,反復對比。以后是不是只要拿手機一拍,AI能立刻告訴你有沒有異常?有沒有結(jié)節(jié)?有沒有早期跡象?效率提升的不只是幾倍,而是幾十倍。
再來看零售。
現(xiàn)在購物體驗,最多是拍照搜同款。未來,你打開攝像頭,對準感興趣的商品,馬上知道這是什么品牌、多少錢、評價怎么樣,甚至直接跳轉(zhuǎn)購買鏈接。
走在大街上,看到櫥窗里的衣服,朋友戴的首飾,雜志上的推薦單品;只要對著它們一拍,信息立馬浮現(xiàn)出來,這不是科幻,是正在發(fā)生的現(xiàn)實。
而且,這種能力還會催生一個新的趨勢:即時興趣到即時購買;用戶從“感興趣”到“下單”,中間不再需要復雜的流程,決策路徑被大大縮短了。
再進一步,智能導購、門店運營也會發(fā)生根本性變化。
想象一下,未來的門店里裝上了AI攝像頭,它能實時觀察顧客的行為:他在哪個商品前停留了多久?對哪類首飾特別關(guān)注?有沒有反復回頭看?有沒有皺眉、猶豫?
這些細節(jié),AI都能捕捉到,并據(jù)此判斷顧客的興趣偏好;同時,商家也能通過AI視覺分析客流熱點、動線軌跡、商品陳列效果,從而不斷優(yōu)化門店布局和服務策略。
再來看看制造業(yè)。
過去很多工廠靠人工巡檢,靠經(jīng)驗判斷良品率。但人眼總有盲區(qū),疲勞也會影響判斷;未來,AI攝像頭可以自動監(jiān)控生產(chǎn)線,識別表面瑕疵、零件錯位、顏色偏差等問題。
這樣不僅能看得更細,還能記得更多,形成數(shù)據(jù)反饋閉環(huán),幫助工廠實現(xiàn)真正的智能化管理。
除了這些,還有很多我沒想到的場景。可以說,這項能力帶來感知世界方式的一次躍遷。它讓我們重新思考:該如何與世界交互?又該如何在此基礎(chǔ)上創(chuàng)造新的商業(yè)價值?
04
來勢洶洶的豆包,會不會卷到阿里、騰訊、百度?
肯定會。
背后站著字節(jié),這家公司在理解用戶需求、打造爆款產(chǎn)品、快速迭代的能力上,毋庸置疑;
作為它的AI旗艦應用,天然具備兩個關(guān)鍵優(yōu)勢:一能快速獲取海量用戶的反饋數(shù)據(jù);二有「用戶工廠」的基因,擅長用數(shù)據(jù)驅(qū)動產(chǎn)品創(chuàng)新。
所以你看,現(xiàn)在“天眼”雖然裝在豆包里,但以后未必只出現(xiàn)在這一個產(chǎn)品上;它可能很快會被復制到抖音、甚至投資的其他項目里,比如:AI眼鏡、智能終端等等。
你可以想象一下:只要有一個設(shè)備能搭載AI視覺能力,它就能「看見」一切;再加上它本身強大的知識問答能力,這就意味著:AI不再只是個工具,而是真正走向了「全民助手」的階段。
再來看看,其他大廠相比,到底有什么不同?
夸克也在做AI視覺相關(guān)的功能,拍照搜題、搜同款商品,目前更像「搜索+AI」的路線;核心優(yōu)勢是信息檢索能力,擅長從海量數(shù)據(jù)中快速找到匹配的內(nèi)容,就像一位經(jīng)驗豐富的圖書管理員。
豆包是從大模型和多模態(tài)能力切入的,強調(diào)「看懂」畫面背后的含義,還能推理、解釋、互動;更像一個「看得見、聽得懂、會思考」的私人導師。
我認為,兩者各有優(yōu)勢,在AI視覺這條賽道上,誰也替代不了誰,形成了良好的互補。
再來看騰訊元寶。這款產(chǎn)品在上線初期吸引大量用戶關(guān)注,但從公開討論來看,用戶留存率還有待提升。
一方面,大模型「幻覺」問題還沒有完全解決,影響了實際使用體驗;另一方面,當前,交互方式還停留在傳統(tǒng)的二維界面操作,缺乏「像人一樣對話」的智能體式交互。
相比之下,豆包有點「IP角色」的感覺,在桌面端可以隨時調(diào)用、自由交互。這種體驗上的差異,也是影響用戶性的重要因素。
對了,前幾天,我還刷到騰訊張軍的視頻號,他也發(fā)了一條元寶「開天眼」的視頻,我還點了個贊,相信這一切,也很快要來了。
至于百度文小言,今年,我也看到它在視頻生成模型上的突破,開源是好事,但實際APP上,還要更多時間去打磨,比如:它的視頻通話要拍照才可以識別。
通義千問APP視頻通話,現(xiàn)在已經(jīng)悄悄增加了一個「預約體驗」入口,看來也在摩拳擦掌。
盡管豆包視覺模型來勢洶洶,它要真正建立起長期優(yōu)勢,也不是一蹴而就的事。有兩個關(guān)鍵點值得持續(xù)關(guān)注:
一,AI再聰明,也離不開高質(zhì)量、多樣化的數(shù)據(jù)喂養(yǎng)。如何在合規(guī)前提下,收集更多有助于多模態(tài)訓練的數(shù)據(jù),是所有廠商都面臨的問題。
二,真正的行業(yè)融合
把它作為一個解題工具,價值太有限了,要想真正跑贏別人,得把能力嵌入到教育、醫(yī)療、制造等行業(yè)中去,成為行業(yè)變革的一部分。
所以,豆包這次的「開天眼」,意味著AI正在從「被動響應」走向「主動感知」,從「工具走向助手」。
接下來誰能走得更遠,拼的不只是技術(shù),更是數(shù)據(jù)、場景、生態(tài)的全面布局,對了,還有用戶體驗。希望其他巨頭們,盡快跟上這場「視覺革命」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.