99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開天眼的豆包來勢洶洶

0
分享至


文:王智遠 | ID:Z201440

去年火山引擎大會上,豆包團隊展示一項功能:

用攝像頭對準一個物體提問,AI能實時作答。當時看完演示視頻,我有一個念頭:如果做成了,AI 真的「長」眼睛了。

但這類技術(shù)從演示到落地,需要時間。畢竟,理解真實世界的視覺信息,遠比生成文字或圖像復雜得多;過去大半年我一直關(guān)注進展,直到上周六,終于上線了:視頻通話功能。

多數(shù)人把它當作新奇玩意兒,用來玩梗、搞笑。我認為,這是一個技術(shù)拐點,它會在商業(yè)世界里引發(fā)一系列新的想象。

01

可以先思考一個問題:視覺理解跟傳統(tǒng)的圖像識別,有什么本質(zhì)不同?可能有三點關(guān)鍵差異。

首先,技術(shù)從“標簽化”走向“語義化”。

以前圖像識別,是一個巨型分類器。你給它一張圖,它能告訴你這是貓、那是蘋果,僅此而已,它的邏輯,靠大量打標簽的數(shù)據(jù)訓練出來的。

看到某種像素組合,就知道對應哪個對象,但它不理解貓為什么會在這兒,也不知道蘋果放在廚房和實驗室意味著什么。

語義化不一樣。當看到一張“貓?zhí)稍谏嘲l(fā)上的照片”,AI要識別出貓和沙發(fā)這兩個元素,還要理解「躺著」的狀態(tài)、「沙發(fā)」這個環(huán)境,甚至推測這是一個安靜的家庭場景:貓在休息,家里沒人打擾。

它開始解析背后的“故事”,進行推理和常識判斷。這種能力怎么實現(xiàn)的呢?

表面上看,是多模態(tài)大模型的突破。傳統(tǒng)圖像識別只能處理圖像,是單模態(tài)系統(tǒng)。豆包這次的能力,是建立在一個既能看懂圖像、又能理解語言的大模型之上。

這意味著 AI 不僅能看到,還能調(diào)用知識庫,把畫面翻譯成語言,再進一步分析思考。但這還不是全部,它還有兩個關(guān)鍵能力:實時交互和上下文理解。

傳統(tǒng)圖片、拍照對話,三四輪就結(jié)束了,豆包是實時的、連續(xù)的、可追問的。你可以一邊對著畫面提問,一邊不斷深入,聊到你煩了為止,這對用戶體驗來說,是個質(zhì)的飛躍。

第三點最值得關(guān)注:它已經(jīng)顯現(xiàn)出「具身智能」的雛形。

什么叫具身智能?簡單講,AI 沒有實體,但可以通過攝像頭感知外部世界,并作出反應。

它不再是那種被動等你下指令的工具,而是一個能看、會想、還能回應的智能體——把圖像、語言和邏輯整合在一起,開始具備類似人類的感知能力。

所以我說,這種對真實世界的“感知”能力,是 AI 走向更高階智能形態(tài)的關(guān)鍵一步。

02

讓AI看到東西,還能回答問題,聽起來像開掛,背后卻藏著一堆技術(shù)難題。什么難題呢?

講技術(shù),太干巴了,跟你講個故事:

你生過孩子嗎?生過,更好;沒有,也不要緊張。至少見過剛出生的嬰兒吧,他一睜眼,世界就在面前了,哇哇的哭,看起來特別可愛。

不過,他能「看見」,卻什么都「不懂」;你指著一個杯子說:這是杯子。他眨眨眼,腦子里壓根沒建立起聲音、圖像和意義之間的聯(lián)系。

AI也是一樣。它不是不會看,而是看得見但看不懂。豆包這次上線的能力,不是加了個攝像頭讓它多認幾個字,是讓它完成了一次真正的「認知成長」。

就像嬰兒一樣,AI也得一步步來,第一步:先學會「眼睛和耳朵對得上」,把「看到的畫面」和「聽到的語言」真正連接起來。

它看到一張圖里有人在笑,你問它:他在干嘛?它識別出「嘴巴張開了」后,還得知道「張開嘴巴+眼角彎彎=笑」,然后才能說:他在笑。

所以,這跟嬰兒第一次聽到「笑」這個詞,再看到大人笑的樣子一樣,慢慢把信號對在一起。

對在一起,然后呢?還得反應快,還要會想。

要知道,我們不是來看AI做作業(yè)的,是來問問題的。你不可能等它慢慢分析完再來回答你;它得一邊看,一邊聽,一邊想,三件事同步進行,而且還要說得準。

好像那個長大的孩子,你指著一個東西問他:這是啥?;他不用翻字典,就能立刻告訴你答案,甚至還能補一句:我記得上次你也用過它。

有了反應還不夠,還要能猜出來。怎么猜?

現(xiàn)實世界哪有什么標準答案?拍一張照片,光線暗、角度怪、遮擋多,AI得在這種混亂中找出線索。你還可以指著一個它沒學過的工具問:“這是干啥用的?”

這時候,不能只會說“我不認識”,得靠自己推理出一個合理的答案。

孩子長大了,你帶他去工地,他沒見過某個零件,但他能根據(jù)它的形狀、位置、顏色,猜出它可能是用來擰螺絲的。這才是真正的「看懂」。

所以,長眼睛和開天眼,不一樣;一個是具備某個能力,一個是把看、聽、說串聯(lián)在一起。它像人一樣,經(jīng)歷從「看得到」到「看得懂」的成長過程,這一層一層的認知升級,才有機會理解人類的世界。

03

既然AI能「看懂」物理世界,那麻煩來了。比如:會不會改變熟悉的行業(yè)?又會催生哪些新的商業(yè)模式?

說點近距離的。辦公場景中,很多人面對屏幕時,除了看文字、圖表、設(shè)計圖、還有代碼界面等等。

當你看到一段K線圖搞不懂時,只要共享一下屏幕,AI能幫你分析走勢,告訴你是漲還是跌;再比如寫文章卡殼了,靈感沒了,怎么辦?拿出手機對著屏幕一拍,AI能根據(jù)你寫的內(nèi)容提供建議。

這種能力,會催生一種新服務模式:我把它叫做「屏幕即服務」。

當然,未來真正值得關(guān)注的是教育、醫(yī)療這兩個對“理解”要求很高的行業(yè)。

你想,孩子做題時突然卡住了,問誰呢?以后,他可以直接指著題目說:幫我看看這道題怎么解?AI能一邊看題,一邊聽問題,然后,用語音告訴你思路。

那醫(yī)生呢?

以前看CT片要花很多時間,醫(yī)生找角度,反復對比。以后是不是只要拿手機一拍,AI能立刻告訴你有沒有異常?有沒有結(jié)節(jié)?有沒有早期跡象?效率提升的不只是幾倍,而是幾十倍。

再來看零售。

現(xiàn)在購物體驗,最多是拍照搜同款。未來,你打開攝像頭,對準感興趣的商品,馬上知道這是什么品牌、多少錢、評價怎么樣,甚至直接跳轉(zhuǎn)購買鏈接。

走在大街上,看到櫥窗里的衣服,朋友戴的首飾,雜志上的推薦單品;只要對著它們一拍,信息立馬浮現(xiàn)出來,這不是科幻,是正在發(fā)生的現(xiàn)實。

而且,這種能力還會催生一個新的趨勢:即時興趣到即時購買;用戶從“感興趣”到“下單”,中間不再需要復雜的流程,決策路徑被大大縮短了。

再進一步,智能導購、門店運營也會發(fā)生根本性變化。

想象一下,未來的門店里裝上了AI攝像頭,它能實時觀察顧客的行為:他在哪個商品前停留了多久?對哪類首飾特別關(guān)注?有沒有反復回頭看?有沒有皺眉、猶豫?

這些細節(jié),AI都能捕捉到,并據(jù)此判斷顧客的興趣偏好;同時,商家也能通過AI視覺分析客流熱點、動線軌跡、商品陳列效果,從而不斷優(yōu)化門店布局和服務策略。

再來看看制造業(yè)。

過去很多工廠靠人工巡檢,靠經(jīng)驗判斷良品率。但人眼總有盲區(qū),疲勞也會影響判斷;未來,AI攝像頭可以自動監(jiān)控生產(chǎn)線,識別表面瑕疵、零件錯位、顏色偏差等問題。

這樣不僅能看得更細,還能記得更多,形成數(shù)據(jù)反饋閉環(huán),幫助工廠實現(xiàn)真正的智能化管理。

除了這些,還有很多我沒想到的場景。可以說,這項能力帶來感知世界方式的一次躍遷。它讓我們重新思考:該如何與世界交互?又該如何在此基礎(chǔ)上創(chuàng)造新的商業(yè)價值?

04

來勢洶洶的豆包,會不會卷到阿里、騰訊、百度?

肯定會。

背后站著字節(jié),這家公司在理解用戶需求、打造爆款產(chǎn)品、快速迭代的能力上,毋庸置疑;

作為它的AI旗艦應用,天然具備兩個關(guān)鍵優(yōu)勢:一能快速獲取海量用戶的反饋數(shù)據(jù);二有「用戶工廠」的基因,擅長用數(shù)據(jù)驅(qū)動產(chǎn)品創(chuàng)新。

所以你看,現(xiàn)在“天眼”雖然裝在豆包里,但以后未必只出現(xiàn)在這一個產(chǎn)品上;它可能很快會被復制到抖音、甚至投資的其他項目里,比如:AI眼鏡、智能終端等等。

你可以想象一下:只要有一個設(shè)備能搭載AI視覺能力,它就能「看見」一切;再加上它本身強大的知識問答能力,這就意味著:AI不再只是個工具,而是真正走向了「全民助手」的階段。

再來看看,其他大廠相比,到底有什么不同?

夸克也在做AI視覺相關(guān)的功能,拍照搜題、搜同款商品,目前更像「搜索+AI」的路線;核心優(yōu)勢是信息檢索能力,擅長從海量數(shù)據(jù)中快速找到匹配的內(nèi)容,就像一位經(jīng)驗豐富的圖書管理員。

豆包是從大模型和多模態(tài)能力切入的,強調(diào)「看懂」畫面背后的含義,還能推理、解釋、互動;更像一個「看得見、聽得懂、會思考」的私人導師。

我認為,兩者各有優(yōu)勢,在AI視覺這條賽道上,誰也替代不了誰,形成了良好的互補。

再來看騰訊元寶。這款產(chǎn)品在上線初期吸引大量用戶關(guān)注,但從公開討論來看,用戶留存率還有待提升。

一方面,大模型「幻覺」問題還沒有完全解決,影響了實際使用體驗;另一方面,當前,交互方式還停留在傳統(tǒng)的二維界面操作,缺乏「像人一樣對話」的智能體式交互。

相比之下,豆包有點「IP角色」的感覺,在桌面端可以隨時調(diào)用、自由交互。這種體驗上的差異,也是影響用戶性的重要因素。

對了,前幾天,我還刷到騰訊張軍的視頻號,他也發(fā)了一條元寶「開天眼」的視頻,我還點了個贊,相信這一切,也很快要來了。

至于百度文小言,今年,我也看到它在視頻生成模型上的突破,開源是好事,但實際APP上,還要更多時間去打磨,比如:它的視頻通話要拍照才可以識別。

通義千問APP視頻通話,現(xiàn)在已經(jīng)悄悄增加了一個「預約體驗」入口,看來也在摩拳擦掌。

盡管豆包視覺模型來勢洶洶,它要真正建立起長期優(yōu)勢,也不是一蹴而就的事。有兩個關(guān)鍵點值得持續(xù)關(guān)注:

一,AI再聰明,也離不開高質(zhì)量、多樣化的數(shù)據(jù)喂養(yǎng)。如何在合規(guī)前提下,收集更多有助于多模態(tài)訓練的數(shù)據(jù),是所有廠商都面臨的問題。

二,真正的行業(yè)融合

把它作為一個解題工具,價值太有限了,要想真正跑贏別人,得把能力嵌入到教育、醫(yī)療、制造等行業(yè)中去,成為行業(yè)變革的一部分。

所以,豆包這次的「開天眼」,意味著AI正在從「被動響應」走向「主動感知」,從「工具走向助手」。

接下來誰能走得更遠,拼的不只是技術(shù),更是數(shù)據(jù)、場景、生態(tài)的全面布局,對了,還有用戶體驗。希望其他巨頭們,盡快跟上這場「視覺革命」。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
報告:超八成女大學生接受結(jié)婚但不生孩子

報告:超八成女大學生接受結(jié)婚但不生孩子

金融界
2025-05-30 14:57:43
俄羅斯的報復來了

俄羅斯的報復來了

那山星火
2025-06-02 09:46:42
上汽大眾多款 SUV 推出限時一口價,整車終身質(zhì)保

上汽大眾多款 SUV 推出限時一口價,整車終身質(zhì)保

IT之家
2025-06-01 11:27:18
毛新宇妻子劉濱少將簡歷:為愛接力,繼承毛家家風,弘揚紅色文化

毛新宇妻子劉濱少將簡歷:為愛接力,繼承毛家家風,弘揚紅色文化

心言訴陌塵
2025-06-02 14:25:39
山東滕州警方:在一河道內(nèi)發(fā)現(xiàn)失聯(lián)10歲男童,確認系溺水身亡,排除刑事案件

山東滕州警方:在一河道內(nèi)發(fā)現(xiàn)失聯(lián)10歲男童,確認系溺水身亡,排除刑事案件

極目新聞
2025-06-02 21:41:06
李書福,不狂了

李書福,不狂了

混沌錄
2025-05-18 20:44:04
大范圍飽和潮濕襲廣東,回南桑拿要特大暴雨嗎?分析:即將北抬

大范圍飽和潮濕襲廣東,回南桑拿要特大暴雨嗎?分析:即將北抬

中國氣象愛好者
2025-06-02 21:43:51
全是黃曲霉素!女子劈開家中菜板里面全部發(fā)霉,趕緊自查

全是黃曲霉素!女子劈開家中菜板里面全部發(fā)霉,趕緊自查

FM93浙江交通之聲
2025-06-02 21:15:37
日媒:森保一決定輪換陣容激怒中國媒體 他們稱日本隊違反體育道德

日媒:森保一決定輪換陣容激怒中國媒體 他們稱日本隊違反體育道德

硯底沉香
2025-06-02 18:42:36
全市場:多納魯馬不愿在巴黎降薪,皇馬、拜仁和曼城都有意引進

全市場:多納魯馬不愿在巴黎降薪,皇馬、拜仁和曼城都有意引進

直播吧
2025-06-03 00:08:28
老公工資18000不幫小舅子還房貸,女子離婚,賺4000也要支持弟弟

老公工資18000不幫小舅子還房貸,女子離婚,賺4000也要支持弟弟

火山詩話
2025-06-02 06:30:56
意義超過珍珠港?烏攻擊5座俄機場41架轟炸機,大帝大勢已去

意義超過珍珠港?烏攻擊5座俄機場41架轟炸機,大帝大勢已去

邵旭峰域
2025-06-02 10:54:13
“扶弟魔”已是過去式,“田園女”悄然興起,正被列入相親黑名單

“扶弟魔”已是過去式,“田園女”悄然興起,正被列入相親黑名單

詩詞中國
2025-06-02 14:57:56
外媒曝比伯破產(chǎn)真相!取消巡演遭熟人背刺+揮霍無度致身心崩潰,海莉賣掉品牌掙10億拯救一家三口?

外媒曝比伯破產(chǎn)真相!取消巡演遭熟人背刺+揮霍無度致身心崩潰,海莉賣掉品牌掙10億拯救一家三口?

英國報姐
2025-06-02 21:07:58
華東師范大學經(jīng)濟與管理學院教授許鑫因病逝世,年僅49歲

華東師范大學經(jīng)濟與管理學院教授許鑫因病逝世,年僅49歲

澎湃新聞
2025-06-02 15:24:27
三年半“磨砂紙”師徒關(guān)系:全紅嬋與陳教練的冰火兩重天

三年半“磨砂紙”師徒關(guān)系:全紅嬋與陳教練的冰火兩重天

鄉(xiāng)野小珥
2025-06-02 12:08:42
天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬人生計…

天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬人生計…

慧翔百科
2025-05-21 14:02:24
《穿上瑜伽褲的縣城女孩》

《穿上瑜伽褲的縣城女孩》

健身S叔
2025-05-29 16:57:45
三年1.65億!正式加盟,恭喜東契奇!

三年1.65億!正式加盟,恭喜東契奇!

左右為籃
2025-06-02 12:05:12
為啥比亞迪進入二輪車電池市場會受歡迎?你看超威和天能都干了啥

為啥比亞迪進入二輪車電池市場會受歡迎?你看超威和天能都干了啥

全金貓眼
2025-06-02 16:55:48
2025-06-03 07:40:49
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業(yè)探索,關(guān)注科技人文、消費電商、品牌營銷、商業(yè)認知思維等方面。
438文章數(shù) 89關(guān)注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

美媒稱俄軍遇襲后轟炸機在集體燃燒 烏方透露行動細節(jié)

頭條要聞

美媒稱俄軍遇襲后轟炸機在集體燃燒 烏方透露行動細節(jié)

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經(jīng)要聞

近期大火的"穩(wěn)定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態(tài)度原創(chuàng)

親子
家居
游戲
數(shù)碼
手機

親子要聞

三個真相,帶你了解中國媽媽的困境

家居要聞

原木純白 邂逅自然本真

《荒野大鏢客》約翰演員首玩游戲:透露角色秘密

數(shù)碼要聞

希捷旗下 4TB 容量款 Xbox 存儲卡現(xiàn)身百思買電商平臺,429 美元

手機要聞

Google Pixel 10 手機將于 8 月 13 日發(fā)布

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 明光市| 云安县| 白水县| 平舆县| 靖安县| 丹阳市| 平昌县| 水富县| 牙克石市| 从江县| 巴彦淖尔市| 西青区| 鹤山市| 连江县| 玉环县| 龙海市| 嵊泗县| 马公市| 洮南市| 巴林右旗| 龙井市| 晋江市| 溧水县| 苏尼特左旗| 邯郸县| 芷江| 桃园市| 永登县| 筠连县| 镇平县| 田林县| 济阳县| 南汇区| 白朗县| 虞城县| 大厂| 闽清县| 寿阳县| 喀什市| 黄梅县| 哈尔滨市|