最近有兩件事,讓我對(duì) AI 的價(jià)值有了不一樣的看法。
一件事是前段時(shí)間西安一名男子去世后,女兒收拾遺物,在父親的手機(jī)里發(fā)現(xiàn)了他在生前和 AI 的對(duì)話。「我要去世了,豆包」,是父親和聊天機(jī)器人豆包發(fā)出的最后一條信息。
最近,我在抖音等社交媒體看到流行一種新的 AI 玩法,用戶讓豆包模仿自己的聲音給朋友打電話,讓 AI 代替對(duì)話,AI 不時(shí)的機(jī)械回復(fù)和答非所問(wèn),和沒(méi)反應(yīng)過(guò)來(lái)的朋友,拉滿了節(jié)目效果。
這倆事都有一些共同點(diǎn):沒(méi)有感情的 AI ,開(kāi)始成為越來(lái)越多人的情緒價(jià)值來(lái)源,將它當(dāng)作可以信賴的生活搭子。
但是你也會(huì)發(fā)現(xiàn)過(guò)程中這些 AI 提供的情緒價(jià)值和人還是有差距,它能聽(tīng)懂你的話,看懂一張圖,但你要它真的理解后做些什么,往往就露餡了。
因?yàn)橐郧霸诤?AI 語(yǔ)音聊天時(shí),它還不具備視覺(jué)能力。
視覺(jué)不僅是人類理解世界的窗戶,對(duì) AI 更是如此,在擁有這個(gè)能力后,才能真的像人一樣和我們交流。
現(xiàn)在,豆包終于補(bǔ)上了這塊拼圖,正式上線了視頻通話功能,能讓它「邊看邊聊」,打開(kāi)豆包 app 對(duì)話框的 + 號(hào),選擇「打電話」,點(diǎn)擊右側(cè)「視頻通話」就能體驗(yàn)。
APPSO 也第一時(shí)間對(duì)豆包進(jìn)行了一系列極限測(cè)試,通過(guò)大量的實(shí)測(cè)案例,來(lái)看看有了「雙眼」的豆包,到底有什么不一樣。
極限實(shí)測(cè)豆包視頻通話,我發(fā)現(xiàn)事情并不簡(jiǎn)單
昨晚,雷軍正式發(fā)布了小米 YU7。在我們辦公園區(qū),保時(shí)捷和小米的車停在一起有時(shí)候遠(yuǎn)看還真容易弄混。今天我就在路上偶遇一輛,給豆包「打電話」直接和他聊。
豆包從外觀和輪轂樣式認(rèn)出這是小米 SU7。
我們接著上點(diǎn)難度,最近明明是五月的廣州,居然像北京一樣有大量飄絮,任誰(shuí)見(jiàn)了都要問(wèn)一句「到底是什么東西?」
植物識(shí)別是很常見(jiàn),但豆包并不是單純地鑒別,而是能補(bǔ)充場(chǎng)外信息,就顯得非常有活人味。
再來(lái)看看這個(gè)紅色的大型設(shè)施,在生活中并不常見(jiàn),我邊逛邊給豆包「打電話」,它很快識(shí)別出這個(gè)物體是「鑄造拋丸除塵器」,還介紹了具體用途。
咱也不知道它是不是在瞎掰,直到我在旁邊找到了介紹的牌子,發(fā)現(xiàn)居然完全正確。
更令我意外的是,豆包還猜到了我在一個(gè)創(chuàng)意園里,告訴我這里過(guò)去是一個(gè)紡織園區(qū)。
視頻通話理解單個(gè)物品或許還是太簡(jiǎn)單了,我讓豆包跟我聊聊我收藏的手辦。
它依次識(shí)別出這些手辦角色,甚至認(rèn)出了不是常規(guī)形態(tài)的漩渦鳴人。
其中我跟它聊到科比的比賽,當(dāng)我提到科比生涯最后一場(chǎng)比賽后,有一句話令人難忘但忘了是什么,豆包幾乎脫口而出:
Mamba out !
而且語(yǔ)調(diào)也隨之提高,顯得更加興奮,讓我真有和一個(gè)知音聊天的感覺(jué)。
好了,既然這也難不到豆包,我就要上大招了。
看到同事日漸凌亂的桌面(不是),心想這是什么體質(zhì),東西越堆越多——來(lái)問(wèn)問(wèn)豆包這是什么 MBTI 好了。
這個(gè)測(cè)試難度在于,它需要先識(shí)別出桌面上的各種隨意擺放的物品,然后還得懂「人性」才能分析出來(lái)。
神奇的是,豆包對(duì) MBTI,是按照拼音的發(fā)音,而不是英文的發(fā)音,一開(kāi)始還沒(méi)有反應(yīng)過(guò)來(lái),以為是網(wǎng)絡(luò)卡頓。不過(guò),準(zhǔn)還是很準(zhǔn)的,同事就是一個(gè)大 E 人、大 P人。
除了心血來(lái)潮的速問(wèn),包含更多「隱藏信息」的場(chǎng)景,也是最能顯示實(shí)時(shí)通話能力的地方。
比如買咖啡豆,尤其是在咖啡館時(shí)嘗到不錯(cuò)的出品,但沒(méi)法像逛電商時(shí)那樣慢慢研究,而是需要在短時(shí)間內(nèi)做決定。然后腦子還不好使,永遠(yuǎn)記不住產(chǎn)地、海拔到底會(huì)對(duì)風(fēng)味有什么影響。
這下不用靠腦子記了,只需要點(diǎn)開(kāi)豆包,打開(kāi)攝像頭。
大大利好 i 人,去咖啡店再也不用跟店員交流,打開(kāi)手機(jī)就可以弄懂所有術(shù)語(yǔ)。
你說(shuō)怕獨(dú)自對(duì)著商品念叨很古怪?低聲些,假裝在跟朋友語(yǔ)音就不會(huì)被發(fā)現(xiàn)了!
除了識(shí)別與理解推理能力,我們還發(fā)現(xiàn)了在視頻通話中豆包還有著不錯(cuò)的創(chuàng)作能力。
我讓它根據(jù)語(yǔ)文課本上一個(gè)插畫,寫一首 rap。
在沒(méi)有任何提示的情況下,豆包迅速辨認(rèn)出畫面講述的是「岳母刺字」的故事,并準(zhǔn)確描繪了其中的場(chǎng)景。但真正讓我感到驚喜的,是它隨即生成的一首 rap。
你別說(shuō),聽(tīng)著還真有點(diǎn)文化底蘊(yùn),節(jié)奏感與意境拿捏得都挺妙。
我旅游時(shí)隨手看到遠(yuǎn)處湖上的一座橋,想即興寫首詩(shī),給我的朋友圈一點(diǎn)特別的文案
注意,我沒(méi)告訴它我在西湖,而且這里的橋不少,造型各異、歷史各有來(lái)頭。
但豆包依然在人流如織的景區(qū)背景中輕松鎖定西湖「斷橋」后,還用一首七言絕句講述這里的故事。
《西湖游》 斷橋望處翠湖連,荷葉田田映碧天。 游客如織橋上過(guò),湖光山色韻綿延。
朋友圈還缺一張好看的圖,與其抱怨閨蜜或男朋友拍不出滿意的照片,不如試一試用豆包生成實(shí)時(shí)pose tips。
跟豆包通話后,它就開(kāi)始觀察周圍的環(huán)境,并根據(jù)環(huán)境中的要素實(shí)時(shí)反饋攝影師如何構(gòu)圖效果更好、模特可以擺哪些動(dòng)作等。
在上面這個(gè)場(chǎng)景里,豆包根據(jù)廣州塔以及綠植、石板路、路燈等現(xiàn)場(chǎng)環(huán)境,建議我利用景深關(guān)系、低視角、傍晚路燈暖光拍攝,可以說(shuō)兼顧了實(shí)際拍攝條件和出圖氛圍感。
并且,豆包給出的拍照姿勢(shì)指導(dǎo)話術(shù)也比較具體。「?jìng)?cè)身」、「背對(duì)鏡頭」、「站在路中間」等說(shuō)法一聽(tīng)就明白應(yīng)該怎么做,而不是單薄的一句「多換幾個(gè)姿勢(shì)吧」。
等豆包接電話后,點(diǎn)擊界面左上角的「共享屏幕」選項(xiàng),你還可以和豆包一起刷視頻、逛網(wǎng)上商城、瀏覽帖子。
愛(ài)范兒試著邊播放抖音視頻,邊和豆包聊天,然后驚喜地發(fā)現(xiàn)她不僅能即時(shí)描述和評(píng)論畫面內(nèi)容,還會(huì)主動(dòng)拋出基于視頻主題及其相關(guān)內(nèi)容的聊天話題,交互體驗(yàn)更人性化了。
如果碰巧你分享欲爆棚,說(shuō)不定能和豆包聊個(gè)「3 天 3 夜」。
或許能治好你的選擇困難癥。這很大程度上,得益于其背后的視覺(jué)理解模型會(huì)「看」也會(huì)「思考」。
糾結(jié)下班后和老友聚餐吃什么?使喚豆包找出附近500米內(nèi)的多家同類餐廳,解放雙手也能了解到這些店的招牌菜、店鋪風(fēng)評(píng)等信息。
豆包甚至還能化身首席點(diǎn)菜官,治好你的選擇困難癥,還能根據(jù)忌口安排妥當(dāng)。
各大電商折扣活動(dòng),讓你看花了眼。現(xiàn)在,你可以直接喊豆包出馬,幫你找到最具性價(jià)比的那款脫發(fā)洗發(fā)水。
而一句「30歲左右適用,香味中性風(fēng)」,豆包便能直接定位店鋪?lái)?yè)面的某款香水產(chǎn)品,并化身專屬客服,為你詳細(xì)介紹這款香水的前、中、后調(diào)等復(fù)雜成分信息。
如果中途對(duì)香水成分中的過(guò)敏原有疑問(wèn),你隨時(shí)打斷豆包提問(wèn)就行。
給 AI 裝上「眼睛」,不只能做好生活搭子
前段時(shí)間和階躍星辰 CEO 姜大昕交流,他認(rèn)為多模態(tài)還沒(méi)出現(xiàn) GPT-4 時(shí)刻,其中,理解生成一體化是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心問(wèn)題。
豆包剛上線的視頻通話功能,算是把「理解生成一體化」這個(gè)有點(diǎn)復(fù)雜的概念玩明白了。別看這詞玄乎,說(shuō)白了就是要讓 AI 不光能「看懂」你給它瞅的東西,還得能根據(jù)看懂的玩意兒,聊出個(gè)所以然來(lái)。
這就要求這兩件事兒得是一碼事,可現(xiàn)在往往不是。
你讓 AI 認(rèn)個(gè)小貓小狗,或者識(shí)別個(gè)場(chǎng)景,這算「理解」,可能用的是模型 A;然后你要讓 AI 照貓畫個(gè)虎,或者根據(jù)你的意思 P個(gè)圖,這算「生成」,又得用模型 B。
這就像公司里兩個(gè)部門無(wú)法順暢溝通,有大量信息差,那模型就很難真正「懂」你,生成的東西也可能不著邊際。
給 AI 加上視覺(jué)理解能力,就是要將不同部門整合成一個(gè)緊密協(xié)作的團(tuán)隊(duì)。它看到啥,腦子里就能立馬明白是啥意思,并且還能直接把這個(gè)理解轉(zhuǎn)化成行動(dòng)或者回應(yīng)。
看前面豆包視頻通話的表現(xiàn),就有點(diǎn)這個(gè)意思了。
比方說(shuō),你正在廚房里琢磨一道新菜,對(duì)著食譜有點(diǎn)懵圈,不知道某個(gè)步驟具體怎么操作,或者手頭缺個(gè)調(diào)料,想知道能不能用別的替代。
這時(shí)候,你直接把食譜或者你手里的食材通過(guò)視頻給豆包看。
這時(shí),豆包的「眼睛」(視覺(jué)理解模型)得先「看懂」你給它看的是啥。
它得識(shí)別出食譜上的文字、圖片,知道你說(shuō)的是哪個(gè)步驟;或者認(rèn)出你手里的那個(gè)是醬油還是醋,是蔥還是蒜。它不是簡(jiǎn)單地認(rèn)出這是「一瓶液體」或者「一根蔬菜」,它得聯(lián)系上下文,知道你是在做菜這個(gè)場(chǎng)景下問(wèn)問(wèn)題。
在「看懂」的基礎(chǔ)上,豆包才能聊出有用的信息。
它會(huì)跟你說(shuō):「哦,這個(gè)步驟是讓你把肉腌一下,我看你手邊有料酒和生抽,可以按食譜上的比例來(lái)。」或者:「你想用A調(diào)料替代B調(diào)料是吧?我?guī)湍悴椴椋牛碚撋峡梢裕兜揽赡軙?huì)有點(diǎn)不一樣,建議你少放一點(diǎn)試試。」
在這個(gè)過(guò)程中,「理解」和「生成」是無(wú)縫銜接的。豆包是在一個(gè)更統(tǒng)一的框架里,邊看邊理解,邊理解邊思考怎么回應(yīng)你,這才能實(shí)現(xiàn)真正的「邊看邊聊」。
所以說(shuō),豆包的視頻通話,就是想讓 AI 的「眼睛」和「嘴巴」能更好地協(xié)同工作。它看到的圖像信息,能直接驅(qū)動(dòng)它生成有意義的對(duì)話內(nèi)容。
當(dāng) AI 能像人一樣,看到什么,想到什么,然后自然而然地表達(dá)出來(lái),它已經(jīng)能成為一個(gè)不錯(cuò)的「生活搭子」,在提供一些情緒和陪伴之外,還能幫你解決一些實(shí)際的問(wèn)題。
但這事兒的意義可能不止如此, AI 在這個(gè)方向進(jìn)化下去,不再是一個(gè)只能被動(dòng)回答問(wèn)題的工具,而是成為一個(gè)能夠主動(dòng)觀察、深度理解并與我們流暢協(xié)作的智能伙伴。
可以說(shuō),這是 AI 朝著 AGI (通用人工智能),真正融入我們生活與工作的必經(jīng)之路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.