金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
幾乎讓大模型全軍覆沒(méi)的新難題——看時(shí)鐘,被國(guó)產(chǎn)AI給拿下了。
要知道,之前單單是一張時(shí)鐘的圖表,幾乎所有大模型都答不對(duì)時(shí)間。
但現(xiàn)在,國(guó)產(chǎn)AI卻可以直接開(kāi)視頻,實(shí)時(shí)報(bào)準(zhǔn)時(shí)間!
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
可以看到,這個(gè)國(guó)產(chǎn)AI先是準(zhǔn)確地報(bào)出了“4點(diǎn)14分”,而在等了一分鐘后,它也是可以再次準(zhǔn)確報(bào)時(shí)“4點(diǎn)15分”。
那么這到底是何許AI也?
不賣關(guān)子,它就是豆包發(fā)布的新功能——視頻通話。
主打一個(gè)讓AI邊看邊聊天。
而且啊,它還是接入了聯(lián)網(wǎng)搜索的功能,所以回答的準(zhǔn)確性和時(shí)效性這塊也是拿捏到位了。
例如我們對(duì)著微博熱搜的話題提個(gè)問(wèn)題:
- 這個(gè)熱搜第一的是什么新聞呀?
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
可以看到,聯(lián)網(wǎng)的豆包在視頻通話的過(guò)程中,就可以直接把當(dāng)下的新聞熱點(diǎn)給你總結(jié)出來(lái)。
不得不說(shuō),這種跟AI的互動(dòng),不論是趣味性還是可靠性,都大大地增強(qiáng)了。
除此之外,這次的新功能還增加了“字幕”的選項(xiàng),點(diǎn)擊之后就可以看到之前對(duì)話的具體內(nèi)容啦~
既然這個(gè)功能如此有趣,那我們必須安排一波深度實(shí)測(cè)。
來(lái),走起~
跟豆包一塊看《甄嬛傳》
我們先來(lái)簡(jiǎn)單介紹一下視頻通話的操作方式。
打開(kāi)豆包App之后,依次點(diǎn)擊“對(duì)話”→“+號(hào)”→“打電話”→“開(kāi)啟視頻通話”即可:
我們的第一個(gè)實(shí)測(cè),就是看看豆包能不能成為一個(gè)看劇搭子,能跟你邊看視頻邊聊劇情。
有請(qǐng)《甄嬛傳》:
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包在看視頻的瞬間,立馬辨別出這是《甄嬛傳》,并且分析出了這個(gè)名場(chǎng)面:
- 祺貴人就是想借著皇后的手扳倒甄嬛呢。
不僅如此,它還是個(gè)有態(tài)度的AI,超級(jí)不看好祺貴人這個(gè)角色:
- 她太心急又沒(méi)腦子,最后肯定不會(huì)得逞的……根本不是甄嬛的對(duì)手。
整體來(lái)看,豆包稱得上是個(gè)合格的看劇搭子了。
接下來(lái),我們?cè)賮?lái)看看豆包視頻通話在生活場(chǎng)景中能不能幫上忙。
例如我們給它看幾個(gè)食材,然后提問(wèn):
- 拿這些食材我能做什么菜啊?
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包不僅秒識(shí)別出食材,還把炒菜的步驟、調(diào)味品等特別詳細(xì)地講解了一番。
以后要是遇到不會(huì)做的菜,是可以用視頻通話的方式問(wèn)問(wèn)豆包了。
類似的,我們讓它再看看一道物理題:
- 幫我看下第4題怎么做?
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包準(zhǔn)確地識(shí)別出題目,然后立馬開(kāi)始作答,把整個(gè)題目的求解過(guò)程詳盡地說(shuō)了出來(lái),最后給出了正確答案:A。
不僅是物理題,現(xiàn)在直接讓豆包看論文、代碼,它也能幫你答疑解惑哦~
視頻地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
一番實(shí)測(cè)下來(lái),豆包視頻通話功能,整體直觀的感受就是:有用,好用。
不只是看,還有思考
豆包視頻通話功能背后,其實(shí)是豆包·視覺(jué)理解模型在發(fā)力。
豆包?視覺(jué)理解模型擁有非常強(qiáng)的內(nèi)容識(shí)別能力,它就像一個(gè)敏銳的 “眼睛”,能夠精準(zhǔn)識(shí)別圖像中的各種要素。
從基本的物體類別、形狀、紋理,到物體之間的關(guān)系、空間布局以及場(chǎng)景的整體含義,甚至背后的文化知識(shí),都能被其敏銳捕捉。
例如,它不僅可以輕松識(shí)別現(xiàn)實(shí)中的常見(jiàn)物品,還能根據(jù)光影、輪廓、位置等特征,準(zhǔn)確識(shí)別出小動(dòng)物的影子并判斷出這是一只貓。
再如,當(dāng)用戶在清晨跑步時(shí),看到光線從樹(shù)林間灑出來(lái),隨手拍張照片詢問(wèn)豆包大模型,它能迅速識(shí)別出這是丁達(dá)爾效應(yīng),并詳細(xì)科普其原理。
這種強(qiáng)大的內(nèi)容識(shí)別能力,讓AI能夠更好地理解現(xiàn)實(shí)世界的視覺(jué)信息,為后續(xù)的理解和推理奠定了堅(jiān)實(shí)基礎(chǔ)。
理解推理能力是豆包?視覺(jué)理解模型的又一核心優(yōu)勢(shì)。
它不僅能識(shí)別圖文信息,還能進(jìn)行復(fù)雜的邏輯計(jì)算,在多個(gè)領(lǐng)域展現(xiàn)出了強(qiáng)大的解決問(wèn)題的能力。
在教育場(chǎng)景中,拍下一道需要進(jìn)行微積分運(yùn)算的數(shù)學(xué)題,模型能很好地理解圖片問(wèn)題,并根據(jù)提示詞進(jìn)行對(duì)應(yīng)的推理計(jì)算,給出清晰的答題思路,幫助學(xué)生更好地理解和解決數(shù)學(xué)難題。
除了識(shí)別與理解推理能力,豆包?視覺(jué)理解模型還擁有非常細(xì)膩的視覺(jué)描述和創(chuàng)作能力。
這也就不難理解為什么豆包視頻通話能做到又快又準(zhǔn)又好。
總而言之,AI和人類交互的方式變得越來(lái)越有趣了。
參考鏈接:
https://arxiv.org/pdf/2502.05092
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.