網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包可以跟你打視頻了，陪我看《甄嬛傳》還挺懂！

2025-05-26 16:39:23　來(lái)源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

幾乎讓大模型全軍覆沒(méi)的新難題——看時(shí)鐘，被國(guó)產(chǎn)AI給拿下了。

要知道，之前單單是一張時(shí)鐘的圖表，幾乎所有大模型都答不對(duì)時(shí)間。

但現(xiàn)在，國(guó)產(chǎn)AI卻可以直接開(kāi)視頻，實(shí)時(shí)報(bào)準(zhǔn)時(shí)間！

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

可以看到，這個(gè)國(guó)產(chǎn)AI先是準(zhǔn)確地報(bào)出了“4點(diǎn)14分”，而在等了一分鐘后，它也是可以再次準(zhǔn)確報(bào)時(shí)“4點(diǎn)15分”。

那么這到底是何許AI也？

不賣關(guān)子，它就是豆包發(fā)布的新功能——視頻通話。

主打一個(gè)讓AI邊看邊聊天。

而且啊，它還是接入了聯(lián)網(wǎng)搜索的功能，所以回答的準(zhǔn)確性和時(shí)效性這塊也是拿捏到位了。

例如我們對(duì)著微博熱搜的話題提個(gè)問(wèn)題：

這個(gè)熱搜第一的是什么新聞呀？

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

可以看到，聯(lián)網(wǎng)的豆包在視頻通話的過(guò)程中，就可以直接把當(dāng)下的新聞熱點(diǎn)給你總結(jié)出來(lái)。

不得不說(shuō)，這種跟AI的互動(dòng)，不論是趣味性還是可靠性，都大大地增強(qiáng)了。

除此之外，這次的新功能還增加了“字幕”的選項(xiàng)，點(diǎn)擊之后就可以看到之前對(duì)話的具體內(nèi)容啦~

既然這個(gè)功能如此有趣，那我們必須安排一波深度實(shí)測(cè)。

來(lái)，走起~

跟豆包一塊看《甄嬛傳》

我們先來(lái)簡(jiǎn)單介紹一下視頻通話的操作方式。

打開(kāi)豆包App之后，依次點(diǎn)擊“對(duì)話”→“+號(hào)”→“打電話”→“開(kāi)啟視頻通話”即可：

我們的第一個(gè)實(shí)測(cè)，就是看看豆包能不能成為一個(gè)看劇搭子，能跟你邊看視頻邊聊劇情。

有請(qǐng)《甄嬛傳》：

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包在看視頻的瞬間，立馬辨別出這是《甄嬛傳》，并且分析出了這個(gè)名場(chǎng)面：

祺貴人就是想借著皇后的手扳倒甄嬛呢。

不僅如此，它還是個(gè)有態(tài)度的AI，超級(jí)不看好祺貴人這個(gè)角色：

她太心急又沒(méi)腦子，最后肯定不會(huì)得逞的……根本不是甄嬛的對(duì)手。

整體來(lái)看，豆包稱得上是個(gè)合格的看劇搭子了。

接下來(lái)，我們?cè)賮?lái)看看豆包視頻通話在生活場(chǎng)景中能不能幫上忙。

例如我們給它看幾個(gè)食材，然后提問(wèn)：

拿這些食材我能做什么菜啊？

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包不僅秒識(shí)別出食材，還把炒菜的步驟、調(diào)味品等特別詳細(xì)地講解了一番。

以后要是遇到不會(huì)做的菜，是可以用視頻通話的方式問(wèn)問(wèn)豆包了。

類似的，我們讓它再看看一道物理題：

幫我看下第4題怎么做？

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包準(zhǔn)確地識(shí)別出題目，然后立馬開(kāi)始作答，把整個(gè)題目的求解過(guò)程詳盡地說(shuō)了出來(lái)，最后給出了正確答案：A。

不僅是物理題，現(xiàn)在直接讓豆包看論文、代碼，它也能幫你答疑解惑哦~

視頻地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

一番實(shí)測(cè)下來(lái)，豆包視頻通話功能，整體直觀的感受就是：有用，好用。

不只是看，還有思考

豆包視頻通話功能背后，其實(shí)是豆包·視覺(jué)理解模型在發(fā)力。

豆包?視覺(jué)理解模型擁有非常強(qiáng)的內(nèi)容識(shí)別能力，它就像一個(gè)敏銳的 “眼睛”，能夠精準(zhǔn)識(shí)別圖像中的各種要素。

從基本的物體類別、形狀、紋理，到物體之間的關(guān)系、空間布局以及場(chǎng)景的整體含義，甚至背后的文化知識(shí)，都能被其敏銳捕捉。

例如，它不僅可以輕松識(shí)別現(xiàn)實(shí)中的常見(jiàn)物品，還能根據(jù)光影、輪廓、位置等特征，準(zhǔn)確識(shí)別出小動(dòng)物的影子并判斷出這是一只貓。

再如，當(dāng)用戶在清晨跑步時(shí)，看到光線從樹(shù)林間灑出來(lái)，隨手拍張照片詢問(wèn)豆包大模型，它能迅速識(shí)別出這是丁達(dá)爾效應(yīng)，并詳細(xì)科普其原理。

這種強(qiáng)大的內(nèi)容識(shí)別能力，讓AI能夠更好地理解現(xiàn)實(shí)世界的視覺(jué)信息，為后續(xù)的理解和推理奠定了堅(jiān)實(shí)基礎(chǔ)。

理解推理能力是豆包?視覺(jué)理解模型的又一核心優(yōu)勢(shì)。

它不僅能識(shí)別圖文信息，還能進(jìn)行復(fù)雜的邏輯計(jì)算，在多個(gè)領(lǐng)域展現(xiàn)出了強(qiáng)大的解決問(wèn)題的能力。

在教育場(chǎng)景中，拍下一道需要進(jìn)行微積分運(yùn)算的數(shù)學(xué)題，模型能很好地理解圖片問(wèn)題，并根據(jù)提示詞進(jìn)行對(duì)應(yīng)的推理計(jì)算，給出清晰的答題思路，幫助學(xué)生更好地理解和解決數(shù)學(xué)難題。

除了識(shí)別與理解推理能力，豆包?視覺(jué)理解模型還擁有非常細(xì)膩的視覺(jué)描述和創(chuàng)作能力。

這也就不難理解為什么豆包視頻通話能做到又快又準(zhǔn)又好。

總而言之，AI和人類交互的方式變得越來(lái)越有趣了。

參考鏈接：
https://arxiv.org/pdf/2502.05092

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.