網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包為什么要給 AI 助手「開(kāi)眼」？

2025-05-26 20:11:04　來(lái)源: 極客公園

北京舉報(bào)

分享至

當(dāng) AI 同時(shí)擁有了耳朵和眼睛，在未來(lái)硬件創(chuàng)新的支持下，還將解放更大的創(chuàng)新潛力。

作者｜Jesse

編輯｜鄭玄

豆包，可以視頻通話(huà)了。

自年初更新「實(shí)時(shí)語(yǔ)音通話(huà)」功能之后，這一功能就持續(xù)受到用戶(hù)歡迎。現(xiàn)在在社交媒體上搜索豆包，排名前十的熱門(mén)關(guān)鍵詞中，有 6 個(gè)與「打電話(huà)」功能有關(guān)。大量和豆包通話(huà)相關(guān)的創(chuàng)意內(nèi)容也受到了觀眾追捧。

隨著視頻能力上線，豆包的通話(huà)功能迎來(lái)了一次「升維」，變得更實(shí)用、好用。結(jié)合視頻圖像，很多即便模糊的語(yǔ)音輸入，也能夠更好地被 AI 理解，用戶(hù)不需要再組織語(yǔ)言去描述眼前的信息。

視頻通話(huà)是一個(gè)單點(diǎn)功能，但在這背后是語(yǔ)言能力、多模態(tài)能力、推理能力、知識(shí)庫(kù)等等多個(gè)垂直領(lǐng)域的技術(shù)積累、整合，以及對(duì)成本和效率的平衡。

更重要的是，視頻通話(huà)能力預(yù)示了 AI 助手更遠(yuǎn)的前景。當(dāng) AI 同時(shí)擁有了眼睛和耳朵，在未來(lái)更多硬件創(chuàng)新的支持下，還將解放更大的創(chuàng)新潛力。

幫你理解眼前一切的豆包

視頻通話(huà)能力給豆包帶來(lái)的，首先是多模態(tài)理解的能力提升和交互優(yōu)化。

從最基礎(chǔ)的「理解」場(chǎng)景開(kāi)始，用戶(hù)可以把手機(jī)攝像頭對(duì)準(zhǔn)任何信息，如信息版、菜單，讓豆包給出翻譯、解釋。而且過(guò)程中，用戶(hù)可以不斷通過(guò)語(yǔ)言輸入，來(lái)修正豆包的關(guān)注重點(diǎn)。

比如在一個(gè)博物館里，當(dāng)我們開(kāi)啟視頻通話(huà)，問(wèn)豆包這是什么，豆包首先會(huì)根據(jù)畫(huà)面里的地標(biāo)特征，識(shí)別出這是「新加坡國(guó)家美術(shù)館」。然后我們?nèi)绻^續(xù)追問(wèn)，樓上掛著的橫幅是什么意思，豆包又會(huì)給出具體展覽信息的翻譯和解釋。

而在看展覽的過(guò)程中，我們也可以舉著手機(jī)，隨時(shí)針對(duì)任何一幅作品向豆包發(fā)問(wèn)。從基本的翻譯作品信息，到問(wèn)它作品風(fēng)格具體屬于哪一個(gè)派別，是否有模仿哪個(gè)藝術(shù)家的痕跡，豆包都能給出精準(zhǔn)判斷。

基于豆包給出的信息，我們也能進(jìn)一步挖掘一些更深的隱藏關(guān)聯(lián)。比如在新加坡國(guó)家美術(shù)館里有一個(gè)法院拘留室的展示區(qū)域，問(wèn)過(guò)豆包之后我發(fā)現(xiàn)，這里的關(guān)系在于，新加坡國(guó)家美術(shù)館由原政府大廈和原最高法院大樓改建而成。前法院的拘留室曾用于關(guān)押候?qū)彽谋桓妫诿佬g(shù)館改建后，部分拘留室被保留了下來(lái)，成為了美術(shù)館的一部分，供公眾參觀，讓人們可以了解新加坡的司法歷史。

除此之外，我們還可以和豆包講講自己對(duì)美術(shù)作品的一些理解和看法，進(jìn)行觀點(diǎn)碰撞。實(shí)際上，豆包已經(jīng)具備一定的「糾錯(cuò)」能力，不是只會(huì)一味地順從用戶(hù)的理解。比如這里，當(dāng)我引用了錯(cuò)誤的類(lèi)比，說(shuō)這個(gè)作品像「蒙德里安」風(fēng)格時(shí)，豆包能夠糾正我的錯(cuò)誤，告訴我實(shí)際像的是安迪·沃霍爾。之后我們還可以進(jìn)一步探討，為什么會(huì)出現(xiàn)這個(gè)錯(cuò)誤。我們也可以引導(dǎo)豆包對(duì)作品進(jìn)行批判性的解讀和評(píng)價(jià)。

這里還有一個(gè)很關(guān)鍵的點(diǎn)，因?yàn)橛辛藞D像視覺(jué)信息作為輔助，很多時(shí)候即便我發(fā)出指令的聲音很小，豆包并未完整識(shí)別我所說(shuō)的句子的每一個(gè)字，但它依然能通過(guò)捕捉關(guān)鍵詞，準(zhǔn)確理解我的意圖。

在旅行、觀光、展覽……等視覺(jué)信息占比更高的場(chǎng)景，最能體現(xiàn)出豆包視頻通話(huà)能力的優(yōu)勢(shì)。我們可以隨手舉起手機(jī)，讓豆包看到我們眼前的東西，從最基本的「這是什么？」出發(fā)，一點(diǎn)點(diǎn)挖掘出更多的信息和知識(shí)。比如讓豆包根據(jù)周邊的景色推理出我們?cè)谀模扑]周邊值得一去的景點(diǎn)、活動(dòng)、特色飲食，這既具有實(shí)用價(jià)值也充滿(mǎn)樂(lè)趣，適合出游不喜歡做嚴(yán)密的計(jì)劃，喜歡遇到更多偶然驚喜的 P 人。

包括在餐廳吃飯，碰到那些「不知道該怎么吃」的情形，也很適合通過(guò)視頻通話(huà)功能求助豆包。比如吃蕎麥面的時(shí)候店員端上來(lái)一壺像熱水一樣的東西，這個(gè)時(shí)候豆包也輕松給出了正確答案，壺里裝的是蕎麥面湯，可以和醬汁混合在一起喝掉。

豆包的視頻通話(huà)功能，相比普通的圖像識(shí)別，最關(guān)鍵的優(yōu)勢(shì)依然在于它的「互動(dòng)性」更強(qiáng)。基于單張圖像的理解和推理，很可能出現(xiàn)各種理解偏差、錯(cuò)誤。有了視頻模式之后，即便豆包給出了一個(gè)比較可疑的回應(yīng)，我們也可以通過(guò)換個(gè)角度，提供更多信息，來(lái)給豆包進(jìn)行更多思考和修正的機(jī)會(huì)。

比如在這個(gè)場(chǎng)景下，我們想知道酒店的某個(gè)裝置的作用，問(wèn)豆包之后它首先以為我們問(wèn)的是前面的熨衣板。經(jīng)過(guò)進(jìn)一步交互，它知道了我們想問(wèn)的是后面的行李架，但因?yàn)榻嵌葐?wèn)題，它將行李架錯(cuò)誤理解成了健身器材，之后換個(gè)角度進(jìn)一步追問(wèn)并識(shí)別之后，豆包成功給出了行李架這一答案。

這是視頻通話(huà)的功能的關(guān)鍵優(yōu)勢(shì)之一。當(dāng)下任何 AI 大模型都不可避免地會(huì)有「幻覺(jué)」和錯(cuò)誤。當(dāng)用戶(hù)精心編寫(xiě)了一大段 prompt 卻沒(méi)有得到自己想要的輸出結(jié)果時(shí)，就會(huì)極大打擊他們使用 AI 的積極性。但通過(guò)給到更多信息，提供更多角度的輸入補(bǔ)充，就能讓 AI 更接近我們需要的正確答案。可以說(shuō)，在視頻通話(huà)場(chǎng)景下，AI 和用戶(hù)形成了互動(dòng)的正向循環(huán)。

除了日常生活場(chǎng)景，豆包的視頻通話(huà)功能還可以在學(xué)習(xí)、工作等各種場(chǎng)景發(fā)揮作用，特別是基于一些紙質(zhì)的材料進(jìn)行理解和修改。比如對(duì)多頁(yè)的紙質(zhì)資料進(jìn)行總結(jié)，或?qū)W(xué)科題目進(jìn)行解答、糾錯(cuò)。

模型技術(shù)的「木桶理論」

「視頻通話(huà)」的功能本身非常簡(jiǎn)潔，任何用戶(hù)理解起來(lái)都沒(méi)有門(mén)檻，但在這背后，其實(shí)需要復(fù)雜的技術(shù)作為支持。

豆包視頻通話(huà)功能的核心來(lái)自「豆包視覺(jué)理解模型」的支持。2024 年 12 月，豆包首次發(fā)布視覺(jué)理解模型，為視頻通話(huà)功能提供了模型能力基礎(chǔ)。

除了視覺(jué)感知之外，豆包視覺(jué)理解模型還具備深度思考能力。這讓豆包實(shí)際上還可以通過(guò)攝像頭直接進(jìn)行解學(xué)科題目、分析論文以及診斷代碼等任務(wù)。這也是為什么在視頻通話(huà)過(guò)程中豆包能同時(shí)結(jié)合「圖像畫(huà)面」和「用戶(hù)語(yǔ)音指令」，精準(zhǔn)理解用戶(hù)意圖。

豆包并不是第一個(gè)實(shí)現(xiàn)這一功能的 AI 助手，但想要同時(shí)擁有優(yōu)秀的視覺(jué)理解能力，再基于視覺(jué)理解和用戶(hù)指令，將不同模態(tài)的信息綜合理解后，生成用戶(hù)想要的信息，同時(shí)還要做到低延遲，這一切就有很高的技術(shù)門(mén)檻。

整個(gè)過(guò)程有點(diǎn)像「木桶理論」，一個(gè)模型必須同時(shí)做好多個(gè)方面，才能做到像一個(gè)真實(shí)的「AI 助手」一樣，滿(mǎn)足用戶(hù)的需要。

為什么「視頻通話(huà)」能解鎖 AI 交互的更多創(chuàng)新？

今天，「視頻通話(huà)」只是豆包的一個(gè)小功能。但實(shí)際上，視覺(jué)理解能力所蘊(yùn)含的潛力和可能性還不止于此。

自誕生至今，大模型 AI 助手的交互都是「一問(wèn)一答」式，用戶(hù)輸入 prompt，AI 生成反饋。這里最大的矛盾在于，整理編寫(xiě) prompt 是有門(mén)檻的，且這個(gè)門(mén)檻比想象中更高，而一問(wèn)一答式的交互又是斷裂的，大家都很容易「把天聊死」，面對(duì) AI 也一樣。

而視覺(jué)圖像的引入，則為人機(jī)交互建立了一個(gè)「語(yǔ)境」，且這個(gè)語(yǔ)境的建立不需要任何門(mén)檻，天然富含信息，用戶(hù)只需要舉起攝像頭就行了。實(shí)際上，人類(lèi)自身理解世界的過(guò)程中，我們最重要的信息接收器官也一直是眼睛。

通過(guò)豆包的視頻通話(huà)功能，這一模式的有效性已經(jīng)得到體現(xiàn)。通過(guò)連貫的互動(dòng)加上視覺(jué)理解，用戶(hù)和 AI 交互的過(guò)程變得更自然了，可以通過(guò)不斷補(bǔ)充、解釋?zhuān)瑏?lái)接近自己想要的那個(gè)目標(biāo)。這種用戶(hù)和 AI 互相引導(dǎo)，對(duì) propmt 進(jìn)行不斷修正，能極大增加 prompt 輸入的帶寬和精確度。

實(shí)際上，這早就是行業(yè)共識(shí)。自 AI 大模型技術(shù)誕生之后，幾乎所有硬件創(chuàng)新都是在探索一種「攝像頭+麥克風(fēng)」的組合，從 AI Pin，到各種 AI 智能眼鏡，都是在建立一種讓 AI「看+聽(tīng)」的感知模式。只不過(guò)目前大部分這類(lèi)硬件，都還無(wú)法在性能和效率上，做到像手機(jī)那么高的可行度。

當(dāng)下我們?cè)谑褂枚拱囊曨l通話(huà)功能時(shí)，依然能感受到它被手機(jī)這個(gè)硬件載體限制著。比如我們很難長(zhǎng)時(shí)間舉著手機(jī)對(duì)準(zhǔn)前方我們看到的東西，以及在一些公共場(chǎng)合也不便于大聲說(shuō)話(huà)，無(wú)法和 AI 充分進(jìn)行語(yǔ)音溝通，這都是智能手機(jī)作為傳統(tǒng)硬件的限制所在。

從豆包的「視頻通話(huà)功能」已經(jīng)可以看出，讓 AI「看+聽(tīng)」的輸入模式，可能代表 AI 交互的更多可能性。它在軟件上完全是可行的，隨著模型能力的進(jìn)一步發(fā)展，結(jié)合硬件創(chuàng)新，或許將進(jìn)一步改變我們與 AI 的交互方式。

*頭圖來(lái)源：極客公園

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你如何看待豆包的「視頻通話(huà)功能」？

黃仁勛談自動(dòng)駕駛技術(shù)：雖然現(xiàn)在特斯拉遙遙領(lǐng)先，但未來(lái)每一輛車(chē)都必須具備。

點(diǎn)贊關(guān)注極客公園視頻號(hào) ，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.