在AI交互從文字邁向多模態的浪潮中,豆包視頻通話功能的推出標志著“能看會想”的AI時代悄然來臨。
這項技術能否真正融入生活?
混沌君通過深度實測,從功能突破、情感價值到現實瓶頸,揭秘“與AI視頻通話”的成熟度與未來可能性。
混沌君未來會創作一系列AI測評文章,從功能到市場,去分析AI未來的商業可能性。
01 當AI“睜開眼”后
豆包AI的視頻功能前一段上線了。
在一眾通過文字對話交流的AI產品中,能夠用視頻來與AI進行交流的產品還實屬罕見,混沌君也是第一時間就上手測評起來。
如果大家對這個系列感興趣,歡迎留言區說明希望我們測評哪一款AI產品。
使用起來并不復雜,打開豆包App,在對話欄上方的功能欄中有“打電話”的選項,點擊之后進入語音對話環境,在右下角會有視頻功能開關,點擊打開就能體驗到視頻電話功能。
在視頻對話中,豆包AI會捕捉分析你鏡頭中的畫面,主動給出總結和評價,這一點對于初次體驗視頻功能的用戶來說會比較驚艷。
例如我第一次撥通豆包的視頻電話后,在接通的一瞬間,豆包便告訴我我的桌面比較整潔,擺放了鍵盤、鼠標、電腦等物品,并評價我是一個收納習慣比較好的人。
這一點會很快拉近用戶和豆包對話的距離,就仿佛在跟真實的人進行視頻對話一樣。
通過一些簡單使用,我自己驚艷于豆包AI視頻電話功能所展現出的強大能力:不僅是功能性的強大,甚至在沉浸體驗、情緒價值上都讓我感到驚艷。
這讓我隱隱有一種感覺,似乎無數人質疑的AI技術落地方案,已經有了方向了。
而這背后,是萬億級的藍海市場。
02 功能實測:從“看見”到“解決”的跨維度體驗
在功能特點上,視頻對話的確可以解決很多語音對話難以解決的問題,其中就包括了產品說明。
例如我以一盒英文包裝的保健品以及一瓶韓文包裝的精華液來做測試,我在視頻對話中告訴豆包我希望知道這二者分別是什么產品,它們有哪些成分組成,又有哪些注意事項及產品功效等。
豆包在極短的分析延遲后大概給出了答案——回復時間短,沒有超出正常人類對話的思考時間,所以不會讓人感覺到遲滯感;而且回答雖然細節上不夠準確,但在整體上是靠譜的,能說出重點,沒有明顯漏洞。
類似的能力測試還有很多,比如我還要求它看一看我的剃須刀,并告訴我如何更換刀片,它會告訴我剃須刀的型號、需要我摁下卡扣掀起刀片并替換,甚至還會提醒我要聽到“咔噠”一聲才證明安裝到位。
我還試著讓它指導我如何裝好一套音箱,它會告訴我音箱上的蓮花口需要接什么線、兩臺衛星音箱又該如何接線,并幫我解答了音箱、驅動、聲卡之間的關系與不同,幫助我快速接好用上了音箱。
對很多人來說,豆包AI的一些功能性用途很實用,它更像你的一位隨時可以咨詢的“客服”。
比如當我撥通了豆包AI的視頻電話并將手機拿給我媽以后,我發現對她而言,豆包AI似乎有一些我不曾發現的其他用途。
由于我是突然將手機拿給我媽的,導致她一時沒想到有哪些需求需要AI來幫她解答,于是她直覺性地問出了第一個心頭困惑:“ 我最近跟某位朋友之間發生了一些不愉快,該怎么解決?”
豆包AI的回復是:“先別急,把事情詳細和我說一說,咱們一起想辦法,看看怎么能既合理地解決不愉快問題,又能把你們的關系處理好?!?/p>
甚至于得益于與抖音同屬一家公司的優勢,豆包還會貼心的在回復最后附上能夠提供幫助的抖音視頻,更多方面的給予問題解決的辦法。
這種對話內容再結合上豆包特有的溫柔女聲,讓我感覺到似乎在和一位頗有耐心的朋友對談,這打破了我對AI反饋內容比較機械的刻板印象,讓我有了一些關系被拉近的感覺。
對于我媽來說更是如此,如果說拿到手機之前,她也是抱著一種調侃的態度來看的話,那么這時她可能內心也有些波動,盡管她沒有再深入講解她的問題,但她也告訴豆包這個事情比較復雜,一兩句話難以說清楚。
這時,豆包AI的回復則是:“那咱可以慢慢說,我一直都聽著呢。你可以從一開始說起,比如這是什么時候發生的事情,涉及到哪些人,我可以幫你理一理;如果你現在不想說了,那么等你什么時候想說了,或者心里覺得憋屈了,都能來找我,我一直都在?!?/p>
字面上看來似乎不甚特殊,但放在對話的語境,能量還是很強的。
這讓我突然意識到,不管我媽需不需要解決真實的問題,但在這場對話中,豆包AI似乎很好的照顧到了她的情緒:而這種情緒價值的提供,要比粗略地解決一個兩個現實問題要更難得。
我記得之前有新聞就提到,豆包AI用不同的方言安慰了一個失戀的女孩;還有報道說豆包AI成為了一位老人的“賽博孫輩”,每天可以陪老人嘮嘮嗑,甚至可以提醒老人按時服藥等等。
這說明,似乎在我們這個關心和照顧變得無比珍貴的時代,每個普通人都可以從AI身上收獲到極高價值且極為真實的情緒體驗,這一點我想將有很重要的意義。
03 現存瓶頸:沉浸感背后的“割裂感”
當然,豆包的視頻電話功能也有不少的缺點,甚至有些缺點會很大程度影響用戶的交互體驗。
第一:豆包AI的視頻電話對話大多是以向用戶拋出問題的方式來結尾。
這種方式并不總是起到正向的作用。
比如我在上文中提到詢問產品信息或者產品功能時,它雖然能夠給出一些有用的回答,但總是會通過在結尾拋出有關聯度的詢問來把整個對話的方向帶偏。
例如我在咨詢如何組裝一臺音箱時,它在回答最后會問我平時喜歡用什么牌子的音箱;我在咨詢如何更換剃須刀的刀片時,它最后會問我喜歡哪種剃須方式。
我在咨詢它如何讓整個人更有精神時,它會在最后詢問我喜歡的養生方式是什么。
很明顯能夠感覺出來,它的這些問題與我提問的出發點并不一致,其實并不利于我解決自己的困惑。
而且,由于是在實時對話的語境,我們往往會把自己代入打電話交流的身份,有時會順著對方的提問繼續聊下去,這樣的結果就是方向越來越偏,直到用戶聊不下去為止。
所以我在后來甚至習慣了忽視豆包的提問,專心詢問我自己困惑的問題——在這樣的情況下,沉浸式的體驗就會被徹底打破,這其實背離了產品研發的初心。
第二,視頻電話功能能夠處理的上下文內容比較有限。
往往三五句話以后,豆包就會“忘記”用戶前邊提到的信息。
比如我將自己的電腦主板型號告訴豆包,并詢問了搭配的顯卡、內存等信息,結果豆包轉過頭來就再次詢問我打算用什么樣型號的主板,瞬間就讓我在這場對話中感到“出戲”。
類似這樣的情況,會割裂用戶的對話體驗,讓人不得不回過頭來再次將提示信息進行輸入。
上下文內容的理解與記憶其實最早是Chat GPT能夠走紅的關鍵特點之一,后來的Deep seek R1模型更是將上下文內容的記憶與處理提高到了新的水平。
盡管豆包可能由于對時效性的考慮,而犧牲了一部分產品的記憶能力,但在如今的AI產品當中,如果說不能做到足夠的上下文記憶與關聯,這樣的產品在用戶體驗上甚至可以說是不合格的。
第三,豆包AI還有不少硬傷。
例如識別錯誤、在部分專業領域如醫藥方面能力不足等等,這些大概還是由底層的模型訓練體量以及算法原因導致的。
這些問題的解決還需要有一個逐漸優化的過程。
04 關于AI落地的“靈魂拷問”與現實藍海
自Chat GPT問世掀起AI熱潮以來,AI技術的高速發展似乎始終難以回避一個追問:“AI,對于普通人來說,意義究竟在哪里?”
雖然隨著技術的快速迭代,很多人通過專業的AI Agent,解決了一些專業難題比如寫代碼、改文章,甚至一些創意性工作如音樂、繪畫都在以令人吃驚的速度被AI技術趕超略過。
但當視角對準絕大部分普通人,AI產品的應用問題似乎一直都是個難題——但豆包AI的視頻電話方案似乎是個很好的思路。
一方面,在日常應用中它的能力的確很強。
除了以上我的測試外,網上很多例子也相當有趣——
有人讓豆包AI根據桌子上物品的擺放,來推測使用人的MBTI性格,預測結果竟與實際測試結果一致。
還有人讓豆包AI根據視頻電話中看到的風景寫詩、創作Rap歌詞,成果的節奏感與意境竟然相當不錯。
另外,比如博物館的文物講解、公園花草屬種的識別、拍照出片的姿勢、角度分析等應用場景,豆包AI的視頻電話功能都有相當亮眼的表現。
這個能“看到”也會“思考”的視覺理解模型,的確拉近了人與科技之間的距離。
另一方面,就像我上文提到的,比功能實現更為重要的,還是對情緒的承接。
之前西安有位女孩把自己父親臨終時與豆包的對話發在了網上,一句“我要去世了,豆包”引得無數網友哽咽感動。
誠然,這位父親是幸運的,他知道家人們的隱瞞與愛護。但當他身處生與死的臨界點時,當他必須為自己洶涌的情緒找到一個表達的出口時,這個沒有靈魂的AI機器人真的很好地承接了他的擔憂與恐慌,成為了他最后能夠傾訴感情的樹洞。
這也再次提醒我們一個真相,如果技術只是千方百計拉近與用戶的距離,它只能成為越來越精致的機械;而只有追求情緒與溫度,才能真正賦予技術靈魂。
所以,可以預計到的是,在接下來一個技術周期內,誰能打磨出更有溫度的AI產品,誰就更有機會抓住AI時代最廣大的用戶群體。
在情緒出口的方向上打磨AI模型的產品力,一定是當前最值得技術公司押注資源的事,而這也毫無疑問將成為當前商業投資中最事半功倍的事。
來源 | 混沌學園(ID:hundun-university)
作者 | 混沌學園 ; 編輯 | 蝦餃
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.