網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

太離譜了，AI視頻通話被這家廠商搞出來(lái)了

2024-09-19 09:37:30　來(lái)源: 果核剝殼

四川舉報(bào)

分享至

之前給大家推薦過(guò)不少AI相關(guān)的工具，對(duì)話的、工具類(lèi)型的、畫(huà)圖和生成視頻的等等。

現(xiàn)在又多了一種新玩法！直接跟AI視頻對(duì)話！AI能同步看清你身邊的環(huán)境了！

在前不久，口碑非常好的智譜清言App端推出了“與AI視頻通話”的功能，可以自由與AI語(yǔ)音對(duì)話并打斷，就像是真人聊天一樣。

更讓人有體驗(yàn)感的是，它能通過(guò)攝像頭感知你身邊的環(huán)境，有什么問(wèn)題，對(duì)準(zhǔn)攝像頭直接問(wèn)就可以。

現(xiàn)在這個(gè)功能已經(jīng)不需要申請(qǐng)，大家等不及想自行探索的，可以直接前往APP進(jìn)行體驗(yàn)！這也是第一個(gè)“長(zhǎng)眼睛”的國(guó)產(chǎn)大模型！

下面來(lái)介紹一下這個(gè)讓人感覺(jué)到“強(qiáng)大”的功能。

識(shí)別物體

在開(kāi)啟通話功能之后，連接好視頻，之后你可以自由移動(dòng)鏡頭，比如說(shuō)讓AI描述一下當(dāng)前的環(huán)境，它就能把攝像頭里的場(chǎng)景描述出來(lái)。

像是播放的動(dòng)畫(huà)片也能識(shí)別出來(lái)，甚至還能看到大雄的表情。

如果是某些商品，你想知道價(jià)格，也可以直接問(wèn)它。不需要說(shuō)提示詞什么的，也不需要特定的前置指令，把AI當(dāng)做是正常人來(lái)提問(wèn)就行了。

關(guān)注的果核的朋友大多對(duì)軟件感興趣，也試了一些軟件界面（要注意拿近一點(diǎn)），它也能識(shí)別屏幕上的內(nèi)容：是什么軟件、界面上的內(nèi)容等等。

學(xué)習(xí)利器

像是用它來(lái)臨時(shí)翻譯與詢(xún)問(wèn)一下身邊的英文內(nèi)容，就非常很方便了，不用反復(fù)拍照上傳，再等待翻譯結(jié)果輸出。

說(shuō)完要求，它就能像真人翻譯一樣給出結(jié)果。如果你把AI當(dāng)做口語(yǔ)老師，它甚至還可以幫你糾正語(yǔ)音和語(yǔ)法錯(cuò)誤！好家伙，要知道這在一些教學(xué)類(lèi)型的APP上，是一個(gè)月花幾百塊錢(qián)才有的功能。

以后的玩具上也加上類(lèi)似的功能，那就更有“科幻感”了。

果核試了一下，它也是可以記住看過(guò)內(nèi)容的，而不僅僅是當(dāng)前畫(huà)面，比如說(shuō)，你連續(xù)做出兩個(gè)表示數(shù)字的手勢(shì)，它能知道相加的結(jié)果。

另外遇到了書(shū)本上的問(wèn)題，或者直接對(duì)著屏幕上的題目，也可以用智譜輕言通話功能來(lái)交流，它會(huì)在它的能力范圍內(nèi)進(jìn)行解答。

并且它會(huì)用一步一步的解答過(guò)程來(lái)引導(dǎo)你，而不是直接告訴你全部答案。

圈出重點(diǎn)

在與智譜清言AI對(duì)話的過(guò)程里，如果畫(huà)面內(nèi)容的元素比較多，同時(shí)又不想湊太近的時(shí)候，你也可以使用它的“圈重點(diǎn)”功能，問(wèn)它圈出來(lái)的內(nèi)容。

圈出內(nèi)容之后，像是上面的文字，你就可以與AI聊相關(guān)的書(shū)籍內(nèi)容，獲取更多相關(guān)的知識(shí)，在一些場(chǎng)景下，比搜索引擎更快更好用。

積極主動(dòng)

在體驗(yàn)里，還有一個(gè)讓人印象深刻的特點(diǎn)，這個(gè)AI視頻通話它不是一問(wèn)一答的機(jī)械模式，而是“有來(lái)有回”，AI會(huì)思考一些相關(guān)的問(wèn)題，來(lái)詢(xún)問(wèn)甚至是關(guān)心你的心情。

比如說(shuō)，它會(huì)一些語(yǔ)氣助詞，會(huì)說(shuō)：“哦~我知道了，你是不是想讓我......”

像是下面這個(gè)，會(huì)問(wèn)你是不是要查詢(xún)保質(zhì)期具體到期時(shí)間。

又或者是：“我們上次談?wù)摿薠XXXX，現(xiàn)在怎么XXXXX，你感覺(jué)XXXXX”。

它還會(huì)推測(cè)你拍攝的內(nèi)容，來(lái)推測(cè)你可能交談的意圖，或者是化身一臺(tái)夸夸機(jī)來(lái)夸你。但畢竟是AI，所以它也會(huì)說(shuō)錯(cuò)話，不過(guò)等你回過(guò)神來(lái)，會(huì)發(fā)現(xiàn)自己是以真人的標(biāo)準(zhǔn)在與它對(duì)話。

這種感覺(jué)挺微妙的。

不是視頻文字總結(jié)！

智譜一直瞄準(zhǔn)著通用人工智能的技術(shù)，在大模型技術(shù)上也是在獨(dú)立自主創(chuàng)新，在 KDD 國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)上，智譜 GLM 團(tuán)隊(duì)介紹了新一代基座大模型GLM-4-Plus。

GLM-4V-Plus 是智譜全自研 GLM 大模型的最新版本，在擁有圖像理解的基礎(chǔ)上，還有基于時(shí)間感知的視頻理解能力。

它不是那種提取視頻文字進(jìn)行總結(jié)的AI助手，而是真正理解視頻內(nèi)容，哪怕沒(méi)有聲音也能理解！像是這段視頻中打籃球的內(nèi)容。

你可以這么問(wèn)它：

這才是真正的視頻AI助手！

一整套流程下來(lái)，能感覺(jué)到AI加入了“視頻視覺(jué)能力”之后，一下子就把體驗(yàn)感拉進(jìn)了，仿佛AI真的像人一樣觀察著你身邊的事物。

更多玩法

更多玩法可以看看智譜官方做的Demo視頻，近5分鐘的內(nèi)容，量大管飽，看上去確實(shí)有意思，從游戲互動(dòng)到觀察論文，以后要是能搭配上個(gè)人音色...那賽博生命可就越來(lái)越近了。

這類(lèi)功能之前OpenAI的4o模式也展示過(guò)類(lèi)似的功能，但遲遲沒(méi)有大范圍實(shí)裝，現(xiàn)在國(guó)產(chǎn)的智譜清言倒是搶先一步，免費(fèi)開(kāi)放出來(lái)了讓大家使用。

等到后面加入更多功能和電腦端支持，可玩性會(huì)更高，如果你想成為AI類(lèi)軟件的高級(jí)玩家，趁大家還在同一起跑線上，趕緊玩起來(lái)吧！

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.