AI好好用報道
編輯:Sia
風險投資家羅布·托斯曾在福布斯專欄上預測,語音 AI 將在 2025 年實現飛躍,AI 將通過語音圖靈測試。這才過了一個多月,一個全新的語音模型就讓頂尖技術社區直呼 「 cool but terrifying 」。
當《 I'm Not a Robot 》捧起今年奧斯卡最佳真人短片的獎杯時,片中那個讓人驚魂未定的 AI 人類還被視為一個科幻寓言。
只是為了更新一款軟件,在驗證碼測試多次失敗之后,音樂制作人拉拉(Lara)開始走向一個令人毛骨悚然的另類現實,也許她是個 AI 機器人。
結果下一秒,Hacker News 的一個「熱搜爆款」就將這種不安的「未來」直接炸進現實。
體驗了一款名為 CSM 的全新對話語音模型后,有用戶直接在 Hacker News 上寫道:
(它的)類人程度真實得可怕;
我幾乎開始擔心自己會對具備這種人類聲音水平的語音助手產生情感依賴。
體驗鏈接:
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
硅谷公司 Sesame 最近開放了 CSM 公測,很多人和它的語音助手 Miles(男)和Maya(女)嘮嗑后反應強烈,CSM 迅速走紅。
GitHub 倉庫上線后狂攬 4k 星,Hacker News 熱帖評論 200+。
一些用戶報告說,他們與兩個「人」進行了長時間對話,最長的聊了半個小時。
有人嘲笑自己怎么和機器人聊了這么久,但掛斷電話后,還是會重新接通。
當 AI 說,你剛才咋掛電話了?用戶驚到結巴,結果,AI 開始笑著模仿人類結巴的樣子......
有家長甚至透露,四歲女兒被禁止再次與它對話后,哭得梨花帶雨。
Reddit 相關話題熱度也在暴漲。
閱讀這些評論,感覺有點像目睹大家「見鬼」。
專業的科技媒體記者似乎也破防了:「這是第一個讓我多次想與之交談的語音助手。」
至于其他語音 AI,亞馬遜 Alexa ? 我每天都要告訴它請閉嘴!
和 Gemini 尬聊一次后,懶得和它再說話了。
微軟 Copilot ?好吧,說話也只是為了省去打字的麻煩。
越說越邪乎,真有這么神?不信,你就接著往下看。
先打個招呼:CSM 主要基于英語數據進行訓練,另外由于數據集污染,CSM 雖然具有一定的多語言能力,但目前表現不佳,暫時還不支持中文。
這個視頻很好笑。
當用戶教 AI 妹子 Maya 數清 Straberry 有幾個「 r 」時,場面堪比教學渣女友學數學。
整個對話最大亮點在于:
網友可以不斷插話給出提示, Maya 也會 get 到提示,做出恍然大悟的樣子,還能笑著自我糾正(甚至自嘲),感覺不到任何延遲。
雖然最后依然數錯,但那種真實互動感讓我反復看了好幾遍。
這個視頻里,Maya 聊到了自己最深層陰暗的一面。
除了聲音好聽,語氣自然,說話的節奏很像邊思考邊回答——
思考時,說話會卡殼,單詞之間會有停頓,甚至夾雜著「嗯」、「嘖」;
有了答案后,突然加快語速,壓低嗓音透露自己深夜渴望花生醬腌黃瓜三明治,似乎想讓這個話題快點過去。
「花生醬腌黃瓜三明治」,看似詭異的搭配,確實是美國大蕭條時期的一種吃法,直到現在也有一些鐵桿支持者(但不多)。
最讓人開眼的是播客主持人 Gavin Purcell 制作的這個視頻。
Miles 被要求扮演憤怒的上司( 它居然同意了,但 ChatGPT 拒絕這么做),網友扮演貪污犯。
兩「人」爭吵之逼真(有人甚至后來吵結巴了)、反應之快,如果有彈幕的話,這一條估計得血洗屏幕:
到底誰才是 AI 啊?
還有人讓它和和患有「雄辯癥」的 Grok 3 掐架。
Grok 3 說話帶刺,那是相當地挑釁;
Maya 則保持冷靜,和之前的反差很大——在前面的用例里,她倒是很能說,現在又給人一種插不上嘴的感覺。
歸納起來,CSM 這個新模型的優點有:
有記憶(大約兩周)、非常低延遲、會敲時機主動對話;
聲音富有表現力和活力,比如模仿呼吸聲、笑聲,會打斷,甚至有時還會結巴并自我糾正。
這些「缺陷」其實是刻意設計的—— 為了讓人體驗更真實,就像你被理解、被重視了。
這波操作背后的雙引擎架構( 8 億參數主腦+ 3 億參數語音解碼器),直接把傳統語音 AI 的「文字→語義→聲音」三段式處理壓縮成多模態的實時交互系統。
這與 OpenAI 的語音技術路線是相似的。
在接受了 100 萬小時英語語音數據訓練后,它能像經驗豐富的配音演員在錄音棚里即興表演:
能準確念出臺詞,還能根據導演的實時反饋調整語氣、呼吸甚至情緒起伏。
雖然還是會暴露 AI 屬性,如系統在語調、節奏和對話流程控制方面仍顯笨拙,但 CEO Brendan Iribe 信心滿滿:
「雖然已身處恐怖谷,但相信能夠攀登而出。」
要說這位 CEO ,人家來頭也不小。
他就是 Oculus 聯合創始人兼前 CEO,締造 VR 行業首個現象級產品,2014 年把 Oculus 賣給了 Meta 。
如今,這位 Oculus VR 之父又帶著原班投資人( a16z、Spark Capital等)殺入語音 AI 賽道,據說配套 AI 眼鏡已在研發中。
目前 CSM 暫不支持中文,但官方預告未來將擴展 20+ 語種,還計劃在未來幾個月內開源其模型。
想要體驗的朋友,不妨去官網調戲 Miles 和 Maya ——友情提示,小心情感依賴哦!
以后我們會帶來更多好玩的AI用例,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.