網易首頁 > 網易號 > 正文申請入駐

星火極速超擬人語音打破延遲恐懼，AI更像人只需快幾秒

2024-09-03 12:52:33　來源: 萬能的大熊

北京舉報

分享至

人工智能大模型已經從如火如荼之間開始進入到了落地焦慮之中，甚至已經牽連了英偉達的股價。因為大家逐漸開始發現，雖然這個東西很好，但還找不到什么很大的商業用處。更多的人還是把它當做一個智能化的搜索引擎，雖然不能說沒用，但怎么也不會超越搜索引擎，又何況里面還有一些不準確的AI幻覺的部分。

不過最近訊飛發布的星火極速超擬人語音倒是給人一種科技的一小步，體驗的一大步的超強迭代感。也許這才是人工智能大模型改變世界的真正方式。

人和AI的差距就是那幾秒

人和AI到底差別在哪里？我想很多人都會認為，人顯然不會像AI那么博學，甚至大部分人都談不上有較高的學識。所以大家會認為大模型發展的方向一定是更加的準確和全能，能夠解決更多的數據和問題，然后就在不斷的提升算力和數據量，似乎進入到了一個無限競爭甚至得出了一個未來人工智能競爭的上限是電力供應的恐怖話題。

當然，我不反對這種觀點，它也許確實是對的，或者代表了行業的方向，但回過頭來去思考，這種全知全能到底是誰的需求?用戶是不是真的有這么一個剛需去獲得一個全知全能的大模型？

這讓我想起成都車展上沃爾沃總裁對人工智能的一個吐槽，他說，“現在大家去試車，用語音說打開天窗，然后幾秒后，天窗打開了，大家就說這個車智能化很好。一個物理按鍵一秒鐘就能實現的功能現在要四秒才能完成，這個功能的意義到底是什么，滿足了什么需要又滿足了誰的需要？”我們拋開這個話題本身不談，我最大的發現則是這些智能外行人群也就是我們說的普通用戶人群首先考慮的一個點是“4秒”和“1秒”之間的差別。

所以，綜合一下就是，專業的人認為專業是最重要的，但普通的用戶則認為，快捷是最重要的。放到AI這個領域上來說，最大的問題不是準確不準確，而是它思考的時間太長了，讓我沒有辦法產生交流的感覺，最后就只剩下了命令和搜索的感覺。我反而覺得這是普通用戶關注的真正焦點，也是人工智能大模型最終能夠真正獲得普及的關鍵。而訊飛星火極速超擬人語音是我發現第一個關注到這個問題并著手解決的人。

訊飛是語音識別的專家，所以最早發現這個問題也就不足為奇。訊飛所關注到的用戶痛點是，傳統的語音交互想要實現和人的對話，一般需要通過三步來實現：1?把語音通過語音識別系統轉換為文字；2通過大模型生成回復文本；3最后再用語音合成系統轉成語音。

因為各個系統是串聯的，所以這整個過程的平均延遲一般需要3秒左右。而人類從電話發明開始，就已經習慣于在各種場景下實時交流了。甚至很多人認為美國登月是假的一個重要原因就是，通話是實時的，而月球那么遠信號來往是要有時間的。

訊飛的另一個發現則是，在語音轉文字再轉語音的過程中，語音的很多情感、副語言信息甚至是環境信息都會丟失，導致語音交互系統只能針對語音的文本內容進行回應，會忽略我們在語音中本身真實的情感、語氣等元素。換句話說，就是內容都在，但感情沒有了。而沒有感情，也是人們無法將AI當做人來溝通和共情的關鍵，盡管AI可能比絕大部分人要聰明和博學很多。

而星火極速超擬人交互就是跨文本和音頻模態端到端地訓練了一個新模型，直接省去中間環節直接實現音到語音的建模，大大壓縮了響應時間，于是就實現了真正類似人們交流的延遲，基本你話說完，就直接有了回應。

更重要的是，訊飛結合了自身作語音識別多年的經驗和積累，利用訊飛多維度的語音屬性解耦表征訓練準則，將內容、音色、情感、語言、風格等信息進行解耦訓練，保持了AI對情緒的理解和表達能力，這樣就不再是一個冷冰冰的機器回答，而變的有情緒多了，給人的感覺就像鋼鐵俠的老版本AI升級到了賈維斯。整個交流從“微信語音模式”切換到“微信通話模式”了，感覺一下子就來了。

這個速度水平已經追平了GPT-4o，情感水平甚至還有所超越，明顯快于其他大模型的產品，并且可以提供更多個性化的使用方式。比如用幽默調侃的語氣講個笑話，用詩歌的方式朗誦一篇文章，用方言給大家做個介紹，甚至模仿孫悟空或者蠟筆小新來聊個天等等。整個AI交互的場景和思路都一下子打開了，讓人感覺一個變革的節點似乎終于來了。

變革節點到了

我一直認為，大模型提供的回答信息內容已經非常不錯了，雖然達不到全知全能的水平，但是已經足夠用了，而對于專業人士來說，他們也不指望大模型能真的解決專業問題，但一個數學家說的挺好，大模型給他提供了十個方案，他確定有一個是有啟發的。

所以真正的困境還是在用戶體驗上，用戶并不覺得他是一個可以互相交流的同類，而只是一個更聰明一點的智能音箱。而現在這個問題終于迎來的最簡單的解決方案，把速度提上去，把感情加進來，讓用戶愿意跟你交流。想想再度自駕車的時候，能有個人工智能聊天也是很快意的一件事情，而之前大家沒有這么做，顯然就是因為那種喚醒模式和延遲時間，實在是聊不起來。

現在有了星火極速超擬人語音，這種真正像人一樣的交互顯然已經可以落地，汽車、手機、家居家電、智能硬件等領域的大模型交互也會徹底顛覆，用戶終于可以不再把大模型當做一個工具，而是真正當做一個自己AI助手去交流。

這大概就是速度提升的一小步，卻是體驗提升的一大步了。而訊飛能夠做到這樣的突破，我想不僅僅是因為他們的敏銳和產品能力，更是因為他們在語音識別領域遙遙領先的積累。

訊飛在人工智能最大的特點其實是落地能力強，早早的就把大模型應用在了教育、醫療等多個方面，并且形成了非常強的產品思路。而現在星火極速超擬人語音的出現，無疑是這種思路持續發展的結果，也是一個非常有突破的關鍵點。

目前訊飛還在中石油等央國企大模型項目中不斷中標，最近又剛剛拿下了東數西算貴安新區算力產業集群的配套項目，無疑也是這種能力的另一種體現。相信隨著星火極速超擬人語音的落地和發展，訊飛星火大模型會帶來一波真正的人工智能的落地契機，就好像當年語音輸入給輸入領域帶來的顛覆一樣。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.