不知道大家有沒有想過這樣一個問題:智能手機可以用手和眼的配合精準觸控輸入,但是到了車上,手需要握著方向盤,眼睛要看著前方的路,這時候怎么辦?當前最優(yōu)秀的解決方案就是智能語音交互,它可以代替你開車時的觸控操作。
根據(jù)蓋世汽車的統(tǒng)計數(shù)據(jù),至今年 4 月,思必馳成功躋身語音供應商市場裝機量榜單 TOP 2。而在去年年初,思必馳的排名還是第五,一年時間內(nèi),市場占有率增長到了 15.9%,邁入頭部陣營。
2025 年再談車載語音,汽車廠商和用戶的期待可以用兩個詞來總結(jié),一個是智能,另一個是深度融合。特別是 AI 大模型時代來臨,汽車語音到底能為車內(nèi)的乘員做哪些有意義的事,依然是值得深度探討的話題,而思必馳恰好就是這一領(lǐng)域技術(shù)落地的先行者。
最近,我們與思必馳智能汽車事業(yè)部副總經(jīng)理曾春華進行了一次深度對話,讓我們找到了過去一年時間思必馳高速增長的秘訣。思必馳正乘著 AI 的東風,讓智能語音真正成為車里可以信賴的伙伴。
全鏈路語音方案,車企可靈活配置
當我們回到語音交互的起點,就能發(fā)現(xiàn)早期的語音交互更像是個「對講機」。按下按鈕喚醒,講完一句話,對方才能回復。這其中,只有單輪命令,且只能處理簡單的指令。
而如今,智能語音已經(jīng)進化到類似于人與人面對面對話的能力,不需要喚醒,能夠連續(xù)交互,還有上下文的理解,能夠處理口語語境下復雜和模糊的指令。
作為行業(yè)內(nèi)核心的汽車語音系統(tǒng)供應商,思必馳就擁有全鏈路的語音交互技術(shù)。
從最基礎(chǔ)的信號處理、語音識別、語音合成功能,到進階的多模態(tài)感知、自然語言處理能力,以及業(yè)內(nèi)少有的全雙工對話、端到端大模型,思必馳有著全套的解決方案。這也就意味著,汽車廠商可以利用思必馳的能力,快速補齊智能語音體驗。
公開信息顯示,目前思必馳的智能語音方案已深度應用于梅賽德斯-奔馳、奧迪、捷豹路虎、比亞迪、上汽通用五菱等 60 多家汽車品牌的 200 多款量產(chǎn)車型。
不過,這么多車企與車型,一定會有各不相同的產(chǎn)品定義,而對于思必馳而言,既可以給車企全套的語音交互能力,也能夠根據(jù)車企需求提供部分能力,當然還能夠按需定制。
在開發(fā)語音功能之前,思必馳的出發(fā)點其實有兩個,其一是便捷,第二是安全。根據(jù)曾春華的介紹,車企端和用戶端的需求也會被充分考慮。
比如,車企希望語音助手能夠?qū)崿F(xiàn)差異化,思必馳就能在其中部分能力中,與車企共同研發(fā)。
發(fā)掘用戶的需求其實相對困難。比如智能汽車用戶早已熟知的可見即可說功能,其實最早就是車企發(fā)現(xiàn),很多用戶對著車機屏幕顯示的文字說話,這才有了可見即可說的能力。根據(jù)曾春華的介紹,類似這樣源于用戶的需求,思必馳會與車企聯(lián)合定義,確定產(chǎn)品需求后,會先在內(nèi)部做先行概念版本的驗證,之后進行灰度測試,最后量產(chǎn)搭載。
AI 時代的變革
如今,AI 已經(jīng)深入了我們的工作、生活的每一個角落,也包括汽車。語音作為智能座艙交互的重要入口,自然也成為了 AI 大模型上車的一個重要載體,車載語音交互進入了新一輪的升級。
思必馳于 2023 年 7 月發(fā)布了 DFM-2 東風大模型——擁有百億參數(shù)量。根據(jù)曾春華透露,基于 DFM-2 的天琴語音助手已經(jīng)應用于上汽通用五菱、北汽、長城、一汽奔騰等多家車企的車型中,未來還會有更多車型量產(chǎn)應用。
思必馳的東風大模型既有通用能力,同時也是一個具有通用智能、針對垂域的行業(yè)語言大模型。它可以實現(xiàn)通用人工智能的柔性定制,開展大規(guī)模、高質(zhì)量、個性化的人工智能系統(tǒng)定制。
大模型與汽車的智能座艙的究竟要以怎樣的方式結(jié)合?思必馳率先給出了六種核心能力。
規(guī)劃定制能力: 為用戶的旅程或日常活動提供時間或序列維度的規(guī)劃建議。
創(chuàng)作內(nèi)容能力: 為用戶帶來情感化和個性化的內(nèi)容創(chuàng)作體驗,還有為兒童設(shè)計的游戲和互動內(nèi)容。
知識淵博助手: 通用知識、百科常識,車載助理都能提供豐富信息。
多維數(shù)據(jù)整合: 車載助理可以提供城市限行、新聞、餐廳推薦、地圖導航等信息,也能調(diào)取車控系統(tǒng)、車輛說明書等封閉領(lǐng)域數(shù)據(jù)。
高級語義解析: 車載助理具備全場景、跨領(lǐng)域的多意圖多輪對話交互能力。可以實現(xiàn)任務回溯跟蹤、任務穿插、泛化解析等高級功能。
文檔與知識管理: 車載助理能夠進行知識歸納、分類和總結(jié)。可以提供用車介紹、故障檢測、維護保養(yǎng)等信息。
與此同時,為了打造更全能的車載助手,思必馳給出的解決方案是「1 + N 中樞大模型」,其中「1」負責使用包括大模型在內(nèi)的各種外部資源,「N」則是N個特定領(lǐng)域的「專家」,用于完成專業(yè)性強的任務。
2024 年,思必馳推出了千億參數(shù)量的大模型 DFM-3,曾春華介紹,隨著技術(shù)能力的迭代,千億參數(shù)的 DFM-3 在深度推理能力上有大幅度的提升。它能夠結(jié)合 Agent(智能體)相關(guān)的功能,甚至聯(lián)合多個 Agent 的功能做推理,做聯(lián)合調(diào)度。也就是說,DFM-3 在能力上有了大幅升級。
實際上,大模型不僅僅能用于智能助手的服務,思必馳還擁有端到端的大模型能力,相對傳統(tǒng)的智能語音鏈路更高效。
傳統(tǒng)的語音識別鏈路包含多個步驟,包括 ASR、NLU、對話管理,最后才是 TTS。
然而,其中每一個步驟都是有損的。這也就意味著,人類語言中可能那個包含的上下文信息、年齡信息、情緒信息等難以被識別。
而端到端的 TTS 則是從多段式變成了一段式,當這個端到端模型接收到了人類的聲音,可以綜合進一個模型處理,從技術(shù)上實現(xiàn)「音頻進,TTS 出」的能力,從效果上語音助手可以融合更多維的信號,有更即時和更多情感化的反饋。
AI 大模型的這一陣東風,幾乎改變了所有行業(yè),而 AI 恰好是思必馳的看家本領(lǐng)。談到過去一年時間市場占有率的快速增長,曾春華說:「我們在 AI 行業(yè)布局了很多年,在持續(xù)深挖 AI 場景的同時,我們也在探索垂直領(lǐng)域應用場景。在智能汽車領(lǐng)域,我們和車廠共同推動產(chǎn)品落地。」
在曾春華看來,未來汽車上的 AI 發(fā)展主要有這樣幾個層面:其一是技術(shù)層面,包括多模態(tài)交互,端到端的語音技術(shù)、大模型的端云協(xié)同等。其二是用戶體驗層面,語音交互將由工具化屬性慢慢轉(zhuǎn)變?yōu)榍楦谢陌閭H,也可能變成生活管家,實現(xiàn)人與車、環(huán)境的深度融合。第三是當前有太多的 AI 工具,AI 生態(tài)也會走向融合,讓車內(nèi)有更多可操作、可玩性高的功能。
增長新引擎,車載方案正在出海
與此同時,思必馳正積極推進出海戰(zhàn)略。
目前,思必馳天琴語音助手已經(jīng)集成自研的 AI 多語種語音交互系統(tǒng),支持英語、泰語、法語、德語、日語、韓語、越南語、俄語、西班牙語、挪威語、印尼語等 20 多種語言,適配不同區(qū)域的方言和文化習慣。在 ICASPP 2023 國際多說話人多語種語音合成挑戰(zhàn)賽中,思必馳榮獲兩個賽道的冠軍,MOS 分數(shù)達 4.77。
根據(jù)曾春華介紹,思必馳智能汽車業(yè)務出海將是三個維度的策略。
其一,思必馳將助力自主品牌汽車出海,將智能語音方案搭載到出口車型中。
其二,思必馳與海外品牌及合資品牌合作,一方面在中國市場落地智能語音技術(shù),目前包括奔馳、保時捷等品牌都已經(jīng)有合作進展。另一方面,基于中國市場的合作關(guān)系,逐步將智能語音技術(shù)拓展至海外市場。
其三,與純海外市場車企進行合作,從全球視角正向擴大海外市場。
曾春華介紹:「目前,前一兩步我們已經(jīng)有很多車型在開發(fā)了,已在計劃中,可能在今年的下半年就有大量的車出口落地,第三點會在今年到明年重點去做計劃和行動。」
思必馳能在競爭激烈的車載語音市場實現(xiàn)快速躍升,并支撐起全面的技術(shù)落地與全球化布局,其背后倚仗的正是三大核心能力。
一方面是貫穿技術(shù)研發(fā)全鏈條的「硬實力」——全棧自研的深厚積累與優(yōu)秀的工程化落地能力,這確保了從底層算法到上層應用的關(guān)鍵技術(shù)自主可控,并能轉(zhuǎn)化為滿足汽車智能座艙要求的穩(wěn)定產(chǎn)品。另一方面是思必馳深入理解并滿足車企和用戶需求的「軟實力」——產(chǎn)品支持定制化,無論是提供全鏈路方案還是模塊化服務,都能靈活適配不同品牌、不同車型的差異化定位與功能需求。第三,是面向未來智能生態(tài)的「開放力」——產(chǎn)品架構(gòu)的高度開放性,這不僅體現(xiàn)在「1 + N」多模型融合之中,也體現(xiàn)在智能語音解決方案能接入并賦能更廣泛的智能場景。正是這三者的有機結(jié)合,驅(qū)動著思必馳持續(xù)處于行業(yè)前列。
因此,當我們探尋「動動嘴就能讓汽車完成復雜任務」背后的奧秘時,思必馳全棧自研的硬核技術(shù)、深度定制的產(chǎn)品策略與開放融合的生態(tài)架構(gòu),共同構(gòu)成了最有力的答案。這三大核心能力,不僅定義了思必馳的現(xiàn)在,還將引領(lǐng)其駛向智能語音交互更廣闊的未來,讓語音助手真正成為每一位駕乘者車內(nèi)不可或缺的智慧伙伴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.