網易首頁 > 網易號 > 正文申請入駐

智能座艙的未來：多模態交互如何重塑駕駛體驗

2025-02-10 08:05:54　來源: 芯流汽車

上海舉報

分享至

隨著汽車智能化的快速推進，智能座艙已成為消費者購車的重要考慮因素之一。

這本書全面介紹了智能座艙的技術發展，涵蓋了從軟件、硬件到網絡協議的各個方面。

從智能座艙中的操作系統、HMI（人機交互）、語音識別等核心軟件技術，到中央處理器、傳感器、攝像頭等座艙硬件的原理與應用，這本書都進行了深入解讀，適合想要了解和把握智能汽車新時代的讀者。

多模態交互

人機交互模式在座艙內部的表現，一直以來都是評判智能座艙的核心標準。

在非智能時代，用戶只能通過各類按鈕來操控車內功能。然而，隨著中控大屏的興起，大部分功能被整合到屏幕上，用戶開始通過觸摸屏來控制車輛功能。從觸覺的角度來看，觸摸屏與實體按鍵在操作感受上并無顯著區別。直到語音助手的誕生，座艙內部的人機交互方式才實現了質的飛躍。通過對話，車載智能語音助手能夠識別并執行人的指令，從而部分實現了對人類操作的替代。之所以說“部分”，是因為在實際使用中，車載智能語音助手有時難以精確理解人類的需求。例如，當用戶說出“打開空調通風功能”時，智能語音助手可能會錯誤地理解為打開車窗，而非啟動空調的通風模式。

此外，車載智能語音助手還無法識別對話的上下文，也無法與座艙內的多人同時展開對話。這種局限性使得語音助手顯得缺乏人性化。

未來，智能座艙的演進方向將是能夠融入環境、像正常人一樣對話、并能協助乘客的智能機器人。

如今，人們對座艙的人機交互模式提出了更高的要求，即實現多模態交互。多模態交互將成為未來人機交互的主流。當下最迫切的需求是將觸覺、聽覺和視覺相結合，以打造更加智能、精準的交互方式。目前多模交互已經鎖定了幾個研究的方向，未來或將從這幾個方面入手改變人的駕駛體驗。

面部情緒識別

情緒識別是一種新興的交互方式，可以通過識別駕駛員或者乘客的情緒來提供個性化的服務。研究方向包括情緒識別算法、生理信號分析等方面的技術，以提高情感識別的準確性和可靠性。

情緒識別的原理主要是基于對人類情感的理解和情感特征的提取。人類的情感通常會伴隨著一些生理反應，如心率、呼吸、語音等的變化，這些生理反應可以被檢測和識別。同時，人類的情感也會表現在面部表情、肢體動作等方面，這些也可以被用來識別情感狀態。情感識別技術通過綜合分析這些特征，來判斷一個人的情感狀態。

情緒識別的算法可以分為兩類：一類是基于規則的方法，另一類是基于機器學習的方法?；谝巹t的方法是通過分析人的語音、表情等特征，來判斷其情感狀態。這種方法需要事先定義好各種情感的特征，因此準確度有限?；跈C器學習的方法則是通過訓練大量的情感數據來讓計算機自動識別情感狀態。這種方法需要大量的標注數據，但準確度較高。

隨著Transformer模型（一種基于自注意力機制的深度學習模型）在越來越多的領域得到應用，多模態識別可以采集人類面部圖像和語音數據，并使用Transformer模型來分析和識別人物的情感。

舉一個例子，我們可以在智能座艙內部使用DMS和OMS攝像頭采集駕乘人員的面部圖像，使用車載麥克風采集語音對話數據。而后，使用適當的算法和模型從面部圖像中提取情感相關的特征，例如使用卷積神經網絡（CNN）進行特征提取。對于語音數據，可以使用梅爾頻率倒譜系數（MFCC）等特征進行提取。這些特征輸入到Transformer模型的Encoder（編碼器）部分進行進一步的處理和特征提取。在Decoder（解碼器）部分，可以使用情感分類任務的目標函數來訓練模型，使其能夠識別不同情感的特征。

多人對話并發

在當前已投入使用的智能座艙語音助手中，存在一個顯著的痛點，即無法支持多人同時對話。每當座艙內有其他用戶提出問題時，他們總是需要先使用特定的喚醒詞來激活語音助手，然后才能進行對話。這種操作會打斷之前用戶的對話進程，給用戶帶來不連貫的體驗。為了解決這個問題，我們可以采用基于規則的對話管理和上下文管理策略來實現多人對話上下文的繼承。

具體的實現途徑涵蓋以下幾個方面：

上下文狀態跟蹤：我們需要構建一個對話的上下文狀態模型，這個模型會記錄對話的參與者、當前討論的話題以及歷史交流信息等。通過精細的對話管理，系統能夠追蹤每個參與者的交流意圖和需求，從而確保對話的流暢性和內容上的連貫性。

上下文信息共享：必須確保所有對話參與者都能訪問和共享統一的上下文信息。這可以通過采用共享內存或者云端存儲等技術手段來實現，以確保信息的準確無誤和一致性。

上下文繼承機制：我們需要根據對話的上下文狀態來制定合理的上下文繼承策略。例如，在多輪次的對話過程中，系統可以繼承前一輪對話中的關鍵信息和指令，以便于在接下來的對話中繼續使用。同時，隨著對話的深入和用戶需求的變化，我們需要靈活地調整上下文繼承的方式和內容。

自然語言理解：借助自然語言理解技術，我們可以對用戶輸入進行深度語義分析。這有助于系統更準確地把握用戶的意圖和需求，從而更好地維護對話的上下文狀態，并繼承相關信息。

動態調整對話流程：系統應根據上下文狀態和繼承策略，實時調整對話的進程和交互模式。這可能包括基于歷史信息預測用戶的意圖，或根據話題的轉變來更新交互內容，從而提升對話的針對性和效率。

總之，以上所提的處理方式只是上下文管理眾多可能性中的一種。這個領域的研究仍處于前沿探索階段，各種解決方案都在不斷地演進和優化中。

3D手勢操控

3D手勢識別是智能座艙中新興的操控方式之一。以后排娛樂屏為例，在一些乘用車車型中，車頂的中央位置會配備一塊顯示屏幕，旨在為第二排和第三排的乘客提供優質的觀影體驗。然而，如何操控這塊屏幕卻成為了一個體驗上的挑戰。若采用觸摸屏方式，由于距離的限制，第三排乘客難以觸及；若采用語音控制，未經訓練的用戶可能會遇到下達指令的困難；而使用遙控器操控，則存在遺失設備的風險。針對上述各種不足，一種簡單方便的操控方式是采用3D手勢識別技術。

通過3D深度相機，我們可以采集用戶的手部動作數據。隨后，這些數據會經過預處理并被分割成獨立的手勢。利用深度學習算法，我們從這些手勢中提取特征，并進行持續的跟蹤和預測，從而準確地識別用戶的手勢動作并判斷其意圖。最終，用戶的動作會被轉化為具體的控制指令，例如隔空點擊屏幕的某個圖標或滑動屏幕進行切換等。這種操控方式不僅有效避免了上述方法的各種弊端，而且為用戶帶來了極為自然和流暢的體驗。

多模融合

多模態交互是一個綜合性的技術，它融合了多種感知技術來提升人機交互的體驗。例如，動作識別、目光追蹤、語音識別、觸摸控制等，都是多模態交互的重要組成部分。這些技術分別對應了人類的五大感知：視覺、聽覺、觸覺、嗅覺和味覺。

動作識別和目光追蹤與視覺：動作識別和目光追蹤技術可以捕捉和分析用戶的身體動作和眼球移動，從而實現更加自然和直觀的人機交互。這些技術類似于人類的視覺功能，能夠“看到”并理解用戶的動作和意圖。

語音識別與聽覺：語音識別技術能夠識別和解析用戶的語音指令，為用戶提供了一種更加便捷和自然的交互方式。這與人類的聽覺功能相似，通過聲音來接收和理解信息。

觸摸控制與觸覺：觸摸控制技術允許用戶通過觸摸屏幕或其他設備來進行操作，提供了一種直觀和易用的交互方式。這與人類的觸覺功能相呼應，通過觸摸來感知和操作物體。

香氛系統與嗅覺：在座艙內部，有一個重要的與人類的嗅覺相關的系統，即香氛系統。雖然人類的嗅覺在人機交互中不直接對應某種操作，但香氛系統可以通過釋放不同的氣味來影響用戶的情緒和體驗，從而提升交互的舒適度。

至于味覺，目前在多模態交互中的應用相對較少?；蛟S在未來，當科技不斷發展，人工智能技術與腦機接口技術實現了融合之后，可以將人類的味覺引入到座艙的交互體系中來，這將為人機交互領域帶來新的可能性和創新點。

在多模態交互中，各種感知技術的融合為提升人機交互體驗帶來了巨大的潛力。手勢識別技術和視覺識別技術作為計算機視覺技術的一部分，在數據融合技術的支持下，能夠顯著提升交互的智能性和準確性。

數據融合技術的關鍵作用在于，它能夠將來自不同傳感器的數據進行整合，利用AI算法對這些數據進行深度分析和處理。例如，通過融合視覺傳感器和音頻傳感器的數據，系統可以對人臉、動作、姿態、唇語、語音等多種信號進行綜合辨識，進而提高識別的準確度。這種跨模態的數據融合不僅增強了系統的感知能力，還使得交互更加自然和智能化。

下圖展示了視覺和聽覺融合技術的一個范例。

音視頻多模識別后融合范例

從上圖可以觀察到，在一段視頻剪輯的處理流程中，圖像數據與聲音數據被分別送入預處理模塊。它們隨后通過專門的視覺與聽覺神經網絡進行分類處理。這些神經網絡的預測結果被進一步進行后融合處理。在基于一定規則和權重的綜合推測下，多模系統最終輸出了該視頻的主題預測：森林。

本篇內容節選自《智能座艙：架構、原理與車規級芯片》。在實際的項目開發過程中，智能座艙系統架構師需要對系統需求進行技術可行性評估。來自傳統汽車行業的系統架構師往往對座艙SoC知識缺乏深層次的了解，難以準確評估座艙所需的SoC的能力。而那些計劃進入智能座艙行業的初創半導體公司的系統架構師，則可能對汽車電子相關背景知識了解不足，難以將消費類電子技術與車載電子技術有效結合，從而設計出適合的座艙SoC。由于市面上缺乏通俗易懂的智能座艙技術參考書，初學者在面對復雜的技術名詞和多樣化的應用需求時，往往感到困惑，無從下手。正是基于上述種種原因，作者決定撰寫本書。本書注重剖析智能座艙的多個子系統、基礎軟件及應用/服務的原理與架構，以及底層技術SoC的原理與實踐。

- XINLIU -

喜歡就獎勵芯流一個“”和“在看”唄~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.