來源:睿見Economy
2025年7月10-12日,2025中國汽車論壇在上海嘉定舉辦。本屆論壇主題為“提質向新,智贏未來”,由“閉門峰會、大會論壇、技術領袖峰會、多場主題論壇、N場行業發布、主題參觀活動”等15場會議和若干配套活動構成,各場會議圍繞汽車行業熱點重點話題,探索方向,引領未來。其中,在7月12日上午舉辦的“主題論壇八:智數賦能,‘智’檢之道——汽車測試賦能產業高質量發展”上,同濟大學計算機學院教授、“杰青項目獲得者”宋井寬發表精彩演講。
以下內容為現場演講實錄:
尊敬的各位領導,各位嘉賓,大家上午好!非常榮幸能夠受邀來到中國汽車論壇智數賦能,“智”檢之道的分論壇,能夠有機會跟大家分享和學習。
今天我匯報的題目是“多模態大模型前沿及在汽車行業應用”。選擇這個題目是兩個原因,首先特別契合今天分論壇的主題,智能賦能汽車測試,同時第二個原因多模態大模型現在是非常熱門的研究話題,并且在汽車領域有非常多的應用場景。剛剛我們領導葉總提到了多模態大模型要做一個重點發展方向,今天匯報從以下兩個方面:
第一介紹多模態大模型和它的前沿進展。
第二介紹各行業的具體應用案例。
首先什么是多模態大模型大家?它是一個能夠處理多種模態輸入的AI模型,其中每個模態是指一種特定類型的數據,比如說圖像、視頻、文本、音頻,但是如果汽車行業是各種傳感器數據,也可以作為不同模態輸入。通過整合網絡上多模態的數據,從而可以實現類人多模態感知、認知,可以有望推動計算機視覺在語言處理等多領域的協同發展。可以說多模態大模型已經從過去必然的發展趨勢變成了已然的現狀。因此右邊列出了多模態大模型發展的里程碑事件,從2022年ChatGPT的橫空出世,到后來的多模態版本的GPT-4V,以及到Sora,GPT-4o,以及國產Deepseek的出現,整體來說從2023年下半年開始大模型競爭整體從語言大模型過渡到多模態大模型。
為什么多模態大模型能引發這么多行業關注,因為它在行業有很多應用場景。這里列出了一些,比如說Med-Gemini可以用于賦能醫學診斷。Face大模型可以賦能人機交互,通過數字人形式。盤古大模型可以賦能工業服務,紫東太初大模型可以賦能法律,日日新可以用于金融服務場景。因此可以說多模態大模型正實現智能賦能千行百業。
介紹這么多多模態大模型到底是什么?我這里列出了一個多模態大模型的技術全景圖,包括三個部分,最左邊的數據,中間的技術,右邊的應用。數據包括各種模態數據的收集,當然還有很重要的一點是數據之間的關聯,中間的技術層上面的模態架構和下面的優化算法,所以模態架構也就是大模型長什么樣,現在的架構相對比較固化了,基于Transformer各種各樣的拼接。有了數據和架構怎么把參數學習出來?優化算法經過了多輪迭代,從早期的對比學習到現在的子回歸再到后面的掩碼形式等,有了參數最終可以在各個場景進行應用,比如說用于多模態的對話,跨模態的生成,以及等下要講到的具身智能的場景,這是整體的全景圖。
為什么研究領域引發了這么多關注,一個很重要的原因是多模態大模型是實現通用人工智能的必經之路,大家知道通用人工智能是計算機學科的夢想,要實現通用人工智能必不可少要像人一樣感知認知這個世界,比如說聽覺、觸覺、視覺等等,這些數據天然就是多模態的形式,要實現通用人工智能必不可少要研究多模態大模型,也經歷了一系列的發展歷程,從早期各個模態的獨立發展,大家可能聽過以前的自然語言處理,計算機視覺是獨立發展的,自然語言處理只處理翻譯,交談的任務。計算機視覺里研究分割識別等等,這些任務是獨立發展的。當前有了多模態大模型之后是把多種模態融合發展,現在一個新的趨勢是把多模態大模型里面的進一步的集成和統一,把理解和生成任務進行統一。那么在未來想要進一步發展就需要和物理世界進行結合,探索研究世界模型,研究具身智能,最終實現通用人工智能的最終目標。
這里列出了多模態大模型發展趨勢,整體上從傳統的任務驅動和預調的方式,轉向現在的任務統一,推理增強和主動交互三個趨勢我分別介紹一下。
任務大家不知道熟悉不熟悉,任務有兩個定義,第一個是非常狹義的定義,自然語言處理里翻譯是一個任務,在計算機視覺里識別是一個任務,早期的時候不同模態之間的任務非常割裂,早期的時候任務不統一,有了多模態大模型之后可以把自然語言,文本和圖像放在一起處理,相對統一了一些,但是依然存在兩個任務的割裂,一個是理解的任務,一個是生成的任務。理解是給你一張圖像這個圖像是什么類別,是什么內容,這個是理解。生成是給定一段話,我通過這段話生成一段圖像和視頻,很直觀感覺到這兩個是非常不一樣的任務,所以之前多模態大模型作為兩個獨立的分支來研究,而最新的成果逐步將這兩個任務進行進一步融合,從而實現更高層次的任務統一,這是第一個趨勢。
第二推理增強。以往的大模型通常停留在給定一個輸入,給出一個答案這樣的階段,這樣的存在什么問題對于復雜的場景,圖文結合推理,幾何題帶圖解的表現很差,因此又有新的研究不僅能夠給出這個答案,還能給出得到答案中間的推理過程,這個是所謂的推理增強。大家現在熟知的Deepseek取得很大的成功重要的原因是將推理引入了學習的重要過程,因此推理增強是第二個趨勢。
第三個趨勢是主動交互。剛剛提到AGI通用人工智能是智能最終的夢想,你如果要實現通用人工智能要和物理世界進行交互,因此多模態大模型要能夠在復雜環境中進行交互,像人一樣在現實世界中進行自主的行動和決策能力,這是現在發展的第三個趨勢,典型的一個任務是現在大家經常聽到的具身智能的任務。
我們團隊在多模態大模型方向也有一些相關的研究工作,剛剛介紹的一個是理解,第二個生成,第三個是安全這塊。首先是理解這塊,我們主要關注這幾個方面。
第一是以人為中心的視覺分析。通用大模型針對的是通用場景,我們這里更關注以人為中心,人體姿態的估計,人的不同部位的識別等等這樣的任務。
第二場景圖生成。需要對它進行智能化、結構化處理就需要有一個很重要的技術方法、技術手段進行場景圖生成,把一個非常復雜的多模態的數據變成關鍵字、名詞相互關聯的三元組的場景圖形式,從而有效對他們進行有效管理和理解。
第三個方向是做通用多模態大模型改進。具體算法就不介紹了。
第二個研究方向是生成這塊。我們團隊的工作所謂生成給定一個輸入,可以生成圖像,生成視頻和3D,下面是我們團隊所做的工作,AIGC大家非常熟悉,等下會有一些具體的場景(展示)。相關工作就跳過了。比如說有一些故事的生成,圖文音的生成等等。
第三個方向讓AI具有學習和安全的能力。比如說有持續學習,少樣本學習和安全。安全非常有趣的工作是幻覺大家可能聽過,大模型進行一本正經的胡說八道,左邊的圖像描述有一只紅色的狗,而這只狗并不是紅色的,這就是幻想,我們根據這個提供相應的解決方案,可以有效減少大模型幻覺的生成。
這些成果有一些相關的應用場景。1.通過關聯構建跨域的推薦系統,可以用在支付寶的場景,可以為用戶推薦優質產品,本質上利用用戶的個人信息和歷史瀏覽記錄等多模態的數據,從而可以更好進行產品匹配和推薦。2.構建一個130億多模態行業大模型。構建通用大模型很難和大廠進行競爭,所以構建行業大模型,主要用于像電網巡檢,工業檢測等相關場景,在12個基準測試機上達到了主流大模型的信任,取得了最好的信任。3.現在是需求非常多的大模型本地化部署,在智能法律的平臺應用,需求是構建文書助理,法律助手,重大決策輔助等六個場景,上線之后我們的業務處理效率得到了極大提升,也入選了國資委首個法治大模型的標桿。這是實際的場景。
接下來介紹一下汽車行業多模態大模型,更寬泛一點人工智能的應用場景。
福特公司的首席信息官說“人工智能不僅對智能駕駛非常重要,而且在轉變員工體驗方面發揮著越來越重要的作用”。同時在供應鏈風險識別和車輛預測性維護等方面也有應用,當然僅僅是眾多應用之一。沃爾沃公司的首席信息官也提出“人工智能不僅可以用于人工駕駛,還可以用于其他各個方面,比如說汽車的制造和銷售,以及創造新的客戶和體驗”。由此可見人工智能在汽車行業得到了越來越多的關注。
我這里簡單概述了一下人工智能在汽車行業,尤其在汽車測試行業的應用場景,我是外行總結得不是很全面和準確,不準確的地方請大家批評指正,包括以下四個場景。
一、智能化場景生成和安全測試。等下下面的報告也有關于生成式人工智能,和這個相關。
二、預測性維護和健康管理。
三、邊緣智能和車聯網。最后一個報告是關于車聯網和智能駕駛的。
四、虛擬測試和數字孿生。下面依次介紹一下。
首先是AI驅動的自動駕駛安全自主測試系統。它是利用機器學習與仿真技術,在虛擬環境中大規模、自動化、智能化地創建和執行汽車安全測試用例,以驗證測試汽車安全性。本質上通過AIGC生成的方式能夠生成更多的測試用例,從而提高測試效率,和傳統的相比成本高,風險大,并且測試覆蓋不足,通過AIGC可以提高效率,降低成本,增加它的測試用例覆蓋率,并且沒有任何物理風險。一個典型的例子是D2RL通過強化學習智能測試,已有的數據是非關鍵數據,非關鍵數據是正常情況,缺少導致事故的關鍵事件,針對這個問題的核心思路是識別并且移除海量的非關鍵數據讓模型從關鍵的安全事件中學習,這是所謂的關鍵事件的定義,定義了一系列的危險場景。比如說多智能體維度場景,通過強化學習的方式能夠識別并且把關鍵場景定義出來,自動地檢測出來,從而提升模型學習的效率,最終提升模型的性能,這是通過人工智能驅動的場景案例的自動識別。
第二個AIGC用于檢測這塊。從被動修復到主動預警,通過AI方式預測分析并進行維護的模式。傳統的方式可能更多的是當危險發生之后再去進行檢測,存在一系列問題,比如說成本高昂,缺乏預見性,主要依賴經驗。通過AI提前預警,精準預測提升可靠性。這里有一個具體的例子,通過多元傳感器數據最終進行主動預警,它的輸入和之前的圖像文本主要是汽車行業相關的數據,比如說曲軸轉速,懸架振動等,通過多模態大模型最終進行最終預警,比如說故障等級,部件壽命預測等。另外一個是AI驅動汽車懸掛預警性維護,也是通過懸架系統的信號輸入和采集,通過多模態大模型進行維護決策和診斷、預后等一系列預測。
第三個場景是邊緣智能和物聯網。一個非常典型的應用是智能駕駛,通過人工智能和物聯網的結合,人工智能可以進行邊緣處理,五連物聯網可以增強數據的收集能力,把這兩個相結合可以擺脫對網絡的依賴,實現邊緣端的處理,從而更快更高速的響應。和傳統的云端相比存在的問題比如說處理之后穩定性差,受資源限制等等。如果用邊緣端加上物聯網的形式避免一系列問題。剛剛提到了典型的應用是智能駕駛,有了人工智能邊緣端處理加上車聯網的能力從而賦予了汽車低延時的本地決策能力,車聯網可以提供超越單車的廣域感知能力,兩者結合構建了安全高效自主駕駛的技術基石。
第四是虛擬世界的錘煉。仿真和數字孿生在汽車應用很多,通過數字孿生技術創建車輛的高保真虛擬模型,可以快速迭代,傳統的方法存在成本高,測試場景有限,風險后置等一系列問題,仿真和數字孿生可以解決相對應的問題。
典型的案例是基于數字孿生的智能電池管理系統,通過數字孿生創建電池的虛擬模型,通過多模態大模型相關的技術實現對電池的生命周期的精準監控,健康預測和智能控制,從而提升電動汽車安全性和續航能力。
以上就是今天匯報的主要內容,謝謝大家!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.