網易首頁 > 網易號 > 正文申請入駐

給政治局講人工智能的西安交大鄭南寧報告全文

2025-04-28 05:31:49　來源: 白駒談人機

北京舉報

分享至

禮士蠻 2025年04月27日 08:06

中共中央政治局4月25日下午就加強人工智能發展和監管進行第二十次集體學習。西安交通大學教授鄭南寧同志就這個問題進行講解，提出工作建議。

今天刊登一則鄭院士做的一個報告，講得非常好，難怪能給政治局講課。以下為報告全文：

大家好，今天我報告的題目是“機器行為與具身智能”。

首先，我們來看一個相對簡單的十字路口場景，場景中有行人、有非機動車和機動車，我們看一看它的動態場景是如何構成的？十字路口的交通場景是不可預測的，但場景中的每個對象或稱之為Object直覺的判斷和他們對相互之間的行為關系的理解，形成了這樣一個相互關聯的穩定系統。

人在這些場景中能夠迅速的理解和判斷各個對象在空間及其行為的關聯性。而自動駕駛也必須要能夠抽象和表述這種關聯性，才能做出準確地判斷，而事實上我們要讓機器機基于規律對交通場景的動態變化進行事先編碼是做不到的，我們需要研究在這種交互場景中，多個自主體的自適應行為。

舉例來看，在F1比賽中，工作人員利用團隊協作可以迅速地完成車輛輪胎的替換工作，如何利用機器人集群協作完成某項任務并給出科學的解釋，是一個值得探討的問題。

討論1：機器行為模仿與解釋

解釋行為是一個比產生行為更為困難的任務，因為幾乎人類所有的行為都是從環境中學來的，即刺激反應的結果。并不都像思維和情感這樣的內部事件，一臺圖靈機能以一種無法與人類區別的方式活動，但產生出這樣的行為模仿并不足以模擬人的智能，因為兩者是一個完全不同的問題。解釋必須盡可能清晰地給出潛在的概括，并將它們與某些普遍的原理聯系起來，這就是認知過程的理解。

如果我們從人工智能技術的發展來看，我們可以把人工智能技術的發展分為如下階段：

第一階段，統稱之為“專家學習系統”，專家系統是將領域知識和規則交給機器去搜索。

第二階段，簡稱為“特征工程”，所謂特征工程是講事先定義的特征和答案交給機器去學習。

第三階段，是將原始數據和標簽交給機器，利用深度神經網絡讓機器自動學習特征。在這一階段人工智能取得了驚人的發展，特別是機器在語音和圖像識別與分類能力方面超過了人類。

當前人工智能發展朝著第四階段的方向發展，人類只需要將任務和目標交給機器，機器就可以像人類一樣感知和理解世界，人與人之間或社會會與物理世界自然交互，也就是說在這一階段探索具有人類意識的人工智能系統，像人類一樣在廣泛的任務和環境中進行學習和適應，實現通用人工智能。

通用人工智能理論上是具有自我意識、自主思考、學習計劃、解決問題以及理解復雜概念的能力，它可以在新的未曾遇到的情景下適應并執行任務，這需要廣泛的背景知識和常識，還有抽象思維和判斷等人類智能所有的關鍵特征，這是一個充滿著不確定性的未來目標。

討論2：機器行為面臨的挑戰

人工通用智能現在不僅僅在技術上面臨著重大挑戰，而且還面臨著道德倫理、社會和法律等一系列重大問題。

研究復雜動態不確定環境中的機器行為，存在著兩個基本問題：

一、條件問題，是我們不可能枚舉出一個行為的所有先決條件；

二、分枝問題，是我們不可能枚舉出一個行為有可能產生的所有隱性結果。

傳統的人工智能基本理論框架是建立在演繹邏輯和語義描述與形式化方法的基礎上，形式化的方法不可能為所有的對象或行為建立模型。

機器行為研究面臨的挑戰，就是如何使人工智能系統具有合作性的行為。

德國心理學家設計了一個兒童心理學實驗，實驗中一位一歲半的兒童和媽媽坐在同一個房間的角落里，一位成年人走進房間想打開柜門，他一遍遍的撞擊著柜門，這時神奇的場景發生了，并沒有人直接向這位孩子求助，也沒有人向他發出指令，但一歲半的孩子搖搖晃晃走過來，幫助這個成年人打開了柜門。

該實驗試圖想證明孩子可以自發的幫助別人，但這個實驗卻對人工智能提出了一個重大挑戰，我們能否通過理解這個一歲半孩子的腦內所想，讓機器人也能具有這樣的智能性、靈活性與合作性行為？

這個實驗告訴我們，智能機器不能從工程機器的角度去理解它們，而且要將其視為一系列有自己行為模式及生態反應的個體或機器群體。

另外一個實例，給出一段西安絕句“海棠不惜胭脂色、獨立蒙蒙細雨中”。讓計算機語言理解的程序和人，分別從一個圖像數據庫中找出最貼切這段詩的圖像。計算機找出了這樣一幅圖，海棠上掛滿著雨滴，正真是“海棠不惜胭脂色、獨立蒙蒙細雨中”。而人卻給出右邊這幅圖，一位亭亭玉立的少女在蒙蒙的細雨中沒有打傘，行走在幽靜的小道上。被測試的人在內心把這位少女比作海棠，在這樣的雨天這位少女全然不顧風雨的存在。人類理解詩歌往往是在內心深處將想象力帶入現實，通過自身的認知去欣賞。

這首西安絕句是宋代詩人陳與義所寫的《春寒》，當時金兵入侵，南宋小朝廷處于山河破碎風飄絮，詩人南渡避難，借助在巴陵友人的后院，自號“園公”。2月的巴陵幾乎天天下雨，料峭的春寒還未結束，此時詩人流離失所，漂泊無依，不由地聯想起自身的境遇進行感懷，寫下了這首詩。

在這里，我們看到一幅圖像到了人類觀察者的腦中，在他的內心深處將想象力帶入了現實，圖像變成了生動的場景故事。這里簡單的語言與圖像的聯想，說明許多重要的AI應用，例如機器視覺和自然語言理解需要大量對世界的認識信息。

為此，計算機需要掌握知識，這是幾乎所有AI研究者都同意的觀點。想象是人的一種虛構的能力，也就是人可以想象不存在事物的能力，但如何更加有效地把知識傳授給機器人，依然是我們今天面臨的一大挑戰。

討論3：機器行為的研究范圍

諾貝爾獎獲得者西蒙教授，在《人工科學》這本書中指出：自然科學是關于自然體和自然現象的科學知識，也有人工科學關于人工物體和人工現象的知識。

如今，大量的智能機器應用于人類社會的各個角落，幾乎所有層面。機器行為研究關注的是智能機器，而非傳統的機械。它的研究范圍有：機器行為生成的人工設計，智能體如何憑借經驗產生行為。還有機器行為的可解釋性，智能體如何根據場景響應機器行為。

機器行為一旦失去監督所帶來的潛在危害是什么？

這些問題與智能體和人工智能行為的信任是密切關聯的。諾貝爾獎得主、荷蘭動物學家Tinbergen提出：想要全面地理解一個演化出來的特性，我們需要回答四個問題：

1、行為生成的機制，智能體生成行為的機制基于其算法和執行環境的特點，我們利用可解釋性技術可以來理解特定行為模式背后的特定機制；

2、行為的發展，智能體的行為是隨著時間的推移而發展，這就需要研究機器是如何獲得特定個體或機體行為。行為發展可以是工程選擇的結果，也可能是來自智能體的經驗；

3、行為的功能，行為分析需要了解特定行為是如何影響智能體全生命周期功能，研究行為對智能體特定功能的影響；

4、行為的進化，智能體容易受到進化歷史和與其他智能體交互的影響，從這個角度來看，研究機器行為需要關注智能體的進化。

以上這四個問題就構成了演化思維的四個工具，需要強調的是發展并不僅僅意味著一種行為的出現，而是發展過程中行為機制的變化。

討論智能個體如何獲得特定的行為，即機器行為的發展。這里有三個基本的途徑：

第一個途徑：人類通過算法直接賦予機器行為的發展；

第二個途徑：利用特定的交互訓練，刺激、塑造機器行為；

第三個途徑：機器通過自身的經驗獲得某些行為，比如說機器可以通過記憶或強化學習等方式自主獲得某種行為的能力。

機器行為的進化過程中，機器行為可以在發展中與所處環境和人不斷地交互，朝著環境和人特定的方向進化。

同時由于機器不同于生命體，它的進化可以突破某種生命體的局限性，而且可進化的機器行為可以傳播至群體廣泛的機器行為存在，也可能受到某些限制，阻止其傳播，機器可表現出非常不同于有機進化的軌跡。比如進化后的無人駕駛算法，可以共享至無人駕駛汽車群體，實現行為能力的傳播。

對此，我們對人與智能機器的行為關聯做一個小結：

1、機器塑造了人類行為：在社會系統中引入智能機器可以改變人類行為的方式，智能機器具有改變社會結構的潛力。

2、人類塑造了機器行為：人類通過對人工智能系統進行主動輸入或被動行為觀察的訓練來塑造機器行為，使用算法直接來改變機器的行為。

3、人機混合協同行為：大多數人工智能算法在復雜的混合系統中與人類共存的領域發揮著重要作用，如何分析和刻畫這類復雜系統中人機交互的屬性和行為，包括合作、競爭和協調都是至關重要的問題。

討論4：具身智能和行為生成

具身智能是一種機器自主感知環境、學習和理解行動的能力，從生物進化的角度來看，地球上所有智力活動都是生物通過自己的身體與環境交互后，通過自身學習與進化遺留下來的智力遺產。

智能是具身化和情境化的，具身智能強調智能生物的智能化程度和它的身體結構存在著很強的相關性，也就是說身體不是等待加載算法的機器，而是身體本身應該參與算法的進化。

非具身學習和具身學習對比是有差異的。非具身學習一般通過“大模型無監督預訓練+小樣本有監督微調”范式訓練神經網絡，訓練得到的深度學習模型可以直接部署到不同的硬件環境，即算法的學習獨立于硬件與環境，性能表現完全取決于模型的泛化能力。而具身學習通過在虛擬環境中訓練大模型得到常識表征，在具體場景中通過強化學習來完成模型的進化，模型可以在特定的硬件和環境中完成自主的適配。

由于大模型利用了超大規模的訓練數據，并且包含大量參數，使得它具備了超強的泛化能力與優秀的應用性能。大模型的具身智能行為生成可以分為兩大部分：一、人機交互；二、系統與環境的交互在人機交互部分，人與自然語言或圖文信息的形式，將任務需求輸入到多模態大模型中，模型對不同形式的輸入進行特征的嵌入后，完成任務理解和概念推演，并生成知識和決策，最后由機器人生成面向任務指令的相應行為。

在系統與環境交互部分，機器人首先利用自身傳感器，完成對情境的具身感知，然后根據大模型的學習結果對情境產生行為，最終完成行為的輸出。

討論5：基于表征學習與因果推理的具身智能計算框架

要想使機器具有類人的認知能力，首先要建立事件模型，將物體、事件、事實等知識進行有效表征，進而構建一個持續學習的系統，在解決一個具體任務時，機器根據感知數據、意識先驗、表征學習、知識庫進行推理，尋找完成任務的最優策略。

意識先驗的概念比較抽象，當你處在一個情景中，試圖去理解它，你會意識到它某些現實層面的情景或過去的經歷。意識先驗是在原始輸入和某些更高級表征基礎上形成的抽象層次。

討論6:動態開放環境中的人機協同的具身智能

為了讓具身智能表現的更像人類智能，還需要在動態開放的環境中強化人機協同。以往的運動策略學習傾向于把人排除在外，僅由試錯、搜索獲得盡可能大的長期累積回報的策略，無法適應開放動態的環境。

而人在回路的決策學習，由任務、目標引導搜索，實現行為決策的類人化。此外，還可以通過嵌入式視覺學習、模仿學習和交互學習，引入人的作用。

動態開放環境中人機協同具身智能的一種基本框架。人在回路的人機協同決策可以使具身智能向人類學習。自動駕駛系統通過行為克隆向人類駕駛員學習，自動駕駛系統通過10個小時的學習已具有基本的駕駛行為，但仍然無法避障和應對突發事件。

自動駕駛面臨著哪些挑戰？

自動駕駛是開放環境中一類重要典型具身智能系統，在復雜交通環境下，自動駕駛安全要有可靠的駕駛行為。

首先，它需要解決復雜交通場景中的“周密感知”，無論天氣或照明情況如何，必須在所有條件下檢測道路特征。

其次，它需要進行“預行為”的理解，因為人類駕駛員都是根據預行為傳達行駛意圖。

再次，它需要對“意外遭遇”做出應對，而簡單的基于規則的自動駕駛不可能提前為每個場景編碼。

最后，“網絡安全”，如軟件的漏洞或黑客的惡意行為等等。

自動駕駛行為是如何生成的？

首先，系統結合經驗與常識、場景理解以及交通態勢評估，并利用模型對結構化道路場景和非結構化道路場景進行預訓練，生成導航路徑。

隨后，基于具身智能完成目標狀態采樣、待選運動路徑生成和最優運動路徑選擇，進行運動規劃，最后生出合理的、可執行的駕駛行為。

重點討論自動駕駛行為決策，將思維抽象為符號計算對人工智能的發展產生了重大的推動作用，但為所有的交通對象建立模型是不可能的。

帶來這些困難的一個直接原因是：許多交通場景的復雜性和動態性，并不都是可觀測和可控的，行駛過程中對異常情況的處理能力，是無法通過事先大量樣本訓練得到，而且也無法獲得大量的負樣本，交通事故就是一大類負樣本，而人類駕駛員開車是將車外的無窮狀態空間約簡為動態變化的“可行駛”的“二域狀態空間”，自動駕駛行為決策就是要尋找一個可行駛區域。

因此，從認知層面要解決的問題，就是如何把復雜未知的現實世界，變化成有限空間環境的語義理解，我們把它稱之為一種直觀的理解。

怎樣定義自動駕駛這個問題？

需要把場景感知和情景認知區別開來。

所謂場景是指某個交通場合在一個特定的時間和特定的空間中，具體情景或景象，可以定義為一種實體，當然這種實體的描述是通過傳感器的數據來獲得的。

情境是指某一段時間和空間許多具體情形的概括，情境的境是指構成和隱含在場景中，相互交織的因素及其相互之間的關系，所以情境計算是對場景中各個對象在空間的行為交互關系解釋，交通場景中各種物體或對象空間關系和行為的描述在自動駕駛中就顯得非常重要了。

如何發展一種具有進化的、自主學習的自動駕駛系統？

需要從認知的角度去了解人類駕駛員是如何注意并獲取交通環境信息的。而交通環境信息是如何在大腦中存儲和加工的，特別是在產生駕駛行為的背后存在怎樣的內部表征。

首先，我們來看看人類駕駛員如何注意并獲取交通環境的信息。在交通場景認知的選擇性注意中，目標的重要性是一種高級屬性，它包含目標的物理屬性、運動屬性、行為屬性。

其次，我們以交通場景的注意、記憶和學習過程為例，簡單討論人類對交通場景認知的加工機制。人的大腦對感覺記憶中的一些特定信息的注意即選擇，對注意到的信息進行組織，再通過學習在短期記憶中建立聯系，將長期記憶的信息傳遞到短期記憶，以連接傳入的數據，即整合。最后將短期記憶的內容進行編碼，轉換為長期記憶。

在組織、整合與編碼之間存在著交互機制，實際上人在知道發生了什么之前，他的注意力已被顯著性對象所捕獲，人類駕駛員對交通場景的理解是在記憶和先驗知識的基礎上進行的模式匹配。

自動駕駛算法需要在一定程度上引入人類對交通場景認知的加工機制，人類對變化非常敏感，突然變化，比如說顏色、紋理、大小、位置、運動，對注意力影響最大。

注意機制已經成為構建自動駕駛AI架構的靈感來源。

產生駕駛行為的背后存在怎樣的內部表征問題？

人類駕駛員在駕駛過程中是將車窗外無窮狀態空間約簡為動態變化的“可行駛”和“不可行駛”的“二域狀態空間”，并根據常識和交通規則，以及對交通場景的感知來產生相應的駕駛行為。

因此，自動駕駛需要對交通環境進行分層的認知表征，它們分別是空間定位層、行為模型層、知識策略層和任務驅動層，這樣就可以從認知的層面將復雜、未知的現實世界變換成有效的自覺物體的語義推理。

如何構建自動駕駛環境的“認知地圖“？

構建自動駕駛認知地圖需要包括車輛、交通標識、障礙物、行人等構成的可行駛區域的基本屬性。同時要有遞歸網絡所學習到的關于預注意機制、駕駛意圖等高級認知屬性，把車輛當前狀態與交通知識作為認知地圖的一部分。

要根據場景動態的變化，來形成實踐上的認知地圖的訓練。依賴認知地圖就可以使自動駕駛系統從類人的角度去理解交通場景正在發生的動態隨機變化。

這里進一步給出一種具有選擇性注意機制的自動駕駛認知計算實現架構。在這個計算架構中，利用卷積神經網絡提取場景的顯著性空間特征，這些特征與先驗知識相結合，形成一種對時間可視化認知地圖，通過長短期記憶的注意機制，界定認知地圖中物體間的關聯，然后通過價值迭代模型將對環境的認知映射到行為空間，給出行駛決策。

仿真測試也是自動駕駛重要的關鍵技術之一，自動駕駛汽車在大規模商業化應用前需要進行大量的測試，相關研究報告指出：在不犯錯誤的情況下，自動駕駛汽車需要行駛4.4億公里，才能證明其在車禍致死率和人類駕駛員的水平相當。

假設由100輛自動駕駛汽車，每天測試24小時，一年測試365天，測試平均時速60公里每小時，需要耗時8.37年。相當于一輛車在地球與月球之間往返572次，顯然采用實際道路測試將耗費大量時間。而仿真測試可以提供一種高效率、低成本的自動駕駛測試。

作為自動駕駛重要的關鍵技術，仿真測試需要關注的一大挑戰為異常交通場景的感知與處理，由于異常交通場景出現概率低、缺乏測試數據，因此需要利用圖形學、計算機視覺生成多樣化測試數據，在仿真環境中對自動駕駛車輛進行充分快速的測試驗證。

這里我們給出了一種基于大模型的自動駕駛仿真技術的基本框架，應用機器學習可以生成多樣性交通場景來評價自動駕駛系統在不同交通場景下的駕駛性能，如安全性、舒適性、協調性，以及算法的可靠性，以及是否遵守相關法律法規。該基本框架由數據集包括注入的真實傳感器數據、機器場景描述、測試場景分類、典型場景選擇與表征、典型場景生成，包含一些副樣本等五大部分組成。

這里是自動駕駛仿真系統測試生成多樣性交通場景，如前車變道，對交通場景標識識別，夜間會車，以及前方突然出現行人。我們團隊開展自動駕駛研究二十余年，走到今天我們取得了很大的進步，但實現完全自動駕駛依然是一個令人興奮而又望而生畏的艱難挑戰。

最后給出一個移動智能體在開放環境下基于視覺和激光雷達生成導航路徑的短視頻。

今天我的報告就到這里，謝謝大家！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

給政治局講人工智能的西安交大鄭南寧報告全文