IPP評論是國家高端智庫華南理工大學公共政策研究院(IPP)官方微信平臺。
導語:
從今年人形機器人在春晚舞臺上“扭秧歌”,到通用AI智能體Manus強勢闖入大眾視野?!熬呱碇悄堋弊鳛槿斯ぶ悄芤粋€重要分支,正以迅雷不及掩耳之勢,牢牢抓住科技圈的目光。
今年兩會的政府工作報告中,“具身智能”這個新名詞首次亮相。報告明確指出,要“因地制宜發展新質生產力。建立未來產業投入增長機制,培育生物制造、量子科技、具身智能、6G等未來產業?!边@一官宣,讓具身智能從科技圈的熱議話題,一躍成為關乎國家產業布局的重要方向。
那么,到底什么是“具身智能”?有人簡單將其等同于人形機器人,認為它是對傳統人工智能,特別是符號主義人工智能的有力補充與拓展。在中信出版的《具身智能:人工智能的下一個浪潮》一書中,清華大學全球創新學院院長、自動化系教授兼博導劉云浩詳細拆解了具身智能的前世今生、具身智能從何而來,又該如何實現。?
*本文摘編自《具身智能:人工智能的下一個浪潮》,作者劉云浩。
具身智能究竟是什么?
紅線
2010年前后,由于ImageNet等一系列學術亮點的出現,人工智能在學術界逐漸進入熾熱期。2016年谷歌人工智能程序AlphaGo戰勝圍棋世界冠軍李世石,2022年OpenAI(美國開放人工智能研究中心)發布一款名為ChatGPT的聊天機器人,終于把這份火熱傳遞給了大眾。
當生命用40多億年的進化所形成的最高智慧大腦皮質被人工神經網絡快速逼近,當幾十億人用50多年締造的互聯網數據被大語言模型用不到100天的時間吞噬(GPT—4的訓練時間估算為90~100天),當我們生活中的電子產品都被冠以AI之名,如AI個人計算機、AI手機、AI汽車……我們正在進入一個新的時代,一個被人工智能“生命”(“硅基生命”)包圍的時代。
2025年,“具身智能”首次被寫入政府工作報告,這一概念正走向產業舞臺。圖源:新華社
熾熱往往又伴隨著寒意。2023年,如日中天的OpenAI爆發了震驚世界的“宮斗”大戲,首席執行官薩姆·奧爾特曼被解雇了。人們猜測其中原因可能有人類尚未準備好迎接通用人工智能的到來。
通用人工智能是什么樣子?一個可以對話的機器目前來看遠遠不是人工智能的終點。所謂的強人工智能,要多強才算強?隨著不同科技大佬的發聲,具身智能的概念浮出了水面。這種智能體不僅擁有物理形態,還能與物理世界互動。有人干脆說,具身智能就是人形機器人!具身智能究竟是什么?它是一種方法論還是一個發展階段?具身智能會帶來什么不同嗎?
其實,早在70多年前,“人工智能之父”艾倫·麥席森·圖靈就提出“機器能思考嗎”這一問題,開啟了人工智能的偉大征程。1956年,達特茅斯會議開始正式使用“人工智能”這個詞。近70年間,人工智能歷經了多次起落,但是人類探索通用機器智能的熱情從來沒有冷卻。
在1950年論文 “Computing Machinery and I ntelligence” 中,艾倫·麥席森·圖靈提出提出了圖靈測試(Turing Test)作為衡量機器智能的 標準。圖源:Wikimedia Commons
圖靈預見機器智能的發展分為兩個階段:離身智能和具身智能。1986年,美國麻省理工學院計算機科學與人工智能實驗室(MITCSAIL)前主任羅德尼·布魯克斯提出:“智能是具身化和情境化的,是在與真實環境的交互作用中表現出來的,而不是依賴于預先設定的知識和目標?!?/p>
近年來,隨著神經網絡、大模型、感知等相關技術的突破,“具身智能”這一概念也再次火了起來。如果說離身智能是將機器困于人類經驗和數據的藩籬當中,那么,具身智能則使得人工智能真正接觸到物理世界。從離身到具身是智能發展的必然趨勢,只有真正進入物理世界,機器智能才可能重復人類從純粹理性到實踐理性的提升過程。
我們嘗試著討論人工智能發展的不同范式和階段。從早期的符號主義到行為主義,從聯結主義的神經網絡到深度學習,以及以ChatGPT為代表的大語言模型,人工智能經歷了一個從離身到具身、從特定到通用的演進過程。
感知、認知、決策、行動、進化,是構建完整智能體系的核心要素。機器視覺讓計算機看懂世界,模仿學習讓系統從數據和經驗中不斷進化,強化學習讓智能體學會主動探索和優化目標。這些要素的加持,賦予機器更全面的智能。
2025年1月28日,杭州宇樹科技人形機器人在2025年央視春晚后臺。圖源:新華社
機器的智能從何而來?
紅線
說到機器更全面的智能,我們可以先看看“智能”本身的定義。在人工智能發展的過程中,不同學派對“真正的智能”有著不同的定義,這種定義的模糊和變化讓研究者時而興奮,時而沮喪。
早期的科學家對人工智能的快速發展抱有樂觀態度,部分原因是當時的智能程序已經能夠解決復雜的代數問題,證明幾何定理,并且能夠像專業棋手一樣下國際象棋。對普通人來說,無論是解決復雜的數學問題還是展現高超的棋藝,都是極具挑戰性的任務,因此這些能力被視為智能的象征。
與此同時,像識別一張桌子和一束花,或者用腿自由行走這樣的行為,被歸類為“常識”或“本能”,看似無須動用智能。因此,人們推測,如果機器能輕松解決數學推理等難題,那么處理更簡單的任務自然不在話下。這種思想在古典人工智能時期非常流行,在長時間內影響著人工智能的發展方向,研究者都在致力于通過讓機器解決一系列技術難題來證明人工智能的智能程度在不斷提升。
這些研究方向逐漸被證明是有缺陷的。盡管現代人工智能能夠輕松擊敗世界頂尖的棋手,表現出出色的圖像識別和邏輯推理等技能,我們依然必須面對一個事實:
現有的人工智能并不代表真正的“智能”,它們依賴人類提供的數據、設定的模型、編寫的程序和構建的架構,并且只能在特定的領域和規則下發揮作用。在這些限制下,人工智能展示的行為并非自我思考的結果,而是對預設程序的機械執行。它們缺乏自我判斷能力,更不用說具備直覺、感知、意識和情感等人類獨有的復雜屬性了。這說明,古典人工智能主義在理解智能的本質時存在根本的誤區。
具身一定是“人形”嗎?
紅線
讓我們再回到1950年,看看圖靈是怎么說的。他在經典論文《計算機與智能》的結尾處,展望了兩條人工智能可能的發展道路:
一條道路是聚焦抽象活動,例如下國際象棋,我們將其稱為離身智能;另一條道路則是賦予機器真正的身體感官,并且用類似教導一個孩童的方式來訓練智能體,也就是我們所說的具身智能。
國內目前明確提出發展具身智能的城 市已超過20個。北京、深圳、上海、杭州憑借技術、產業和生態綜合優勢,整體領先全國。圖源:新華社
“具身”的含義并非指字面上的“身體”,而是指通過身體的感知來實現的智能。你可能會問:那“具身智能”是不是就是給最強大腦型的大模型裝上“新身體”?如果真的這么簡單就好了。感覺和意識還源于與世界的多維度互動。以“好吃”的感覺為例,這不僅是味蕾上的感覺,還包括食物帶來的視覺影響和嗅覺體驗。這種感覺不僅是生理上的,還是我們與客觀事物互動的直接結果。這種綜合性的感知被內化為大腦中的意識,并作為行動的先驗標準。
因此,人類與外部環境的互動需要通過“軀體”這一媒介來完成。人工智能缺乏實體“軀體”,只能與預設的數據進行互動,無法從與環境的真實互動中獲得“常識”,也就不可能形成真正的自我感覺和意識。反之,我們如果想讓人工智能具備真正的意識,就必須首先賦予它能自主控制的軀體,并讓它像普通個體一樣融入物理世界和人類社會。
這樣的“軀體”需要什么要素呢?讓我們還是以最熟悉的參考物—人作為藍本。按照“模仿游戲”的邏輯,如果我們期望具身智能體在人類世界中不僅生存,還要能與物理環境互動并與人自然交流,那么這些智能體首先需要的就是感知環境的能力。對人類而言,這一問題能夠通過感官得到解決:眼睛提供視覺信息,耳朵負責聽覺,皮膚感受觸覺,等等。如果沒有感官,人就可能變成聾人、盲人,顯然無法正常地生活。
看到、聽到之后,人類接下來就會進行思考,這一過程由大腦掌管。舉例來說,一個小孩看到一臺精密加工機床可能毫無頭緒,而一個經驗豐富的工程師則能迅速判斷如何使用這臺設備制造金屬零件。這表明了認知能力在理解世界和做出反應中的重要性。
具身智能體在接收到信息后,需要進行適當的反應或決策。例如,一個想喝水的智能體觀察到周圍有水壺和杯子,基于水壺里有水、杯子能裝水的認知,就會制訂一個行動計劃:走向水壺,拿起杯子,倒水,最終喝水。
這一系列動作不僅需要身體的協調性,還依賴于中樞神經系統的精確控制,展現了人類身體精細的控制能力,這種行動能力是經過數百萬年進化而形成的。
執行完行動后,智能體需要再次感知以了解環境的變化,這就形成一個“感知—認知—決策—行動—感知”的循環,它也成為具身智能體與外界交互的基礎。
最后,討論具身智能的進化也非常關鍵。人類從猿人到現代人的進化耗時數百萬年,但今天的具身智能顯然無法等待如此漫長的時間。幸運的是,現代科技和理論已為具身智能提供了更加高效的成長和進化的條件,使其能在更短的時間內實現復雜功能的發展。
站在當下去預測未來一定是不準確的,即使是最厲害的科幻小說家也很難跳出現有知識體系進行延伸。預言本身是一件吃力不討好的事,作為科研工作者,我們當下也并非想讓人工智能“長出身體”,更何況人工智能的“身體”也未必呈現人形。希臘神話中,火神赫菲斯托斯為了招待諸神,創造了三足神器,它們裝有金色的輪子,能自動移動和服務,這可以視為人工智能早期的一個原型。由此來看,古希臘人對自動化與智能機械的構想,其實在某些方面已經超越了我們的想象。
目前來看,我們似乎已經解決或者說部分解決了機器能否思考的問題。隨著以ChatGPT為代表的大模型的出現,我們已經更加確信這一點。大模型已經能夠學習海量的知識,對普通人來說可謂無所不知;不僅如此,當大模型體量大到一定程度后仿佛也解鎖了諸如“上下文學習”和“思維鏈”的新能力。這一切讓人感到驚喜。但讓人遺憾的是,我們并不能100%依靠大模型,因為大模型也會犯錯—專業術語稱為幻覺(hallucination)。
如果你問ChatGPT:“中信出版社出版的《具身智能》的作者是誰?”它可能會回答:“中信出版社出版的《具身智能》一書的作者是拉斯·奇卡。拉斯·奇卡是一位著名的昆蟲行為學家和神經科學家,他在昆蟲(尤其是蜜蜂)的智能和行為方面有深入的研究和貢獻?!比欢?,此人從來沒有寫過一本書名中提到embodied的書。 如果你繼續追問ChatGPT:“你覺得對嗎?”ChatGPT會說:“抱歉,我的回答不對。中信出版社出版的《具身智能》的作者是拉里·伯里奇,譯者是劉曉飛。拉里·伯里奇是人工智能領域的著名學者,專注于進化計算和機器學習?!边@明顯又是一個錯誤的答案。
老子的《道德經》說:
“知人者智,自知者明?!?/blockquote>相比于無所不知的“智”,能夠自我認知的“明”對于機器來說同樣十分重要。
具身智能的學習任務
紅線
顯然,具身智能體在虛擬世界中還需要學習多門不同的課程,其中包括一些非常重要的基礎任務。這些任務雖然基礎,但卻是構建復雜能力不可或缺的基石。本書中我們選取三類重要任務進行介紹:具身導航、具身問答和物體操縱。
之所以選這三類任務,是因為它們分別象征著具身智能體的“腿”(能使其自如穿行于環境之中)、“嘴”(能使其與人類進行流暢的交流)以及“手”(賦予其與物理世界互動和操作的能力)。這三類任務共同構成了智能體在現實世界中行動自如、溝通無阻和操作靈巧的基石。
目前,深圳共有5.11萬家機器人相關企業,數量穩居全國首位。圖源:新華社具身導航主要研究如何使智能體在沒有外界直接指導的情況下,通過自我感知和環境感知導航到特定目的地。我們日常熟悉的導航都是給人用的,例如打開手機上的地圖軟件,輸入目的地,地圖上會出現路線以及行進的方向等提示信息,手機通過衛星定位或物聯網室內定位技術實時定位用戶的位置并將其顯示在地圖上。而具身導航在很多情況下是給機器使用的,因此很多人類自身需要完成的工作也需要借助導航系統來實現。
例如,很多應用中具身智能體接收到的任務是尋找某類對象或者某個畫面對應的場景,但其并不知道具體目的地坐標,而在有的任務中地圖是未知的,需要具身智能體自己進行探索,因此具身導航除了通常的定位和路徑規劃功能,必須具備任務理解能力、物理世界認知能力以及探索能力。
具身問答結合了導航與信息檢索,要求智能體在環境中做動作并利用收集到的信息來回答問題。這類任務由于信息交互方式的不同,可以分為導航問答、交互式問答和多模態問答,它們各自涉及對環境的不同理解和操作層面。
在導航問答任務中,智能體需要在環境中導航以獲取視覺或其他感知信息來回答問題。這涉及智能體的空間認知能力和信息檢索能力的結合。例如,環境中隨機生成一個代理,并對智能體提問:“汽車是什么顏色的?”
為了回答這個問題,智能體必須首先智能導航探索環境,并在到達汽車附近的時候,通過第一人稱(自我中心)視覺觀察收集必要的信息,然后回答問題:“汽車是橘黃色的。”導航問答任務需要一系列技能,包括語言理解、視覺識別、主動感知、目標驅動導航、常識性推理、長期記憶以及將語言融入行動。
交互式問答任務則是一種需要自主代理與動態視覺環境交互的問答任務,要求智能體與環境中的物體進行物理互動,如移動物體或改變物體的狀態,以便更好地回答問題。具體而言,交互式問答向代理呈現一個場景和一個問題,比如:“冰箱里還有牛奶嗎?”智能體必須在場景中導航,獲得對場景元素的視覺理解,與物體交互(例如打開冰箱),并根據問題計劃一系列動作。
在多模態問答任務中,智能體需要處理來自多個感官(如視覺、聽覺)的信息,以回答關于環境的更復雜問題。具體而言,智能體需要通過觀看視頻并聽取音頻來回答關于視頻內容的問題。這要求系統理解并處理視覺和聽覺信息,從而在對話中正確回答問題。
系統在生成回答時,不僅要考慮當前的問題和多模態輸入(視頻和音頻),還要考慮之前對話回合中的問題和回答。這種對話歷史的利用,要求系統必須“記住”之前的交流內容,以便在后續的對話中提供連貫和相關的回答?,F在的智能體,其實不具備人類所謂的“記住”功能,這是另外一個話題了,這里暫不展開討論。
物體操縱是指智能體對物理對象的控制能力,包括精細操縱和合作操縱。這些任務考驗智能體的操作精確度、力度控制以及與人或其他機器人協同工作的能力,對工業自動化和日常輔助機器人來說,這個能力尤為關鍵。
精細操縱通常涉及小范圍、高精度的動作,需要精確協調,比如抓取小物品,使用工具(如鉗子、剪子、螺絲刀甚至手術刀),準確的力度控制,等等。以對我們來說非常簡單的抓取為例,它需要利用視覺感知來定位和操作環境中的小物體或進行復雜的末端動作,涉及高度的手眼協調和精確的控制。
當前有很多研究利用深度學習技術和大規模數據收集來提高智能體的抓取能力,智能體也可以通過視覺系統觀察物體,利用從成千上萬次抓取嘗試中學習到的數據來預測成功抓取的可能性。智能體不僅要識別目標物體的位置和方向,還需要根據物體的大小、形狀和物質屬性調整抓取策略,確保操作的安全性和有效性。更高級一點,它可能還要判斷什么時候抓,該不該抓,抓取失敗有什么補救措施,等等。
合作操縱則是智能體與人類工作人員或其他智能體在共享的工作環境中共同完成任務的能力。這涉及人和機器在同一空間內互動,機器輔助人類執行那些非人體工學的、重復性高的、精度要求高或危險的任務。比如,在一個溫度很高的地方,完成一個對人體姿勢要求過高或不適合人類長時間執行的任務,尤其是重復性高的。對于當前很多生產線上的重復性操作,比如精密裝配中的定位和組裝,機器已經能做得很好了。
隨著技術的不斷進步,具身智能體通過這些“實習任務”不斷學習和進化,逐漸掌握了在現實世界中所需的技能和知識。現在,它們終于可以在物理世界中展現出更加智能、靈活的行為,真正進入“打工人”行列。
【新書推薦】
《具身智能:人工智能的下一個浪潮》
【作者】劉云浩
【出版社】中信出版集團
【出版時間】2025年1月
【作者簡介】
劉云浩,清華大學全球創新學院院長,清華大學自動化系教授、博導,ACM Fellow,IEEE Fellow, ACM主席獎、國家自然科學二等獎、教育部技術發明一等獎、中國計算機學會自然科學一等獎和中國電子學會自然科學一等獎獲得者。在清華大學自動化系獲得工學學士學位,在美國密西根州立大學計算機系獲得工學碩士和工學博士學位。曾任清華大學軟件學院院長和美國密西根州立大學計算機系系主任。
【內容簡介】
人類已經完成了“人工智能初級階段”的原始積累,正式進入向“更高階段”邁進的時代。在人工智能誕生之初,其目標或許是實現具身智能--這種智能體不僅擁有物理形態,還能與物理世界進行互動。
具身智能這條路徑能通向通用人工智能嗎?邏輯學、統計學、神經科學和計算機科學等領域的研究者分別從符號主義、聯結主義和行為主義三個綱領出發研究人工智能。打造通用人工智能是否需要第四種綱領?還是依靠這三者的融合就能解決?這些問題現在給出確定的答案還為時尚早,但知古而論今,本書以當前比較火熱的具身智能話題為引,討論人工智能的過去、現在和將來。
IPP公共關系與傳播中心
排版 | 周浩鍇
審閱 | 劉 深
終審|劉金程
往期推薦????
鄭永年教授最新力作——《中等技術陷阱:經濟持續增長的關鍵挑戰》,直面中國科技發展重要議題!
IPP薦書|丁磊:DeepSeek爆火,你不知道的AI真相
IPP薦書|15本書讀懂2025兩會六大熱詞關于IPP
華南理工大學公共政策研究院(IPP)是一個獨立、非營利性的知識創新與公共政策研究平臺。IPP圍繞中國的體制改革、社會政策、中國話語權與國際關系等開展一系列的研究工作,并在此基礎上形成知識創新和政策咨詢協調發展的良好格局。IPP的愿景是打造開放式的知識創新和政策研究平臺,成為領先世界的中國智庫。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.