智能行為的形成離不開身體的感知、動作和環境的反饋。從哲學角度看,具身智能呼應了現象學的觀點,即認知是身體在世界中活動的產物,而非孤立的計算過程。
2024年10月下旬,和ChatGPT齊名的人工智能應用Claude發布了最新版本,這個版本可以自主操控電腦。這看上去好像沒什么特別的,在很多人看來,人工智能本來就和計算機相關,本就是一種運行在計算機上的應用,它能操控計算機有什么值得驚訝的?但仔細想想就能發現這個看似簡單的“動作”背后意味著什么——Claude的“計算機使用”功能標志著人工智能技術在理解圖像和視頻內容、視覺識別和操作方面取得了顯著進步,它能夠將用戶的自然語言指令轉化為計算機操作,這在人工智能領域是一個重大突破。同時,當人工智能可以操控某種意義上的物理世界時,它可能離具身智能(Embodied Intelligence)不遠了。
不久前,被稱為“人工智能教母”的斯坦福大學人工智能實驗室主任李飛飛提出了“空間智能”的概念。她認為,人工智能的發展不應該僅僅停留在理解和生成語言上,還應該包括理解和操作物理世界的能力。具身智能,即擁有身體的人工智能,正是空間智能的一種體現。具身智能不僅能夠理解和操作物理世界,更重要的是,它能夠通過與環境的互動,不斷學習和進化,從而更加智能地適應和改變環境。
在以大語言模型為代表的人工智能快速發展兩年后,具身智能似乎也將要迎來屬于它的“ChatGPT時刻”——某一技術或事件在特定領域內引發的變革性影響,標志著一個新時代的開啟或某種趨勢的轉折點。
具身智能的前世今生
提起具身智能,我們很容易想到機器人。事實上,具身智能的概念遠比我們想象的要廣泛和深入。它不局限于常見的機器人形態,而是涵蓋了任何能夠與物理世界進行交互的人工智能實體。從簡單的智能家居設備,到復雜的自動駕駛汽車,再到未來的各種人形機器人,具身智能正以不同的形式滲透到我們的生活中。
具身智能的核心在于其能夠與物理世界進行直接的互動,這意味著它需要具備感知、決策和執行的能力。感知能力讓具身智能能夠獲取周圍環境的信息,如溫度、濕度、光線、聲音等;決策能力使其能夠根據感知到的信息做出合理的判斷和選擇;而執行能力則是將決策轉化為實際行動,如移動、抓取、操作等。這三個能力的有機結合,使得具身智能能夠像人類一樣在物理世界中靈活地應對各種挑戰。
人類關于具身智能的研究,可以追溯到1950年,當時艾倫·圖靈(Alan Turing)在其經典論文《計算機器與智能》(Computing Machinery and Intelligence)中提出了“具身圖靈測試”(Embodied Turing Test),探索智能體是否能夠像人類一樣與環境交互、感知、自主規劃和決策,從而展現出應對物理世界復雜性的智能。這一設想奠定了智能與物理形態相結合的理論基礎,被視為具身智能的起源。
到了20世紀80年代,具身智能的概念得到進一步的發展和明確。1986年,羅德尼·布魯克斯(Rodney Brooks)從控制論角度出發,提出了行為式機器人概念,強調智能是具身化和情境化的,智能行為可以直接從自主機器與環境的簡單物理交互中產生。他的工作推動了具身智能在機器人學領域的應用和發展。
1988年,人工智能領域的先驅馬文·明斯基進一步強調了身體在智能中的重要性,認為身體和環境是智能不可或缺的一部分。1993年,認知科學家弗朗西斯科·瓦雷拉等人提出了“具身認知”理論,認為認知過程不僅僅是大腦的活動,身體的結構和環境的交互也起著關鍵作用。這些理論為具身智能的發展提供了堅實的理論支撐。
進入2000年代,具身智能開始在機器人學領域嶄露頭角。2006年,羅爾夫·普菲弗和喬希·邦加德出版了《身體如何塑造我們的思維方式》,他們通過實驗表明,機器人的身體結構和運動方式對其智能行為有著深遠的影響。這一發現讓研究者們意識到,要實現真正的智能,機器人不能僅僅是一個“移動的電腦”,而必須具備與環境互動的能力。
在這一時期,具身智能的研究逐漸從理論走向實踐。研究者們開始嘗試讓機器人在復雜的環境中自主導航、感知和學習。例如,一些機器人可以通過視覺和觸覺感知來識別物體,并通過簡單的動作與環境互動。雖然這些機器人還遠未達到人類的智能水平,但它們已經展示了具身智能的潛力。
2020年代,隨著人工智能技術的飛速發展,具身智能迎來了新的突破。一方面,多模態技術的出現讓機器人能夠同時處理語言、視覺和動作等多種信息。例如,機器人可以通過語音指令理解任務,通過視覺感知識別環境,再通過動作完成任務。這種多模態的融合讓機器人更加接近人類的智能行為。
另一方面,大語言模型的加入也為具身智能注入了新的活力。2023年,一些研究團隊開始嘗試將大語言模型與機器人結合,讓機器人能夠更好地理解人類的語言指令,并通過自主學習提升智能水平。例如,LM-Nav項目展示了如何利用大語言模型提升機器人的導航能力,使其能夠在復雜的環境中自主尋找目標。
從圖靈的具身設想,到布魯克斯的行為式機器人,再到如今的多模態融合與大模型應用,具身智能的發展歷程充滿了探索與創新。它不僅改變了我們對智能的理解,也為未來的機器人和人工智能技術開辟了新的道路。
機器人為你作畫。圖 / 王欣
具身智能已經在應用
近幾年,具身智能正處于快速發展的關鍵時期,其技術成熟度、應用場景和商業化潛力都呈現出前所未有的態勢。在制造業,協作機器人已經能夠與工人并肩工作,完成精密的組裝任務,不僅提高了生產效率,還確保了工作場所的安全。移動機器人則在倉儲和物流領域大放異彩,它們能夠自主導航、搬運貨物,極大地減輕了人力負擔。更令人興奮的是,人形機器人已經開始進入我們的生活,它們能夠陪伴兒童學習玩耍,甚至參與救援行動,展現出無限的可能性。
對于具身智能來說,其近年來最大的推動力來自大語言模型(LLMs)。大語言模型為具身智能提供了強大的語言理解和生成能力。通過多源異構數據的輸入,大模型能夠提升機器人的自主學習和決策規劃能力。與此同時,輕量化模型的快速發展為具身智能在低算力設備上的應用提供了可能。具身智能的核心在于通過多種傳感器實現對環境的全面感知。2025年,3D視覺和觸覺感知成為重要的技術發展方向。3D視覺技術使機器人能夠更精準地識別物體的形狀、位置和運動狀態,而觸覺傳感器(如電子皮膚)則賦予機器人對物理接觸的感知能力,從而提升操作的精細度。
仿真環境和世界模型的構建是具身智能技術的重要支撐。通過模擬物理世界的規律,機器人可以在虛擬環境中進行訓練,從而優化其運動控制算法和任務執行能力。仿真到現實的遷移(Sim2Real)技術也在不斷成熟,進一步提升了機器人的適應性。高質量、多樣化的數據是具身智能發展的關鍵。國內外產學研聯合構建了多個具身智能數據集,如Open X-Embodiment項目,這些數據集涵蓋了從感知到行動的全閉環數據,為大模型訓練和算法優化提供了基礎。
具身智能的發展離不開硬件和軟件的協同進步。高性能的傳感器、關節驅動技術和計算芯片為機器人的感知和行動提供了支持,而先進的算法和模型則提升了機 器人的智能水平。具身智能的形態涵蓋了從簡單的移動 機器人到復雜的人形機器人。
協作機器人(Cobots)是具身智能的重要載體之一。它們通常用于工業場景,能夠與人類工人協同完成任務。移動機器人包括輪式、履帶式和四足機器人等。它們在物流、倉儲和巡檢等領域具有廣泛的應用。例如,四足機器人因其出色的地形適應能力,被用于復雜環境的巡檢任務。人形機器人則是具身智能的高階形態,其外形和功能與人類相似,能夠適應多種復雜環境。2024年,人形機器人在科研教育領域取得了顯著進展,并逐步向商用服務和特種應用領域拓展。例如,特斯拉的Optimus和Figure AI的人形機器人已在工業場景中實現初步應用。
在工業制造中,具身智能機器人能夠完成復雜的裝配、打磨和質檢任務。通過多模態感知和自主學習能力,機器人可以實現更高的生產效率和更好的質量控制。例如,協作機器人在汽車制造中的應用,能夠與人類工人協同完成復雜的裝配任務。
在服務領域,具身智能機器人被廣泛應用于商業服務、家庭服務和醫療康養。例如,商用服務機器人可以在商場、機場等場所提供導引、咨詢和清潔服務;家庭服務機器人則能夠完成家務勞動,如打掃、洗衣和照顧老人。
具身智能機器人在特種應用中展現出巨大的價值。例如,在應急救援中,人形機器人能夠進入危險環境,執行搜索和救援任務;在安全巡檢中,四足機器人能夠適應復雜地形,完成設備巡檢。
未來,具身智能的應用場景將從工業制造逐步拓展到服務、醫療、家庭等多個領域,推動社會生產力的提升。隨著技術的成熟和成本的降低,具身智能的商業化進程將加速。業內人士預測,人形機器人有望在未來5年內實現規模化應用。
具身智能的廣泛應用,不僅標志著人工智能技術的飛躍,更預示著一個全新時代的到來。在這個時代,人工智能將不再局限于虛擬世界,而是能夠真正地走進我們的生活,與人類一起創造更美好的未來。
采摘機器人可廣泛應用于多種場合。圖 / 王欣
未來人工智能的必經之路
在人工智能領域,“有身體”意味著AI不僅擁有處理信息和執行任務的軟件,還具備了與現實世界互動的硬件載體。這種結合了軟件與硬件的AI,能夠通過傳感器感知環境,通過執行器與環境互動,從而實現更加復雜和靈活的智能行為。例如,擁有機器臂的AI可以進行物理操作,而配備輪子或腿的AI則可以移動和探索。這種物理存在不僅擴展了AI的應用范圍,還為AI提供了學習和適應新環境的機會,使其更加接近人類智能的多面性和適應性。
從另一個方面來看,要想實現通用人工智能或者強人工智能,具身智能也是必經之路。在人工智能的發展歷程中,通用人工智能(AGI)一直是科學家們追求的終極目標。AGI是指具備像人類一樣廣泛的認知能力和適應能力的智能系統,它能夠自主學習、推理、規劃,并在多種復雜環境中靈活應對。然而,盡管我們在深度學習、自然語言處理等領域取得了巨大進展,但實現真正的通用人工智能仍然面臨諸多挑戰。具身智能作為人工智能的一個重要分支,正在逐漸成為實現通用人工智能的關鍵路徑。
我們需要認識到,智能不僅僅是大腦的產物,更是身體與環境交互的結果。這一理念強調了身體在認知過程中的重要性,認為智能行為的形成離不開身體的感知、動作和環境的反饋。從哲學角度看,具身智能呼應了現象學的觀點,即認知是身體在世界中活動的產物,而非孤立的計算過程。這種觀點為我們理解智能的本質提供了全新的視角。
在技術層面,具身智能為實現通用人工智能提供了重要的實踐基礎。首先,具身智能強調多模態感知和交互能力。通過視覺、聽覺、觸覺等多種感知方式,智能體能夠更全面地理解環境,并通過身體的動作與環境進行動態交互。這種多模態的交互能力是通用人工智能所必需的,因為它能夠使智能體在復雜多變的現實世界中自主學習和適應。其次,具身智能為智能體提供了實踐和學習的機會。在具身智能的框架下,智能體不僅僅是被動的信息處理者,更是主動的行動者。它們可以通過與環境的交互,不斷積累經驗,優化行為策略。這種基于實踐的學習過程是實現通用人工智能的關鍵,因為它能夠使智能體在不斷變化的環境中逐步提升自身的智能水平。
此外,具身智能還為解決通用人工智能中的復雜問題提供了新的思路。例如,在自然語言理解中,具身智能強調通過身體的動作和環境的反饋來理解語言的含義。這種基于具身的語義理解方式,能夠使智能體更準確地理解語言中的隱喻和抽象概念,從而提升語言理解的深度和廣度。
然而,具身智能的發展也面臨著諸多挑戰。具身智能需要高度復雜的硬件支持,包括高性能的傳感器、關節驅動器和計算平臺。這些硬件的研發和制造成本高昂,限制了具身智能的普及速度。具身智能的算法設計還需要考慮感知、決策和動作的協同優化,這比傳統的單一模態智能更為復雜。
盡管如此,具身智能仍然是實現通用人工智能的重要途徑。正如人類的智能是在身體與環境的長期交互中逐漸形成的,通用人工智能的實現也需要通過具身智能來不斷探索和積累經驗。具身智能不僅為智能體提供了與環境交互的能力,還為我們提供了一種全新的視角和實踐框架,使我們能夠更接近人類智能的本質。
隨著技術的不斷進步,我們有望看到具身智能在更多領域的應用,從工業制造到家庭服務,從醫療護理到教育娛樂。這些具身智能的應用不僅能夠提升社會生產力,還能夠為人類的生活帶來更多便利。
(文章來源:《創意世界》2025年3月號)
編校:范曉華,審讀:郭麗
/ / / / /
/ / / / /
/ /
/ / / / /
/ / / /
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.