網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

關(guān)注 | 當(dāng)AI擁有身體：這場具身智能革命比大模型更硬核

2025-06-20 12:08:40　來源: 社會(huì)科學(xué)報(bào)

上海舉報(bào)

分享至

具身智能的演進(jìn)路徑不僅關(guān)乎技術(shù)本身的突破，更將深刻塑造未來社會(huì)的智能生態(tài)圖景。

原文：《探尋具身智能的發(fā)展之路》

作者 |上海大學(xué)未來技術(shù)學(xué)院葉林奇

圖片 |網(wǎng)絡(luò)

在人工智能蓬勃發(fā)展的當(dāng)下，具身智能作為新興領(lǐng)域正日益引發(fā)學(xué)界與業(yè)界的廣泛關(guān)注。它代表著從傳統(tǒng)大模型“讀萬卷書”式的海量數(shù)據(jù)學(xué)習(xí)，邁向“行萬里路”式的實(shí)踐交互探索的關(guān)鍵躍遷。具身智能的演進(jìn)路徑不僅關(guān)乎技術(shù)本身的突破，更將深刻塑造未來社會(huì)的智能生態(tài)圖景。

大模型與具身智能：知行鴻溝當(dāng)前大模型憑借強(qiáng)大的數(shù)據(jù)生成能力，充分展現(xiàn)了“讀萬卷書”的優(yōu)勢。通過海量數(shù)據(jù)訓(xùn)練，它們得以快速汲取知識，展現(xiàn)出強(qiáng)大的應(yīng)用潛力。然而，這種學(xué)習(xí)方式存在根本局限：缺乏真實(shí)場景的實(shí)踐交互，如同“紙上談兵”。大模型雖通曉概念與原理，卻難以將知識有效轉(zhuǎn)化為應(yīng)對復(fù)雜現(xiàn)實(shí)問題的行動(dòng)能力。

與之形成鮮明對比的是具身智能，其核心在于“行萬里路”——強(qiáng)調(diào)在與環(huán)境的持續(xù)交互中積累經(jīng)驗(yàn)。在具身智能的框架下，智能不僅源于知識的累積，更根植于身體與環(huán)境互動(dòng)所塑造的獨(dú)特認(rèn)知模式。這一本質(zhì)區(qū)別，使具身智能在適應(yīng)多變現(xiàn)實(shí)、解決實(shí)際問題上具有潛在優(yōu)勢。

知識與經(jīng)驗(yàn)：具身智能的深層壁壘知識具有通用性與可言說性，相對易于獲取。無論是書本理論還是網(wǎng)絡(luò)信息，皆可習(xí)得。然而，經(jīng)驗(yàn)則往往高度個(gè)體化，難以精確言傳，因而獲取難度遠(yuǎn)超知識。這正是具身智能面臨的核心挑戰(zhàn)之一。

“具身千腦”的比喻恰如其分：不同的身體結(jié)構(gòu)與環(huán)境約束，將孕育迥異的智能形態(tài)。這就如同自然界中翱翔的飛鳥、馳騁的走獸、潛游的魚類，各自演化出適應(yīng)其生態(tài)位的獨(dú)特智能。人類亦如此，個(gè)體的經(jīng)歷與稟賦塑造了獨(dú)一無二的認(rèn)知。對具身智能而言，每個(gè)實(shí)體（機(jī)器人或虛擬體）都可能因其硬件配置、任務(wù)場景而形成專屬的智能模式。這種多樣性雖孕育著無限可能性，卻也顯著增強(qiáng)了研發(fā)的復(fù)雜性。

瓶頸所在：數(shù)據(jù)利用與持續(xù)學(xué)習(xí)能力當(dāng)下大部分的具身智能研究都在關(guān)注數(shù)據(jù)。然而，具身智能的瓶頸可能并不在于數(shù)據(jù)匱乏，而在于高效利用數(shù)據(jù)的方法與持續(xù)學(xué)習(xí)能力的缺失。當(dāng)前主流的深度學(xué)習(xí)范式多屬“瞬時(shí)學(xué)習(xí)”，聚焦于在固定數(shù)據(jù)集或固定任務(wù)上追求最優(yōu)性能。這種方式雖能在特定任務(wù)中表現(xiàn)優(yōu)異，卻忽視了智能體長期適應(yīng)性的本質(zhì)需求。當(dāng)下，機(jī)器人不乏能“穿針引線”“舞槍弄棒”者，我們也可以通過強(qiáng)化學(xué)習(xí)讓機(jī)器人在幾小時(shí)內(nèi)學(xué)會(huì)走路甚至跑酷。究其原理，仍然沒有脫離“有多少人工，就有多少智能”的魔咒，一旦遇到新的任務(wù)或環(huán)境，仍然要依賴人為的重新編程。說到底，機(jī)器人沒有持續(xù)學(xué)習(xí)的能力。

具身智能所面對的是動(dòng)態(tài)演進(jìn)的真實(shí)環(huán)境。這要求其必須具備持續(xù)學(xué)習(xí)的能力，能在交互中不斷積累經(jīng)驗(yàn)、自主優(yōu)化其行為模式。然而，現(xiàn)有技術(shù)尚難以實(shí)現(xiàn)這一目標(biāo)：如何讓具身智能如生命體般，從每一次實(shí)踐中汲取教訓(xùn)、實(shí)現(xiàn)能力的漸進(jìn)式提升，成為亟待突破的關(guān)鍵難題。

形態(tài)之外：生存是第一要?jiǎng)?wù)在探討具身智能發(fā)展時(shí)，形態(tài)與本體設(shè)計(jì)常成為關(guān)注焦點(diǎn)，例如當(dāng)下最火熱的人形機(jī)器人。然而，具身智能的關(guān)鍵在于其內(nèi)在的智能機(jī)制和與環(huán)境交互能力，而非外在物理形態(tài)。具身智能甚至不必然需要實(shí)體形態(tài)。因?yàn)椋幢阍诟叨确抡娴奶摂M環(huán)境中，我們?nèi)匀徊恢廊绾螌?shí)現(xiàn)真正的具身智能。當(dāng)我們費(fèi)盡精力終于把仿真的算法遷移到實(shí)體，實(shí)現(xiàn)早就預(yù)期到的動(dòng)作時(shí)，我們不禁要問，除了這些，它們還會(huì)什么呢？

在筆者看來，真正的具身智能首先要具備生存能力。生存是第一要?jiǎng)?wù)，自然界的任何生物都具備生存和繁衍的能力。如果我們把機(jī)器人放到自然界，放到開放環(huán)境中，它能生存幾天呢？我們不妨來一場機(jī)器人的生存挑戰(zhàn)，如果機(jī)器人某一天能夠環(huán)游世界了，那真正的具身智能也就實(shí)現(xiàn)了。

演進(jìn)圖譜：從模擬小鎮(zhèn)到共融社會(huì)具身智能的發(fā)展是一個(gè)階段性過程：第一階段是“斯坦福小鎮(zhèn)”階段。在封閉可控的模擬/仿真環(huán)境中，進(jìn)行基本原理與算法的初步探索和驗(yàn)證。這一步，“斯坦福小鎮(zhèn)”已經(jīng)實(shí)現(xiàn)了一部分，未來仍然需要更深入地探索構(gòu)建可智能演進(jìn)的虛擬社會(huì)。

第二階段是具身智能小鎮(zhèn)階段。在更貼近現(xiàn)實(shí)的半開放場景中深化實(shí)踐，建立真實(shí)的機(jī)器人小鎮(zhèn)，使其能在不需要或極少人工干預(yù)的情況下自主運(yùn)行和演化。這一步已經(jīng)有些城市開始探索，例如深圳龍崗設(shè)立了全國首個(gè)人工智能（機(jī)器人）署。

第三階段是人機(jī)共融社會(huì)階段。實(shí)現(xiàn)具身智能與人類社會(huì)的深度融合，機(jī)器人真正成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車之后的顛覆性產(chǎn)品，走進(jìn)大街小巷，走進(jìn)“尋常百姓家”。

具身智能的發(fā)展之路交織著挑戰(zhàn)與機(jī)遇。具身智能的“ChatGPT時(shí)刻”還沒有到來，而大模型的成功之路能否在具身智能中復(fù)現(xiàn)并不明朗，或許另辟蹊徑才有出路。正如圖靈獎(jiǎng)得主楊立昆所言，相比大語言模型，他更關(guān)注的是“如何讓機(jī)器理解物理世界、擁有持久記憶、進(jìn)行推理和規(guī)劃”。唯有不斷突破關(guān)鍵技術(shù)瓶頸，深入挖掘具身智能的本質(zhì)規(guī)律，我們才能在這條探索之路上穩(wěn)步前行，引領(lǐng)人工智能邁向更廣闊的未來，最終實(shí)現(xiàn)人機(jī)共融、智能交織的美好圖景。

文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品，原載于社會(huì)科學(xué)報(bào)第1956期第4版，未經(jīng)允許禁止轉(zhuǎn)載，文中內(nèi)容僅代表作者觀點(diǎn)，不代表本報(bào)立場。

本期責(zé)編：潘顏

《社會(huì)科學(xué)報(bào)》2025年征訂

點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.