具身智能的演進(jìn)路徑不僅關(guān)乎技術(shù)本身的突破,更將深刻塑造未來社會(huì)的智能生態(tài)圖景。
原文 :《探尋具身智能的發(fā)展之路》
作者 |上海大學(xué)未來技術(shù)學(xué)院 葉林奇
圖片 |網(wǎng)絡(luò)
在人工智能蓬勃發(fā)展的當(dāng)下,具身智能作為新興領(lǐng)域正日益引發(fā)學(xué)界與業(yè)界的廣泛關(guān)注。它代表著從傳統(tǒng)大模型“讀萬卷書”式的海量數(shù)據(jù)學(xué)習(xí),邁向“行萬里路”式的實(shí)踐交互探索的關(guān)鍵躍遷。具身智能的演進(jìn)路徑不僅關(guān)乎技術(shù)本身的突破,更將深刻塑造未來社會(huì)的智能生態(tài)圖景。
大模型與具身智能:知行鴻溝當(dāng)前大模型憑借強(qiáng)大的數(shù)據(jù)生成能力,充分展現(xiàn)了“讀萬卷書”的優(yōu)勢。通過海量數(shù)據(jù)訓(xùn)練,它們得以快速汲取知識,展現(xiàn)出強(qiáng)大的應(yīng)用潛力。然而,這種學(xué)習(xí)方式存在根本局限:缺乏真實(shí)場景的實(shí)踐交互,如同“紙上談兵”。大模型雖通曉概念與原理,卻難以將知識有效轉(zhuǎn)化為應(yīng)對復(fù)雜現(xiàn)實(shí)問題的行動(dòng)能力。
與之形成鮮明對比的是具身智能,其核心在于“行萬里路”——強(qiáng)調(diào)在與環(huán)境的持續(xù)交互中積累經(jīng)驗(yàn)。在具身智能的框架下,智能不僅源于知識的累積,更根植于身體與環(huán)境互動(dòng)所塑造的獨(dú)特認(rèn)知模式。這一本質(zhì)區(qū)別,使具身智能在適應(yīng)多變現(xiàn)實(shí)、解決實(shí)際問題上具有潛在優(yōu)勢。
知識與經(jīng)驗(yàn):具身智能的深層壁壘知識具有通用性與可言說性,相對易于獲取。無論是書本理論還是網(wǎng)絡(luò)信息,皆可習(xí)得。然而,經(jīng)驗(yàn)則往往高度個(gè)體化,難以精確言傳,因而獲取難度遠(yuǎn)超知識。這正是具身智能面臨的核心挑戰(zhàn)之一。
“具身千腦”的比喻恰如其分:不同的身體結(jié)構(gòu)與環(huán)境約束,將孕育迥異的智能形態(tài)。這就如同自然界中翱翔的飛鳥、馳騁的走獸、潛游的魚類,各自演化出適應(yīng)其生態(tài)位的獨(dú)特智能。人類亦如此,個(gè)體的經(jīng)歷與稟賦塑造了獨(dú)一無二的認(rèn)知。對具身智能而言,每個(gè)實(shí)體(機(jī)器人或虛擬體)都可能因其硬件配置、任務(wù)場景而形成專屬的智能模式。這種多樣性雖孕育著無限可能性,卻也顯著增強(qiáng)了研發(fā)的復(fù)雜性。
瓶頸所在:數(shù)據(jù)利用與持續(xù)學(xué)習(xí)能力當(dāng)下大部分的具身智能研究都在關(guān)注數(shù)據(jù)。然而,具身智能的瓶頸可能并不在于數(shù)據(jù)匱乏,而在于高效利用數(shù)據(jù)的方法與持續(xù)學(xué)習(xí)能力的缺失。當(dāng)前主流的深度學(xué)習(xí)范式多屬“瞬時(shí)學(xué)習(xí)”,聚焦于在固定數(shù)據(jù)集或固定任務(wù)上追求最優(yōu)性能。這種方式雖能在特定任務(wù)中表現(xiàn)優(yōu)異,卻忽視了智能體長期適應(yīng)性的本質(zhì)需求。當(dāng)下,機(jī)器人不乏能“穿針引線”“舞槍弄棒”者,我們也可以通過強(qiáng)化學(xué)習(xí)讓機(jī)器人在幾小時(shí)內(nèi)學(xué)會(huì)走路甚至跑酷。究其原理,仍然沒有脫離“有多少人工,就有多少智能”的魔咒,一旦遇到新的任務(wù)或環(huán)境,仍然要依賴人為的重新編程。說到底,機(jī)器人沒有持續(xù)學(xué)習(xí)的能力。
具身智能所面對的是動(dòng)態(tài)演進(jìn)的真實(shí)環(huán)境。這要求其必須具備持續(xù)學(xué)習(xí)的能力,能在交互中不斷積累經(jīng)驗(yàn)、自主優(yōu)化其行為模式。然而,現(xiàn)有技術(shù)尚難以實(shí)現(xiàn)這一目標(biāo):如何讓具身智能如生命體般,從每一次實(shí)踐中汲取教訓(xùn)、實(shí)現(xiàn)能力的漸進(jìn)式提升,成為亟待突破的關(guān)鍵難題。
形態(tài)之外:生存是第一要?jiǎng)?wù)在探討具身智能發(fā)展時(shí),形態(tài)與本體設(shè)計(jì)常成為關(guān)注焦點(diǎn),例如當(dāng)下最火熱的人形機(jī)器人。然而,具身智能的關(guān)鍵在于其內(nèi)在的智能機(jī)制和與環(huán)境交互能力,而非外在物理形態(tài)。具身智能甚至不必然需要實(shí)體形態(tài)。因?yàn)椋幢阍诟叨确抡娴奶摂M環(huán)境中,我們?nèi)匀徊恢廊绾螌?shí)現(xiàn)真正的具身智能。當(dāng)我們費(fèi)盡精力終于把仿真的算法遷移到實(shí)體,實(shí)現(xiàn)早就預(yù)期到的動(dòng)作時(shí),我們不禁要問,除了這些,它們還會(huì)什么呢?
在筆者看來,真正的具身智能首先要具備生存能力。生存是第一要?jiǎng)?wù),自然界的任何生物都具備生存和繁衍的能力。如果我們把機(jī)器人放到自然界,放到開放環(huán)境中,它能生存幾天呢?我們不妨來一場機(jī)器人的生存挑戰(zhàn),如果機(jī)器人某一天能夠環(huán)游世界了,那真正的具身智能也就實(shí)現(xiàn)了。
演進(jìn)圖譜:從模擬小鎮(zhèn)到共融社會(huì)具身智能的發(fā)展是一個(gè)階段性過程:第一階段是“斯坦福小鎮(zhèn)”階段。在封閉可控的模擬/仿真環(huán)境中,進(jìn)行基本原理與算法的初步探索和驗(yàn)證。這一步,“斯坦福小鎮(zhèn)”已經(jīng)實(shí)現(xiàn)了一部分,未來仍然需要更深入地探索構(gòu)建可智能演進(jìn)的虛擬社會(huì)。
第二階段是具身智能小鎮(zhèn)階段。在更貼近現(xiàn)實(shí)的半開放場景中深化實(shí)踐,建立真實(shí)的機(jī)器人小鎮(zhèn),使其能在不需要或極少人工干預(yù)的情況下自主運(yùn)行和演化。這一步已經(jīng)有些城市開始探索,例如深圳龍崗設(shè)立了全國首個(gè)人工智能(機(jī)器人)署。
第三階段是人機(jī)共融社會(huì)階段。實(shí)現(xiàn)具身智能與人類社會(huì)的深度融合,機(jī)器人真正成為繼計(jì)算機(jī)、智能手機(jī)、新能源汽車之后的顛覆性產(chǎn)品,走進(jìn)大街小巷,走進(jìn)“尋常百姓家”。
具身智能的發(fā)展之路交織著挑戰(zhàn)與機(jī)遇。具身智能的“ChatGPT時(shí)刻”還沒有到來,而大模型的成功之路能否在具身智能中復(fù)現(xiàn)并不明朗,或許另辟蹊徑才有出路。正如圖靈獎(jiǎng)得主楊立昆所言,相比大語言模型,他更關(guān)注的是“如何讓機(jī)器理解物理世界、擁有持久記憶、進(jìn)行推理和規(guī)劃”。唯有不斷突破關(guān)鍵技術(shù)瓶頸,深入挖掘具身智能的本質(zhì)規(guī)律,我們才能在這條探索之路上穩(wěn)步前行,引領(lǐng)人工智能邁向更廣闊的未來,最終實(shí)現(xiàn)人機(jī)共融、智能交織的美好圖景。
文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品,原載于社會(huì)科學(xué)報(bào)第1956期第4版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點(diǎn),不代表本報(bào)立場。
本期責(zé)編:潘 顏
《社會(huì)科學(xué)報(bào)》2025年征訂
點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.