99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

能空翻≠能干活!我們離通用機(jī)器人還有多遠(yuǎn)? | 萬(wàn)有引力

0
分享至


作者 | 新程序員編輯部

出品 | CSDN(ID:CSDNnews)

具身智能,作為近年來(lái)人工智能領(lǐng)域的熱點(diǎn)之一,成為產(chǎn)業(yè)界和學(xué)術(shù)界重點(diǎn)關(guān)注的方向。特別是在人形機(jī)器人這個(gè)載體上,它所承載的感知、運(yùn)動(dòng)、決策等能力,讓具身智能從概念逐漸走向落地。但與此同時(shí),也有不少值得深入探討的問(wèn)題浮出水面:為什么具身智能的發(fā)展似乎格外偏愛(ài)“人形”?是否只有模仿人類(lèi)形態(tài),才是實(shí)現(xiàn)智能的最佳路徑?在面對(duì)數(shù)據(jù)、算力、模型架構(gòu)等現(xiàn)實(shí)挑戰(zhàn)時(shí),我們究竟處于怎樣的階段?距離真正的通用機(jī)器人,還有多少“里程”要走?

基于此,CSDN《萬(wàn)有引力》欄目特別策劃了一期以“十問(wèn)具身智能:我們離通用機(jī)器人還有多遠(yuǎn)?”為主題的深度對(duì)話,邀請(qǐng)了北京郵電大學(xué)人工智能學(xué)院副教授陳光@愛(ài)可可-愛(ài)生活、深圳市人工智能與機(jī)器人研究院副研究員夏軒、Roboraction.AI 首席執(zhí)行官黃浴,在欄目主理人 CSDN &《新程序員》執(zhí)行總編唐小引主持下,三位專(zhuān)家將從技術(shù)演進(jìn)、研究現(xiàn)狀、產(chǎn)業(yè)應(yīng)用等多個(gè)角度切入,帶大家一同拆解具身智能面臨的“關(guān)鍵問(wèn)題”,看清這條通往未來(lái)機(jī)器人的發(fā)展路徑。



闖進(jìn)具身智能賽道的技術(shù)人們

唐小引業(yè)內(nèi)普遍認(rèn)為,2025 年很可能成為具身智能的“元年”。盡管目前對(duì)于百模大戰(zhàn)的最終結(jié)果尚無(wú)定論,但時(shí)下行業(yè)競(jìng)爭(zhēng)明顯主要在多模態(tài)和具身智能領(lǐng)域展開(kāi)。在英偉達(dá) GTC 大會(huì)上,黃仁勛曾高調(diào)宣布“通用機(jī)器人時(shí)代已經(jīng)到來(lái)”。同時(shí),他還提出了 AI 發(fā)展的四個(gè)階段:第一個(gè)階段是“感知 AI”,它始于 2012 年的 深度學(xué)習(xí)模型,并于今年開(kāi)源了原始代碼;第二階段是“生成式 AI”,以 ChatGPT 為代表,標(biāo)志著 AI 從識(shí)別走向生成;第三階段,便是今年正在興起的“自主智能體AI”(Agentic AI),強(qiáng)調(diào)推理能力與自主行動(dòng);而第四階段,也就是“物理 AI”時(shí)代,則關(guān)注 AI 如何真正理解物理世界并進(jìn)行交互。這一思路或許能幫助我們更清晰地看懂 AI 的進(jìn)化路線。

與此呼應(yīng)的是,圖靈獎(jiǎng)得主楊立昆也表達(dá)了類(lèi)似看法:相比大語(yǔ)言模型,他如今更關(guān)注機(jī)器如何理解物理世界,并進(jìn)行持續(xù)記憶和推理。

正因如此,我們特別邀請(qǐng)了三位在具身智能領(lǐng)域擁有豐富經(jīng)驗(yàn)的老師,與我們共同探討我們距離通用機(jī)器人還有多遠(yuǎn),請(qǐng)大家從“程序人生”的角度出發(fā),分享是怎么一步步走進(jìn)具身智能這片領(lǐng)域的?

陳光自 2000 年讀研開(kāi)始,我就一直在做相關(guān)方向的研究。那時(shí)候,我們主要做的是手寫(xiě)漢字識(shí)別,我跟隨郭軍老師(北京郵電大學(xué)人工智能學(xué)院教授,北京郵電大學(xué)原副校長(zhǎng))從事模式識(shí)別的研究。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的發(fā)展,我們研究重心也逐漸轉(zhuǎn)向更廣義的人工智能領(lǐng)域。

近兩年,雖然“具身智能”這個(gè)概念并不新鮮,但它重新引起了大家的關(guān)注。人們不再只是關(guān)注機(jī)器人在自動(dòng)駕駛等垂直場(chǎng)景的應(yīng)用,而是開(kāi)始更系統(tǒng)地思考“智能”如何真正通過(guò)“身體”體現(xiàn)出來(lái)。

這股熱度的回升,其實(shí)也離不開(kāi)大模型的帶動(dòng)。隨著 AI 模型能力的大幅提升,機(jī)器人研究也逐漸從傳統(tǒng)的精密控制、精準(zhǔn)性、魯棒性等方向,向更智能化、更通用的方向邁進(jìn)。

從最初的識(shí)別與預(yù)測(cè),到問(wèn)答系統(tǒng),再到后來(lái)的大模型,甚至最近關(guān)于均值計(jì)算的研究,我們也都有所跟進(jìn)。盡管我并不是專(zhuān)門(mén)從事具身智能研究的專(zhuān)家,但我一直密切關(guān)注這一領(lǐng)域的發(fā)展脈絡(luò),也對(duì)它的未來(lái)充滿期待。

夏軒:在專(zhuān)業(yè)背景方面,我早期的研究主要集中于計(jì)算機(jī)視覺(jué)領(lǐng)域(CV),涵蓋無(wú)人機(jī)圖像處理、工業(yè)圖像處理以及生成模型等方向。在擴(kuò)散模型興起之前,我也曾深入?yún)⑴c生成對(duì)抗網(wǎng)絡(luò)(GAN)相關(guān)的工作。

然而,隨著大模型時(shí)代的到來(lái),特別是 ChatGPT 的發(fā)布,在自然語(yǔ)言處理領(lǐng)域引發(fā)了廣泛關(guān)注,并逐漸波及 CV 領(lǐng)域。模型能力的快速提升也在一定程度上壓縮了傳統(tǒng) CV 研究的空間,尤其是SAM(Segment Anything Model)的問(wèn)世,在某種程度上被視為終結(jié)了CV領(lǐng)域的發(fā)展。

因此,大模型和元學(xué)習(xí)技術(shù)的發(fā)展實(shí)際上“侵占”了計(jì)算機(jī)視覺(jué)領(lǐng)域的工作范圍。此時(shí)我也意識(shí)到自己必須進(jìn)行轉(zhuǎn)型。如今大家也看到,許多計(jì)算機(jī)視覺(jué)領(lǐng)域的研究人員正在積極轉(zhuǎn)向具身智能領(lǐng)域,這是因?yàn)榇竽P痛_實(shí)極大地提升了機(jī)器人對(duì)物理世界中實(shí)際的理解以及執(zhí)行和交互能力。

計(jì)算機(jī)視覺(jué)是一門(mén)強(qiáng)調(diào)應(yīng)用的學(xué)科,而具身智能在機(jī)器人上的應(yīng)用恰恰是一個(gè)非常對(duì)口的方向。因此,我從邊緣進(jìn)入具身智能這個(gè)領(lǐng)域時(shí)是從兩個(gè)方面進(jìn)行的:

  • 一方面,是從計(jì)算機(jī)視覺(jué)的角度來(lái)研究機(jī)器人的感知。在感知層面,多模態(tài)模型在信息整合和表達(dá)方面取得了顯著突破,特別是在視覺(jué)-語(yǔ)言對(duì)齊后。然而,這些模型在感知“形式化知識(shí)”方面仍顯不足。例如,GPT-4V 模型在面對(duì)更具結(jié)構(gòu)性的視覺(jué)任務(wù)時(shí),如識(shí)別多邊形的邊數(shù),就存在明顯短板——即便是六邊形或七邊形這樣的基本形狀,也可能出現(xiàn)錯(cuò)誤判斷。這類(lèi)問(wèn)題表明,盡管當(dāng)前的開(kāi)發(fā)模型在某些方面表現(xiàn)出強(qiáng)大的能力,但在感知能力上仍存在明顯的缺陷。因此,如果將這種動(dòng)態(tài)模型應(yīng)用到具身智能領(lǐng)域,可能會(huì)帶來(lái)一些重大的問(wèn)題。因此,我想在形式化知識(shí)的感知方面做一些相關(guān)工作,以解決這類(lèi)問(wèn)題。

  • 另一方面,當(dāng)前具身智能領(lǐng)域在數(shù)據(jù)方面存在一個(gè)很大的瓶頸,這也是我當(dāng)前特別關(guān)注的方向。

黃浴:我最初學(xué)信號(hào)處理出身。在研究生階段,因一次偶然的機(jī)會(huì),我有幸聆聽(tīng)了一位來(lái)自美國(guó)的知名計(jì)算機(jī)視覺(jué)專(zhuān)家 Thomas S. Huang 在西北工業(yè)大學(xué)的學(xué)術(shù)報(bào)告。這場(chǎng)報(bào)告讓我對(duì)計(jì)算機(jī)視覺(jué)產(chǎn)生了極大的興趣,尤其是他提到的一些與國(guó)防相關(guān)的應(yīng)用案例,讓我意識(shí)到這個(gè)領(lǐng)域的潛力和前沿性。因此,在讀博士階段期間,我決定轉(zhuǎn)向計(jì)算機(jī)視覺(jué)方向這一研究方向。

彼時(shí),這一領(lǐng)域尚處于早期階段,研究進(jìn)展相對(duì)緩慢,多數(shù)成果仍停留在實(shí)驗(yàn)室層面。相較于計(jì)算機(jī)視覺(jué),圖像處理的技術(shù)發(fā)展稍為成熟。我還記得我的研究生導(dǎo)師曾講過(guò),在他早期的科研中,處理一幅圖像需要三四個(gè)小時(shí),主要受限于當(dāng)時(shí)的計(jì)算能力和內(nèi)存瓶頸。在那個(gè)時(shí)代,處理視頻任務(wù)幾乎必須依賴(lài)專(zhuān)用加速卡,因?yàn)橥ㄓ糜?jì)算平臺(tái)(例如基于 Windows 系統(tǒng)的 PC)難以勝任高強(qiáng)度圖像處理的需求。在進(jìn)入這個(gè)領(lǐng)域后,我被計(jì)算機(jī)視覺(jué)中嚴(yán)謹(jǐn)?shù)睦碚擉w系和優(yōu)雅的數(shù)學(xué)建模所吸引,特別是在貝葉斯理論和概率圖模型的基礎(chǔ)上,整個(gè)研究框架展現(xiàn)出高度的抽象性和美感。

然而,當(dāng)時(shí)計(jì)算機(jī)視覺(jué)的產(chǎn)業(yè)化路徑非常狹窄,相關(guān)研究多集中在學(xué)術(shù)界。除了少數(shù)幾家企業(yè)開(kāi)展視頻監(jiān)控等初步應(yīng)用,幾乎看不到商業(yè)落地的可能。我們經(jīng)常說(shuō),博士階段的研究往往充滿前沿性和學(xué)術(shù)激情,但進(jìn)入產(chǎn)業(yè)后卻發(fā)現(xiàn)缺乏對(duì)接的市場(chǎng)需求。

在這樣的背景下,我赴美開(kāi)展博士后研究,并逐步將研究方向拓展到基于視覺(jué)的人機(jī)交互。這一方向也受到當(dāng)時(shí)微軟提出的“自然交互”理念啟發(fā),設(shè)想通過(guò)手勢(shì)、語(yǔ)音、眼神等方式代替鼠標(biāo)鍵盤(pán),實(shí)現(xiàn)更直觀的交互方式。然而,實(shí)際進(jìn)展并不理想。無(wú)論是人臉識(shí)別、表情分析,還是語(yǔ)音交互和手勢(shì)識(shí)別,盡管技術(shù)積累不斷豐富,但始終未能突破瓶頸。

在語(yǔ)音識(shí)別領(lǐng)域,即便是 IBM、Intel、AT&T 等公司,在詞匯量上萬(wàn)的條件下也只能達(dá)到約 80% 的識(shí)別準(zhǔn)確率,幾乎停滯在一個(gè)平臺(tái)期。直到深度學(xué)習(xí)的出現(xiàn),才帶來(lái)革命性突破。微軟最早將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,首次將準(zhǔn)確率提升至 90% 以上。這一成果激勵(lì)了整個(gè) AI 領(lǐng)域的轉(zhuǎn)型。

2012 年,AlexNet 在 ImageNet 競(jìng)賽中橫空出世,其準(zhǔn)確率遠(yuǎn)超傳統(tǒng)方法,標(biāo)志著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的正式崛起。隨著工業(yè)界的重視,大量公司開(kāi)始積極招聘視覺(jué)領(lǐng)域的研究人員。大約從 2014 年起,計(jì)算機(jī)視覺(jué)研究的重心逐步轉(zhuǎn)向深度學(xué)習(xí)。

我于 2016 年進(jìn)入自動(dòng)駕駛領(lǐng)域,這一轉(zhuǎn)型也受到 Google 在 2009 年啟動(dòng)無(wú)人駕駛項(xiàng)目的影響。此后至 2020 年,我長(zhǎng)期專(zhuān)注于自動(dòng)駕駛技術(shù)的研發(fā)與產(chǎn)業(yè)化。尤其是在 2019 年之后,特斯拉模式的迅速崛起引發(fā)了行業(yè)重大變革。盡管初期存在多種發(fā)展路線,但市場(chǎng)最終傾向于特斯拉的端到端、自主學(xué)習(xí)驅(qū)動(dòng)的路徑。這一階段,行業(yè)已進(jìn)入“拼成本”與“搶落地”的激烈競(jìng)爭(zhēng)中。

在自動(dòng)駕駛領(lǐng)域深耕多年后,隨著 ChatGPT 的推出,我真正意識(shí)到大模型的顛覆性。盡管此前已有多種大型模型出現(xiàn),但 ChatGPT 展現(xiàn)出的語(yǔ)言理解和推理能力,第一次讓人們開(kāi)始認(rèn)真思考 AI 是否具備“智能”的基本特征。這也促使我轉(zhuǎn)向關(guān)注大模型在具身智能領(lǐng)域的應(yīng)用。

具身智能的潛力遠(yuǎn)超自動(dòng)駕駛,不僅涵蓋更多行業(yè),也為人機(jī)協(xié)作、生產(chǎn)效率、智能服務(wù)等場(chǎng)景提供了廣闊空間。因此,許多自動(dòng)駕駛領(lǐng)域的研究者也開(kāi)始轉(zhuǎn)向這一方向。我逐步將研究重心放在具身智能及其機(jī)器人智能系統(tǒng)上。

目前,我尤為關(guān)注的是如何降低機(jī)器人智能系統(tǒng)的成本。無(wú)論是機(jī)器人還是具身智能平臺(tái),其硬件成本和開(kāi)發(fā)門(mén)檻依然居高不下。我們希望推動(dòng)這一領(lǐng)域像 PC 產(chǎn)業(yè)一樣實(shí)現(xiàn)普及化,讓更多開(kāi)發(fā)者能輕松參與其中,這將極大地促進(jìn) AI 生態(tài)的繁榮。李飛飛教授近期提出的“空間智能”概念,也再次強(qiáng)調(diào)了“交互能力”在智能演化中的核心地位。他指出,僅依靠視覺(jué)進(jìn)行環(huán)境感知的生物,其智能發(fā)展遠(yuǎn)不及能與環(huán)境主動(dòng)交互的生物。因此,具身智能將可能成為推動(dòng)下一代 AI 發(fā)展的關(guān)鍵力量。

我們相信,推動(dòng)具身智能的普及化、平臺(tái)化,可能是實(shí)現(xiàn)真正全民智能社會(huì)的突破口。

唐小引:此前,DeepSeek 團(tuán)隊(duì)發(fā)布了DeepSeek VL2混合專(zhuān)家視覺(jué)語(yǔ)言模型,該模型在計(jì)算機(jī)視覺(jué)應(yīng)用中能夠發(fā)揮重要作用,有望推動(dòng)該領(lǐng)域取得突破性進(jìn)展。在當(dāng)前 AI 發(fā)展的背景下,計(jì)算機(jī)視覺(jué)還是一個(gè)值得長(zhǎng)期投入的方向嗎?

黃浴:多模態(tài)模型的誕生,實(shí)際上改變了我們對(duì)深度學(xué)習(xí)的基本認(rèn)知。過(guò)去,我們主要依賴(lài)小模型來(lái)處理相對(duì)封閉、明確的任務(wù),這在早期取得了不錯(cuò)的效果。但如今,面對(duì)更加復(fù)雜且開(kāi)放的任務(wù)場(chǎng)景,例如開(kāi)放事件識(shí)別、跨領(lǐng)域理解等,我們發(fā)現(xiàn)僅憑有限知識(shí)往往無(wú)法覆蓋全部情況,容易產(chǎn)生遺漏。

如果模型的訓(xùn)練仍局限在封閉的數(shù)據(jù)集或知識(shí)范圍內(nèi),那么后期的所有補(bǔ)充,幾乎都是“事后彌補(bǔ)”的方式。這就導(dǎo)致了數(shù)據(jù)閉環(huán)問(wèn)題反復(fù)出現(xiàn)。即便是深度學(xué)習(xí)框架下的小模型,也因其開(kāi)發(fā)范式的限制,難以有效應(yīng)對(duì)這種復(fù)雜性。

可以說(shuō),視覺(jué)領(lǐng)域在傳統(tǒng)小模型范式下的發(fā)展已接近瓶頸。要突破這一限制,我們必須依賴(lài)大模型的能力。大型模型可以融合來(lái)自多種模態(tài)的信息,將感知、理解、記憶、反思、推理等多個(gè)層面的能力整合在一起,模擬人類(lèi)更全面的智能模式。其中包括了對(duì)內(nèi)容的深入理解、記憶和反思、思維鏈的組織方式等,這些核心認(rèn)知能力的引入,只有在大模型的框架下才有可能實(shí)現(xiàn)。正是這種整合,使得我們有機(jī)會(huì)在計(jì)算機(jī)視覺(jué)、人機(jī)交互以及更廣泛的 AI 應(yīng)用中,實(shí)現(xiàn)真正意義上的躍遷。

在這種情況下,計(jì)算機(jī)視覺(jué)可能會(huì)持續(xù)存在。

唐小引:近兩年不少自動(dòng)駕駛領(lǐng)域的研究者開(kāi)始轉(zhuǎn)向具身智能。那么,自動(dòng)駕駛與具身智能之間究竟有著怎樣的交互關(guān)系?

黃浴在我看來(lái),自動(dòng)駕駛本質(zhì)上就是一種機(jī)器人的應(yīng)用形式。它具備移動(dòng)能力,并能完成一個(gè)明確的任務(wù):把乘客從 A 點(diǎn)安全送到 B 點(diǎn),執(zhí)行的是一種典型的“搬運(yùn)”任務(wù)。

與一些需要更強(qiáng)交互能力的機(jī)器人不同,比如抓取物體、被人牽引、或執(zhí)行復(fù)雜的人機(jī)互動(dòng),自動(dòng)駕駛的核心并不在此。它的重點(diǎn),是感知環(huán)境、規(guī)劃路徑,并最終控制車(chē)輛完成運(yùn)動(dòng)。其實(shí)這和空間智能是密切相關(guān)的。

具體來(lái)說(shuō),自動(dòng)駕駛需要具備感知、規(guī)劃和控制這三個(gè)基本模塊。其中,感知模塊識(shí)別周?chē)h(huán)境;規(guī)劃模塊不僅負(fù)責(zé)整體路徑的制定,還包括中層決策,例如什么時(shí)候轉(zhuǎn)彎、變道或超車(chē);而控制模塊則落實(shí)到對(duì)車(chē)輛的具體操作。通過(guò)反饋機(jī)制,這些控制動(dòng)作可以實(shí)現(xiàn)平穩(wěn)、連續(xù)的執(zhí)行,這種反饋式控制其實(shí)和我們?cè)跈C(jī)器人系統(tǒng)中討論的矩陣控制結(jié)構(gòu)也有一定相似之處。

不過(guò),自動(dòng)駕駛也有其局限。例如,它在“任務(wù)完成之后”的行為模擬上還很薄弱,比如到達(dá)目的地后無(wú)法主動(dòng)避讓行人、與人交互、或進(jìn)行更復(fù)雜的行為協(xié)同。這正是通用機(jī)器人需要補(bǔ)足的能力。

如今,很多機(jī)器人已經(jīng)能夠完成像抓取杯子、碟子,甚至處理堅(jiān)硬物體這樣的任務(wù)。這是否足以支撐智能的發(fā)展?這是值得討論的。我們也看到,越來(lái)越多原本從事自動(dòng)駕駛研究的專(zhuān)家,正在轉(zhuǎn)向更廣義的具身智能領(lǐng)域。

在自動(dòng)駕駛熱潮之前,機(jī)器人技術(shù)的發(fā)展主要由波士頓動(dòng)力這類(lèi)公司推動(dòng),它們?cè)谫Y金支持下,將許多早期 AI 理論真正落地。從符號(hào)主義到規(guī)則系統(tǒng),再到神經(jīng)網(wǎng)絡(luò),最后發(fā)展到強(qiáng)化學(xué)習(xí),這一系列技術(shù)進(jìn)步標(biāo)志著從理論走向?qū)嵺`的轉(zhuǎn)折點(diǎn)。

而現(xiàn)在,我們正處于由“大模型”驅(qū)動(dòng)的新一波智能浪潮中。這些模型極大增強(qiáng)了系統(tǒng)的思維、推理和規(guī)劃能力。從整個(gè) AI 行業(yè)的發(fā)展來(lái)看,自動(dòng)駕駛在過(guò)去曾吸引了大量?jī)?yōu)秀人才,它在技術(shù)集成和產(chǎn)業(yè)落地方面有著天然優(yōu)勢(shì),是通向具身智能的一個(gè)重要橋梁。

這也解釋了,為什么那么多自動(dòng)駕駛領(lǐng)域的人才轉(zhuǎn)向了具身智能。他們帶來(lái)了跨領(lǐng)域的經(jīng)驗(yàn),推動(dòng)了技術(shù)融合與發(fā)展。從這個(gè)意義上說(shuō),自動(dòng)駕駛既是具身智能的人才孵化器,也推動(dòng)了相關(guān)產(chǎn)業(yè)的進(jìn)化,有助于將具身智能真正發(fā)展為未來(lái)的關(guān)鍵產(chǎn)業(yè)。

相比之下,比如語(yǔ)音識(shí)別等領(lǐng)域,雖然也重要,但在集成智能系統(tǒng)方面,可能還不如自動(dòng)駕駛來(lái)得全面和復(fù)雜。而在我觀察中,自動(dòng)駕駛領(lǐng)域的系統(tǒng)適應(yīng)能力也更強(qiáng)。

陳光:智能體的本質(zhì)在于具備“思考”“行動(dòng)”以及“與環(huán)境互動(dòng)”的能力。只要同時(shí)擁有“腦子”(用于思考)、“身體”(用于執(zhí)行)和“環(huán)境”(用于交互),這三要素便構(gòu)成了具身智能的基本框架,也就是我們常說(shuō)的“腦+身”系統(tǒng)。

無(wú)人駕駛汽車(chē)其實(shí)就是一種典型的 Agent,它不僅具備感知、決策和控制的能力,還能在真實(shí)環(huán)境中完成任務(wù)。雖然汽車(chē)不像人形機(jī)器人那樣能夠抓握物體,但它依然通過(guò)感知和控制系統(tǒng)與外部環(huán)境持續(xù)互動(dòng)。例如,在車(chē)聯(lián)網(wǎng)系統(tǒng)中,車(chē)輛之間的信息交換,以及車(chē)輛對(duì)周?chē)h(huán)境的動(dòng)態(tài)反應(yīng),都是“與環(huán)境互動(dòng)”的體現(xiàn)。

這也引出了一個(gè)關(guān)鍵問(wèn)題:具身智能是否一定需要一個(gè)“身體”?英文中的 Embodied Intelligence 強(qiáng)調(diào)了“身體性”的重要性。那么這個(gè)“身體”到底指什么?廣義上看,它并不局限于人形或機(jī)械體。無(wú)人車(chē)、掃地機(jī)器人,甚至是元宇宙中的虛擬 NPC,都可以看作具身智能的載體。

具身智能可以細(xì)分為“思維智能”與“行動(dòng)智能”兩部分:前者包括視覺(jué)感知、語(yǔ)義理解等認(rèn)知能力,后者則關(guān)注如何與環(huán)境互動(dòng)、如何控制身體行為并獲取反饋,從而完成學(xué)習(xí)和演化的閉環(huán)。

僅僅把一個(gè)多模態(tài)大模型裝進(jìn)機(jī)器人里,并不能稱(chēng)之為“智能”。當(dāng)前許多系統(tǒng)仍缺乏主動(dòng)性與任務(wù)意識(shí),智能的真正本質(zhì)在于主體在與環(huán)境互動(dòng)中不斷適應(yīng)與進(jìn)化,而非只是具備感知能力。

因此,廣義的具身智能,強(qiáng)調(diào)的是“有思維、能行動(dòng),并能與環(huán)境持續(xù)互動(dòng)”的系統(tǒng)。它可以是物理的,比如無(wú)人駕駛汽車(chē)、工業(yè)機(jī)器人、無(wú)人機(jī);也可以是虛擬的,比如具備感知與決策能力的元宇宙角色。

從這個(gè)角度看,許多原本從事自動(dòng)駕駛或計(jì)算機(jī)視覺(jué)的專(zhuān)家,如今投身具身智能的研究其實(shí)是順理成章的轉(zhuǎn)變。因?yàn)樗麄冊(cè)揪驮谔幚砀兄Q策與控制等關(guān)鍵問(wèn)題,只不過(guò)現(xiàn)在的研究對(duì)象和應(yīng)用場(chǎng)景更加廣泛和開(kāi)放。

夏軒:我認(rèn)為,除了研究范式的趨同之外,還有一個(gè)重要原因在于產(chǎn)業(yè)鏈的高度重合。自動(dòng)駕駛所涉及的傳感器、環(huán)境建模、導(dǎo)航避障以及人機(jī)交互算法等技術(shù),與機(jī)器人具身智能系統(tǒng)中的需求高度一致。盡管我們?cè)诔擞密?chē)上看不到機(jī)械臂的直接應(yīng)用,但在汽車(chē)生產(chǎn)過(guò)程中,機(jī)械臂早已是關(guān)鍵環(huán)節(jié)。這種技術(shù)與產(chǎn)業(yè)的通用性,使得從自動(dòng)駕駛轉(zhuǎn)向具身智能成為一條自然的路徑。


不同視角看具身智能

唐小引:關(guān)于具身智能,過(guò)去業(yè)界很多討論也常常給人模糊不清的感覺(jué)。請(qǐng)各位老師分享一下自己對(duì)具身智能的理解,以及對(duì)具身智能的定義是什么?

陳光正如教科書(shū)中的定義,具身智能是一種“感知—認(rèn)知—行動(dòng)”的閉環(huán)機(jī)制。簡(jiǎn)單來(lái)說(shuō),就是系統(tǒng)具備“能理解、會(huì)思考、能行動(dòng)”的能力。當(dāng)然,環(huán)境的參與也是不可或缺的。如果一個(gè)系統(tǒng)只能思考和行動(dòng),卻無(wú)法與環(huán)境交互,那它就無(wú)法形成完整的智能閉環(huán)。

具身智能的核心在于:感知環(huán)境、作用于環(huán)境、獲取反饋,并在這一過(guò)程中持續(xù)學(xué)習(xí)、優(yōu)化自身,這其實(shí)也是一種智能的“升級(jí)”機(jī)制。

從這個(gè)角度看,智能系統(tǒng)必須具備三大要素:認(rèn)知、情感與環(huán)境。如果缺失其中任何一個(gè),智能都無(wú)法真正成立。換句話說(shuō),具身智能本質(zhì)上是思維智能與行動(dòng)智能的深度融合,構(gòu)成了一個(gè)動(dòng)態(tài)、自洽的閉環(huán)系統(tǒng)。

黃浴:具身智能首先要有一個(gè)“實(shí)體”,一個(gè)能夠與環(huán)境互動(dòng)并對(duì)其施加影響的身體。這種交互不僅是單向的,而是一個(gè)閉環(huán)的過(guò)程,通過(guò)感知反饋不斷調(diào)整行為,實(shí)現(xiàn)學(xué)習(xí)與進(jìn)化。

關(guān)于具身智能的未來(lái),一個(gè)重要問(wèn)題是:我們是否能在這一領(lǐng)域構(gòu)建出通用大模型?目前,行業(yè)中已有相關(guān)嘗試。例如,英偉達(dá)最近發(fā)布的 Cosmos 世界基礎(chǔ)模型平臺(tái)以及 GROOT 人形機(jī)器人基礎(chǔ)模型,正是在探索這一方向。大家也在討論:機(jī)器人基礎(chǔ)模型能否引發(fā)一波熱潮?如果成功掀起一波浪潮,正如黃仁勛所設(shè)想的那樣,我們將迎來(lái)具身智能的重大躍遷;如果做不起來(lái),可能就像 OpenAI 早前發(fā)布的 Sora 一樣,引發(fā)爭(zhēng)議和反思。

雖然像視頻生成技術(shù)已經(jīng)取得了一定進(jìn)展,但仍面臨諸多挑戰(zhàn)。當(dāng)前的這類(lèi)基礎(chǔ)模型還無(wú)法全面反映現(xiàn)實(shí)中的理論體系,因而常出現(xiàn) Bug,這說(shuō)明模型還需要更多時(shí)間去學(xué)習(xí)與迭代。類(lèi)似問(wèn)題也出現(xiàn)在機(jī)器人領(lǐng)域,像數(shù)據(jù)瓶頸等問(wèn)題,仍制約著具身智能的發(fā)展。

夏軒:我認(rèn)為,具身智能的定義不應(yīng)局限于是否擁有物理實(shí)體。即便是在虛擬空間中,只要具備感知、認(rèn)知與交互能力,一個(gè)虛擬身體同樣可以被視為具身智能的載體。

兩位老師此前提到的關(guān)于“感知—認(rèn)知—交互閉環(huán)”的討論,我覺(jué)得這是從外部視角來(lái)看而對(duì)具身智能的定義。從內(nèi)部視角,我想補(bǔ)充這個(gè)定義。我認(rèn)為,一個(gè)真正“具身智能”應(yīng)該具備兩個(gè)核心的內(nèi)部模型:

  • 第一個(gè)是世界模型世界模型的核心功能是認(rèn)知世界萬(wàn)物的組成,它不僅要理解世界由哪些元素構(gòu)成,還要掌握這些元素如何運(yùn)轉(zhuǎn)——無(wú)論是汽車(chē)行駛、飛機(jī)飛行的原理,具身智能都應(yīng)有能力建模并推理這些機(jī)制。

  • 第二個(gè)是自我模型。它用于智能體理解自身在環(huán)境中的位置、角色和任務(wù)。這一模型對(duì)于智能體在復(fù)雜環(huán)境中做出合理決策和行為至關(guān)重要。

只有具備了這兩個(gè)模型,智能體才能真正實(shí)現(xiàn)與外部世界的“合理互動(dòng)”——也就是說(shuō),其行為不僅對(duì)自身有意義,也能被外部觀察者理解。

唐小引:自我模型究竟是什么?

夏軒:“自我模型”有些類(lèi)似于 Agent,是通過(guò)為大模型賦予角色來(lái)實(shí)現(xiàn)的。一個(gè)更加成熟的自我模型,或許應(yīng)具備更清晰的模塊化結(jié)構(gòu),比如獨(dú)立的記憶模塊、人格模塊,以及道德與倫理模塊等。

這些模塊協(xié)同工作,構(gòu)成一個(gè)能夠持續(xù)自我更新與調(diào)節(jié)的機(jī)制。當(dāng)然,這一設(shè)想仍較為初步,相關(guān)研究尚處于探索階段,尚未形成系統(tǒng)化的方法論。

陳光:這可以從兩個(gè)層面來(lái)理解:一方面是對(duì) Agent 整體的建模,包括其角色設(shè)定與具備某種程度“自我意識(shí)”的決策機(jī)制;另一方面,則涉及視覺(jué)領(lǐng)域中常討論的“以自我為中心”的視覺(jué)與行動(dòng)方式。

我認(rèn)為,當(dāng)前機(jī)器人其實(shí)沒(méi)有“我”的概念。即現(xiàn)有系統(tǒng)在執(zhí)行任務(wù)時(shí),并不真正具備“自我”,它所做的更多是對(duì)意圖的理解、任務(wù)的分解以及行動(dòng)的規(guī)劃,基本上遵循一個(gè)外在指令驅(qū)動(dòng)的流程。在這個(gè)過(guò)程中,它忽略了人作為生物體所具有的獨(dú)特性——特別是人的主觀意識(shí)和自我認(rèn)知。

“自我”這種存在于行動(dòng)或者思考過(guò)程中會(huì)形成兩個(gè)“主體”:一個(gè)是“世界”,一個(gè)是“我”。真正具身智能系統(tǒng)應(yīng)能夠在執(zhí)行任務(wù)的過(guò)程中,考慮到自身與其他智能系統(tǒng)的個(gè)體差異——包括身體特征、習(xí)慣偏好乃至心理狀態(tài)——并在與環(huán)境互動(dòng)時(shí)不斷優(yōu)化這種關(guān)系,從而影響其后續(xù)決策。

然而,目前的機(jī)器人系統(tǒng)更像是任務(wù)執(zhí)行的“工具”,并未體現(xiàn)“我”的個(gè)性。例如,當(dāng)系統(tǒng)被指令“將蘋(píng)果放入盤(pán)中”,它關(guān)注的更多是如何驅(qū)動(dòng)機(jī)械手臂完成動(dòng)作,而不是在什么速度、什么姿態(tài)下完成這一動(dòng)作才最符合“我”的特征和行為風(fēng)格。

我認(rèn)為,這種以“自我”為核心的動(dòng)態(tài)調(diào)整機(jī)制,也應(yīng)是未來(lái)自我模型構(gòu)建的重要方向之一。

黃浴:實(shí)際上,當(dāng)我們談及情感,乃至“自私”或“無(wú)私”的行為時(shí),討論的都是個(gè)體的社會(huì)屬性。在多智能體系統(tǒng)(Multi-Agent System)的研究中,這類(lèi)社會(huì)行為和性格特征已經(jīng)成為重要的探討方向。當(dāng)前,大家對(duì) Agent 的理解已經(jīng)不再局限于具備基本的思維與反思能力,而是逐步發(fā)展為:具備先驗(yàn)知識(shí)、能參與群體互動(dòng),并在協(xié)作中展現(xiàn)群體智能。

近年來(lái),關(guān)于群體智能的具體表現(xiàn)形式也有了更明確的討論。例如,認(rèn)知系統(tǒng)中常被提到的 System 1 和 System 2(對(duì)應(yīng)快速反應(yīng)與慢思考)已經(jīng)廣為人知。而一些研究者進(jìn)一步提出 System 3,用于描述群體智能的運(yùn)作機(jī)制;甚至還有 System 0,用以指代尚未形成認(rèn)知的“預(yù)認(rèn)知狀態(tài)”(pre-cognitive state)。

有人將這種認(rèn)知結(jié)構(gòu)擴(kuò)展為“四系統(tǒng)模型”(Four-System Model),其核心是試圖從系統(tǒng)架構(gòu)角度建模 Agent 群體中的協(xié)作機(jī)制,包括角色分工、任務(wù)協(xié)調(diào)等。

在設(shè)計(jì)這類(lèi)系統(tǒng)時(shí),我們常常會(huì)為每個(gè) Agent 設(shè)定具體角色,例如經(jīng)理、工程師、QA 或項(xiàng)目管理者等,每個(gè)角色承擔(dān)不同職責(zé),從而構(gòu)建出一個(gè)具備協(xié)作能力的多 Agent 系統(tǒng)。

從這個(gè)角度來(lái)看,大模型領(lǐng)域的“專(zhuān)家混合模型”(Mixture-of-Experts)也體現(xiàn)了類(lèi)似的思想:系統(tǒng)由多個(gè)較小模型組成,通過(guò)一個(gè)“路由器”模塊協(xié)調(diào)各模型的調(diào)用,以實(shí)現(xiàn)整體性能的提升。與傳統(tǒng)的大模型相比,MoE 中的各個(gè)子模型通常更小,因此具備更好的靈活性與可擴(kuò)展性。

除此之外,例如 Meta 的Ego4D項(xiàng)目便強(qiáng)調(diào)了“以自我為中心的視覺(jué)”在人與機(jī)器人行為建模中的關(guān)鍵作用。畢竟,不論是人還是機(jī)器人,操作任務(wù)時(shí)幾乎都依賴(lài)這種第一人稱(chēng)視覺(jué)。

然而,在模仿學(xué)習(xí)(Imitation Learning)中,我們通常采用的是第三人稱(chēng)視角,例如通過(guò)觀察他人踢球或做飯來(lái)學(xué)習(xí)動(dòng)作。要將這種觀察轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作,就必須實(shí)現(xiàn)“視角轉(zhuǎn)換”,這對(duì)計(jì)算機(jī)視覺(jué)系統(tǒng)來(lái)說(shuō),等同于坐標(biāo)系的轉(zhuǎn)換。

此外,對(duì)于具身智能系統(tǒng)而言,這種視角的切換也反映了其學(xué)習(xí)能力的核心挑戰(zhàn)。一個(gè)模仿能力強(qiáng)的系統(tǒng),應(yīng)當(dāng)能將第三視角的觀察有效地轉(zhuǎn)化為第一視角的行為策略。實(shí)際上,在執(zhí)行復(fù)雜任務(wù)時(shí),這兩種視角往往需要結(jié)合使用。

陳光:有人認(rèn)為機(jī)器人具備自我是極其危險(xiǎn)的。我認(rèn)為,這種擔(dān)憂可能源于對(duì)“EGO4D”一詞的誤解或混淆。在我們的討論中,“EGO4D”更多指的是主觀視角,即以自我為中心的感知與決策方式。而不少人理解中的“自我”指的是“自我意識(shí)”這一概念,與主觀視角并不等同。因此,關(guān)于人工智能是否能夠、或者是否應(yīng)該擁有自我意識(shí),是一個(gè)至今尚無(wú)定論的開(kāi)放性問(wèn)題,因?yàn)槲覀儗?duì)自我意識(shí)本身的理解仍十分有限。

回到“Agent”這一核心概念。它在具身智能與當(dāng)前基于大模型的 AI 系統(tǒng)中,實(shí)際上指代的是兩類(lèi)不同的智能體:

一方面,在具身智能中,“Agent”通常指的是一個(gè)擁有身體與感知能力、能夠與環(huán)境交互的智能個(gè)體——它不僅僅是思考和推理,更具備行動(dòng)能力和自主反饋機(jī)制。

而另一方面,像 Manus 這類(lèi)系統(tǒng)中的“Agent”,更接近于“代理”角色,它們是大模型前端的執(zhí)行單元,負(fù)責(zé)意圖識(shí)別、任務(wù)分解、工具調(diào)用與結(jié)果整合等。這類(lèi) Agent 更像是一個(gè)任務(wù)管理器或調(diào)度器,強(qiáng)調(diào)的是工程集成能力,而非自主性。這些 Agent 可能基于同一個(gè)底層大模型,通過(guò)不同的設(shè)定與提示詞執(zhí)行各自的任務(wù),比如反思、修正或評(píng)估。這種多輪推理的過(guò)程,本質(zhì)上也是一種由多角色協(xié)作完成的“程序運(yùn)行”,它引入了更多不確定性與反饋機(jī)制,進(jìn)而提高了結(jié)果的魯棒性與智能性。

因此,我們有必要明確區(qū)分這兩種 Agent:一種是具身智能意義上的 Agent,強(qiáng)調(diào)與環(huán)境的交互、自我建模與演化;另一種則是工程意義上的代理 Agent,更側(cè)重于任務(wù)執(zhí)行與系統(tǒng)調(diào)度。雖然在英文中都稱(chēng)作 “Agent”,中文也都翻譯為“智能體”,但兩者內(nèi)涵和能力邊界存在本質(zhì)差異。

目前,一些專(zhuān)家傾向于將后一類(lèi) Agent 稱(chēng)為“代理”,以避免混淆。尤其在當(dāng)前“Agentic Workflow”熱潮背景下,不少觀點(diǎn)認(rèn)為 Manus 一類(lèi)的系統(tǒng)本質(zhì)上更像是工程方案的集成成果,而真正實(shí)現(xiàn)意圖理解、任務(wù)拆解和工具協(xié)同的核心能力,依然來(lái)自底層大模型。因此,從創(chuàng)新性與技術(shù)壁壘的角度來(lái)看,值得更多掌聲的是基礎(chǔ)模型本身。

不過(guò),這也提醒我們,大模型雖強(qiáng),卻只是整個(gè)具身智能系統(tǒng)中的一個(gè)組成部分。完整的智能體還需要依賴(lài)多模態(tài)感知能力、對(duì)世界的建模能力,以及在持續(xù)環(huán)境交互中進(jìn)行自我迭代的機(jī)制。這些能力并不能單靠大模型獨(dú)立完成,而是需要與感知系統(tǒng)、記憶模塊、自我模型等更廣泛的系統(tǒng)架構(gòu)協(xié)同工作。


我們離通用機(jī)器人還有多遠(yuǎn)?

唐小引:黃仁勛認(rèn)為“通用機(jī)器人時(shí)代已經(jīng)到來(lái)”,在大家看來(lái),目前具身智能的發(fā)展現(xiàn)在處于哪個(gè)階段?

陳光:我認(rèn)為,智能的發(fā)展是一個(gè)逐步成熟的過(guò)程。關(guān)于通用具身智能是否已經(jīng)到來(lái),這并不是一個(gè)可以用“是”或“否”簡(jiǎn)單回答的問(wèn)題。所謂“通用”,更像是一個(gè)漸進(jìn)的過(guò)程,而不是某一時(shí)刻的突變。

從目前的情況來(lái)看,我們可以說(shuō)已經(jīng)邁出了通向通用智能的第一步,但要真正實(shí)現(xiàn)全面通用,還有很長(zhǎng)的路要走。當(dāng)前,我們?cè)诩夹g(shù)基礎(chǔ)設(shè)施、算法、傳感器和執(zhí)行器等方面,已接近一個(gè)臨界點(diǎn),技術(shù)成果正在逐漸顯現(xiàn),但從研究到落地仍需時(shí)間。

換句話說(shuō),一只腳已經(jīng)跨入了門(mén)檻,但整個(gè)系統(tǒng)仍在演進(jìn)之中。盡管如此,我們的方向是明確的,正在沿著正確的軌道前進(jìn)。隨著對(duì)通用智能的持續(xù)探索和理解的不斷深化,我相信我們正進(jìn)入一個(gè)令人振奮的新階段。

夏軒:我認(rèn)為,我們現(xiàn)在仍處于“剛剛起步”的階段。無(wú)論是通用機(jī)器人的本體,還是支撐其運(yùn)行的算法與模型,目前都遠(yuǎn)未達(dá)到收斂狀態(tài)。從發(fā)展順序來(lái)看,我判斷算法和模型會(huì)比本體更早接近收斂,但即便如此,這個(gè)過(guò)程在短期內(nèi)也難以完成。因此,我們可以說(shuō),通用機(jī)器人只是剛剛邁出了第一步。

而且,“通用”究竟指的是什么?這一概念本身仍缺乏清晰的定義。在我看來(lái),通用性可以從兩個(gè)層面理解:狹義上,它是指機(jī)器人能復(fù)制人類(lèi)的能力,勝任人類(lèi)日常執(zhí)行的各類(lèi)任務(wù);廣義上,則意味著機(jī)器人還能完成人類(lèi)做不到的事情,具備超越人類(lèi)的能力。

不管從哪個(gè)角度來(lái)看,現(xiàn)階段的機(jī)器人都還遠(yuǎn)未達(dá)到所謂“通用”。比如說(shuō),若想復(fù)現(xiàn)人類(lèi)的復(fù)雜能力,像前空翻、后空翻或側(cè)空翻這些高難度動(dòng)作,雖然人類(lèi)可以輕松完成,但機(jī)器人目前還只能在特定條件下嘗試。再如精細(xì)操作領(lǐng)域,靈巧手的發(fā)展也仍停留在實(shí)驗(yàn)演示階段,離真實(shí)應(yīng)用還有很長(zhǎng)的路要走。

至于實(shí)現(xiàn)“超人類(lèi)能力”的通用性,更是遙遙無(wú)期。特別是在特定場(chǎng)景下,比如水下救援,我們現(xiàn)在仍需要依賴(lài)專(zhuān)業(yè)化的機(jī)器人。通用機(jī)器人尚無(wú)法應(yīng)對(duì)復(fù)雜環(huán)境的適應(yīng)性要求。因此,在可預(yù)見(jiàn)的時(shí)間內(nèi),實(shí)現(xiàn)“通用本體”難度很大。相比之下,構(gòu)建可跨多種平臺(tái)使用的通用算法或模型,也許是更現(xiàn)實(shí)的路徑。我們可以?xún)?yōu)先發(fā)展具備泛化能力的模型,然后再適配到不同的機(jī)器人硬件上。

總的來(lái)說(shuō),具身智能領(lǐng)域算法和模型離真正的“收斂”還很遠(yuǎn),更別說(shuō)達(dá)到類(lèi)似大模型那樣的全局最優(yōu)狀態(tài)。我們確實(shí)只是剛剛啟程。

黃浴:技術(shù)生命周期曲線來(lái)看,具身智能正處于第一個(gè)上升期,也就是早期爬坡階段。同樣從機(jī)器人本體的研究和算法與模型的研究來(lái)看具身智能的發(fā)展。

從本體角度來(lái)看,當(dāng)前機(jī)器人在許多關(guān)鍵能力上仍然存在明顯短板。以觸覺(jué)感知為例,大多數(shù)機(jī)器人并未配備足底觸覺(jué)傳感器,導(dǎo)致其在行走時(shí)不得不依賴(lài)膝蓋彎曲來(lái)保持平衡。為什么人類(lèi)行走時(shí)可以輕松保持直立?這是因?yàn)槲覀兊哪_底具有高度敏感的觸覺(jué)系統(tǒng),能實(shí)時(shí)感知地面信息,從而實(shí)現(xiàn)動(dòng)態(tài)穩(wěn)定。而在缺乏這一感知機(jī)制的情況下,機(jī)器人就如同雜技演員沒(méi)有平衡桿,只能依靠其它關(guān)節(jié)或冗余動(dòng)作維持穩(wěn)定,運(yùn)動(dòng)控制變得極具挑戰(zhàn)。

再來(lái)看機(jī)器人的操作能力。現(xiàn)在我們看到的很多“表演型”人形機(jī)器人,常展示走路、跑步、空翻等動(dòng)作,雖看似高難,實(shí)則偏離了真正的“人類(lèi)任務(wù)”語(yǔ)境。現(xiàn)實(shí)中,一個(gè)人完成任務(wù)往往是全身協(xié)同的結(jié)果。比如端一個(gè)物體時(shí),可能會(huì)用腹部支撐、雙手托舉,同時(shí)還要調(diào)整身體重心維持平衡。這種多點(diǎn)協(xié)作和感知調(diào)控,目前的機(jī)器人系統(tǒng)還難以實(shí)現(xiàn)。

現(xiàn)實(shí)中的機(jī)器人系統(tǒng)往往是“拆分式”的:要么專(zhuān)注行走,要么做導(dǎo)航,要么執(zhí)行某項(xiàng)任務(wù),很少能真正整合多個(gè)功能,像人類(lèi)一樣自然流暢地完成一件完整的事。這就引出了算法方面的挑戰(zhàn)。高自由度系統(tǒng)的控制十分困難,尤其在具身智能中,每增加一個(gè)感知通道(如視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)),模型所需處理的維度就更高,算法的魯棒性也隨之下降。傳統(tǒng)算法設(shè)計(jì)中,我們常用“分治算法(divide and conquer)”策略,把高維問(wèn)題拆解為多個(gè)低維子問(wèn)題。

但問(wèn)題在于,隨著系統(tǒng)維度不斷上升,模型對(duì)擾動(dòng)的敏感性也會(huì)增加,越復(fù)雜的模型越容易出錯(cuò)。以靈巧手為例,過(guò)去我們?cè)诓杉植坎僮鲾?shù)據(jù)時(shí),使用的是數(shù)據(jù)手套,這種方法雖然方便、成本低,但它的自由度遠(yuǎn)遠(yuǎn)不及真實(shí)人手。而當(dāng)前市場(chǎng)上某些高自由度的仿生手系統(tǒng),雖然看起來(lái)“高大上”,卻往往不夠?qū)嵱谩鼈兊目刂茝?fù)雜度極高,需要布置大量電機(jī),成本也非常昂貴。即使現(xiàn)在已有公司嘗試商業(yè)化這些產(chǎn)品,但如果性能、穩(wěn)定性和成本難以平衡,用戶(hù)是否愿意為此買(mǎi)單仍是未知數(shù)。


具身智能的技術(shù)突破該怎么走:緊隨潮流 vs 長(zhǎng)期沉淀

唐小引:從具身智能企業(yè)建設(shè)的視角來(lái)看,有兩個(gè)常被提及的觀點(diǎn):一是順應(yīng)技術(shù)趨勢(shì),二是堅(jiān)持長(zhǎng)期主義。看似矛盾的兩者,在具身智能領(lǐng)域體現(xiàn)得尤為明顯。當(dāng)前,具身智能被視為通往 AGI 的一個(gè)關(guān)鍵方向,正處于快速發(fā)展期,但仍面臨高成本、通用性不足等現(xiàn)實(shí)挑戰(zhàn)。對(duì)于企業(yè)而言,如何在緊抓趨勢(shì)和長(zhǎng)期投入之間找到平衡,即商業(yè)化之路怎么走?對(duì)于個(gè)人,當(dāng)投身于這一領(lǐng)域時(shí),該如何看待職業(yè)發(fā)展與長(zhǎng)期投入的關(guān)系?

陳光:這一問(wèn)題其實(shí)包含兩個(gè)層面:一是研究需要耐得住寂寞,二是應(yīng)用開(kāi)發(fā)不能耐得住寂寞,必須緊跟技術(shù)前沿發(fā)展。

至于開(kāi)發(fā)者在做創(chuàng)新應(yīng)用時(shí)是否應(yīng)該去追逐“通用型機(jī)器人”,核心還是在于“通用性”這個(gè)概念。實(shí)際上,只要一個(gè)任務(wù)可以被清楚地定義,比如“翻跟斗”或“擰瓶蓋”,那它就不再屬于“通用”的范疇,而是一個(gè)具體的功能。即便我們把多個(gè)這樣的任務(wù)組合在一起,也不等于真正意義上的“通用智能”。

我們理想中的“通用性”,是希望機(jī)器能像人一樣,靈活應(yīng)對(duì)各種未知的復(fù)雜情況。但現(xiàn)實(shí)中,只要任務(wù)能被明確描述,大多都可以通過(guò)現(xiàn)有技術(shù),比如強(qiáng)化學(xué)習(xí),在模擬環(huán)境里逐步逼近目標(biāo)。這也帶來(lái)一個(gè)悖論:一旦你能把任務(wù)清楚地說(shuō)出來(lái),它往往就已經(jīng)不是“通用”的了,而變成一個(gè)可定義、可求解的問(wèn)題。

對(duì)產(chǎn)品開(kāi)發(fā)者來(lái)說(shuō),更務(wù)實(shí)的做法是專(zhuān)注在某個(gè)具體場(chǎng)景上,而不是追求“什么都能做”。比如在醫(yī)療或家庭陪護(hù)場(chǎng)景下,如果機(jī)器人能做好三件事:推輪椅、幫老人起身、能簡(jiǎn)單交流——那就已經(jīng)很有價(jià)值了。它可能談不上“通用”,但在家庭陪護(hù)實(shí)際應(yīng)用中,已經(jīng)足夠?qū)嵱谩H缃瘢獙?shí)現(xiàn)“在任何場(chǎng)景下都能勝任任務(wù)”的通用能力,技術(shù)上還遠(yuǎn)未成熟。這一塊的挑戰(zhàn)存在于多個(gè)層面——從感知傳感器、執(zhí)行控制,到大模型本身。雖然大模型已經(jīng)展現(xiàn)出很強(qiáng)的智能,但它對(duì)許多任務(wù)的理解仍不夠深入,尤其在任務(wù)分解上還有明顯的局限。因此,我們必須回歸現(xiàn)實(shí),圍繞明確的場(chǎng)景和需求進(jìn)行有針對(duì)性的設(shè)計(jì)。

其次,對(duì)于研究者與開(kāi)發(fā)者的不同節(jié)奏問(wèn)題,我認(rèn)為,研究確實(shí)需要長(zhǎng)期投入,聚焦一個(gè)方向,并能耐得住長(zhǎng)期沒(méi)有結(jié)果的孤獨(dú)感。我自己做大模型安全相關(guān)的研究就深有體會(huì),比如對(duì)齊問(wèn)題,往往會(huì)犧牲底層模型的能力,這需要反復(fù)探索和權(quán)衡。

但作為開(kāi)發(fā)者,我認(rèn)為要敢于用當(dāng)下最前沿的能力。即便現(xiàn)有模型還有不足,很多場(chǎng)景其實(shí)已能跑通。例如,Agent 其實(shí)早在前年就已出現(xiàn),只是到了 2024 年底,隨著大模型對(duì)任務(wù)拆解、工具調(diào)用能力的提升,它們才真正實(shí)用起來(lái)。我們看到的“Agent 熱潮”,不是偶然,而是底層能力逐漸成熟的結(jié)果。

開(kāi)發(fā)者無(wú)需等到所有技術(shù)都完善才開(kāi)始做產(chǎn)品。相反,應(yīng)在已有能力的基礎(chǔ)上搭建框架、明確路徑,并隨著技術(shù)進(jìn)步逐步完善細(xì)節(jié)。就像過(guò)去一些看似零散的探索,最終構(gòu)建起了完整的智能系統(tǒng)雛形。

要知道,底層模型能力再有限,也有其應(yīng)用場(chǎng)景。關(guān)鍵是開(kāi)發(fā)者要找到那個(gè)“剛剛好”的匹配點(diǎn),真正把技術(shù)用起來(lái)。同時(shí),也需要持續(xù)關(guān)注新技術(shù)的突破,保持學(xué)習(xí)和迭代能力。

我理解的長(zhǎng)期主義,并不是一味死守某個(gè)方向,而是要在一個(gè)價(jià)值取向上持續(xù)投入,不斷適應(yīng)和調(diào)整。在研究領(lǐng)域,可能要忍受長(zhǎng)期沒(méi)有結(jié)果的反饋;但在產(chǎn)品開(kāi)發(fā)中,更應(yīng)重視快速驗(yàn)證和迭代。小步快跑、持續(xù)試錯(cuò),是推動(dòng)創(chuàng)新落地的有效方式。

夏軒:對(duì)開(kāi)發(fā)者,尤其是創(chuàng)業(yè)者來(lái)說(shuō),具身智能的落地更可能首先集中在固定的垂直場(chǎng)景中,而不是追求“萬(wàn)金油”式的通用能力。如果客戶(hù)提出“什么都能干”的需求,那多半是脫離現(xiàn)實(shí)的。

選擇垂直場(chǎng)景時(shí),最好能配套一個(gè)大客戶(hù)。因?yàn)榇罂蛻?hù)不僅意味著穩(wěn)定的支付能力,也能為產(chǎn)品賦能,在應(yīng)用中提供真實(shí)反饋和場(chǎng)景打磨。

在垂直場(chǎng)景之外,我認(rèn)為工業(yè)領(lǐng)域尤其值得關(guān)注。為什么選擇工業(yè)?因?yàn)楣I(yè)場(chǎng)景具備可擴(kuò)展性。相比某些客戶(hù)雖然有付費(fèi)能力但場(chǎng)景單一的情況,工業(yè)系統(tǒng)一旦跑通,就具備復(fù)制和推廣的可能,尤其是在制造業(yè)等領(lǐng)域。在這類(lèi)場(chǎng)景中,模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù)能夠發(fā)揮基礎(chǔ)作用。

雖然我們的最終愿景是讓具身智能進(jìn)入千家萬(wàn)戶(hù),但現(xiàn)實(shí)是這條路注定需要幾年的技術(shù)沉淀。

目前,具身智能無(wú)論是感知還是操作的精度,從實(shí)驗(yàn)室走向真實(shí)世界,仍存在至少兩個(gè)數(shù)量級(jí)的差距。哪怕在某些做得較好的任務(wù)中,其準(zhǔn)確率能達(dá)到 99%,但工業(yè)領(lǐng)域可能需要達(dá)到 99.99%,這就與實(shí)驗(yàn)室目前實(shí)際能達(dá)到的水平相差甚遠(yuǎn)。

因此,對(duì)開(kāi)發(fā)者而言,關(guān)鍵是如何圍繞特定場(chǎng)景持續(xù)提升系統(tǒng)精度,真正實(shí)現(xiàn)技術(shù)的可用和可落地。

唐小引:相比于追求通用機(jī)器人,你們都更強(qiáng)調(diào)開(kāi)發(fā)者應(yīng)聚焦于專(zhuān)用型機(jī)器人。那具身智能未來(lái)最有可能率先落地的三個(gè)典型應(yīng)用場(chǎng)景會(huì)是哪些?

陳光在當(dāng)前技術(shù)尚未完全成熟的情況下,推動(dòng)具身智能落地的關(guān)鍵反而可能來(lái)自需求和資本兩個(gè)層面。從這個(gè)角度看,我認(rèn)為,家庭看護(hù)、家務(wù)服務(wù)是兩個(gè)最基礎(chǔ)、也最現(xiàn)實(shí)的需求方向。

夏軒:如果要給具身智能的應(yīng)用做一個(gè)排序,我的Top 3是這樣的:

  • 第一是檢修類(lèi)場(chǎng)景。無(wú)論是電力檢修,還是汽車(chē)維修,都高度依賴(lài)人工,而在實(shí)際生活中我們往往忽視了汽車(chē)維修行業(yè)的規(guī)模和復(fù)雜性。實(shí)際上,每天都有大量車(chē)輛需要維修、保養(yǎng),是一個(gè)典型的、高頻次的剛需場(chǎng)景,非常適合智能化介入。這個(gè)場(chǎng)景的復(fù)雜性在于,每天都會(huì)遇到各種不同類(lèi)型的問(wèn)題,車(chē)輛狀況千差萬(wàn)別,對(duì)機(jī)器人提出了更高的感知、分析和交互能力要求。如果能在這一領(lǐng)域?qū)崿F(xiàn)突破,將會(huì)非常有價(jià)值。

  • 第二是工業(yè)制造場(chǎng)景。當(dāng)前自動(dòng)化水平高的工廠可能暫時(shí)不適合部署人形機(jī)器人,因?yàn)橐延辛鞒桃呀?jīng)足夠高效。但對(duì)于那些自動(dòng)化水平尚不高的工廠來(lái)說(shuō),直接引入具身智能體甚至比升級(jí)現(xiàn)有自動(dòng)化設(shè)備更劃算。它們可能跳過(guò)傳統(tǒng)自動(dòng)化階段,直接進(jìn)入智能化階段。當(dāng)然,這背后也需要進(jìn)行相應(yīng)的環(huán)境改造,以便機(jī)器人能更好地適應(yīng)和操作。但如果從長(zhǎng)期成本和靈活性角度來(lái)看,使用人形機(jī)器人替代人工,反而是更具性?xún)r(jià)比的選擇

  • 第三是家庭場(chǎng)景不過(guò)我認(rèn)為,家庭領(lǐng)域的落地還需要更長(zhǎng)的時(shí)間,短期內(nèi)并不具備規(guī)模化部署的成熟條件。一個(gè)主要問(wèn)題是安全性,家庭機(jī)器人可能踩到障礙物后跌倒造成安全隱患;另一個(gè)是當(dāng)前有很多家庭未必能夠負(fù)擔(dān)得起購(gòu)買(mǎi)人形機(jī)器人。我認(rèn)為,最早實(shí)現(xiàn)商業(yè)落地的將是某個(gè)垂直領(lǐng)域,且該領(lǐng)域內(nèi)存在愿意付費(fèi)的大客戶(hù)。

所以從我的角度來(lái)看,工業(yè)場(chǎng)景因其規(guī)模化潛力,即使利潤(rùn)微薄,只要市場(chǎng)規(guī)模得以突破,仍能帶來(lái)可觀的收入。然而,直接進(jìn)入消費(fèi)市場(chǎng)若生產(chǎn)過(guò)剩而無(wú)法銷(xiāo)售,則可能會(huì)遭受重大虧損。

黃浴:關(guān)于前面提到的通用型機(jī)器人,也就是能夠勝任多種任務(wù)的機(jī)器人,英偉達(dá)近期的研究成果似乎讓通向通用人形機(jī)器人的路徑變得更加明晰。根據(jù)最新的報(bào)告顯示,研究人員普遍認(rèn)為,F(xiàn)igure 的 Helix 中所提出的“系統(tǒng)一”(快系統(tǒng))和“系統(tǒng)二”(慢系統(tǒng))的雙系統(tǒng)架構(gòu),可能是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。

在這個(gè)架構(gòu)中,“慢系統(tǒng)”利用大型模型的推理能力處理復(fù)雜問(wèn)題,而“快系統(tǒng)”則借助類(lèi)似 Transformer 的結(jié)構(gòu)進(jìn)行快速響應(yīng)。例如,F(xiàn)igure 的 Helix 模型可實(shí)現(xiàn)約 200 赫茲的響應(yīng)頻率。英偉達(dá)近期的報(bào)告中也提出了兩類(lèi)模型:一類(lèi)用于推理,另一類(lèi)針對(duì)人形機(jī)器人設(shè)計(jì),其架構(gòu)同樣體現(xiàn)出快慢系統(tǒng)協(xié)同的理念。這種方式為通用機(jī)器人的實(shí)現(xiàn)提供了一種思路。

從人類(lèi)的學(xué)習(xí)過(guò)程看,這種“快慢系統(tǒng)”機(jī)制也有對(duì)應(yīng)。比如學(xué)習(xí)騎自行車(chē),最初大腦高度參與,需要不斷學(xué)習(xí)、模仿、練習(xí);而一旦掌握后,騎行幾乎不再依賴(lài)大腦主動(dòng)控制,這正是所謂的“肌肉記憶”。

事實(shí)上,人類(lèi)從幼兒期開(kāi)始就不斷通過(guò)這種方式積累技能。比如學(xué)走路,一旦掌握,成年后幾乎不會(huì)忘記。除非出現(xiàn)老年退化或疾病,大多數(shù)人都能自然行走。因此,實(shí)現(xiàn)通用機(jī)器人的一大關(guān)鍵,在于如何讓其掌握并組織復(fù)雜或熟練的技能,并具備持續(xù)學(xué)習(xí)與演化的能力。

通用機(jī)器人還應(yīng)具備自主學(xué)習(xí)能力,而非依賴(lài)人工介入。比如,如果我讓一個(gè)機(jī)器人執(zhí)行某個(gè)動(dòng)作,然后它能夠自行掌握該動(dòng)作,那么我們就實(shí)現(xiàn)了通用機(jī)器人。否則,我認(rèn)為它還不能被稱(chēng)為通用機(jī)器人,這實(shí)際上是一種持續(xù)學(xué)習(xí)的能力。

從機(jī)器人本體層面看,目前機(jī)器人的靈活性仍不成熟。尤其是在靈巧度方面,諸如轉(zhuǎn)動(dòng)筆這類(lèi)動(dòng)作,需要高度精細(xì)的手指控制與觸覺(jué)反饋,而這是當(dāng)前機(jī)器人尚難企及的能力。缺乏靈巧硬件支撐,通用機(jī)器人的實(shí)現(xiàn)仍有距離。

談到機(jī)器人最能落地的應(yīng)用場(chǎng)景,我認(rèn)為最容易實(shí)現(xiàn)的是生產(chǎn)線上使用的機(jī)器人,因?yàn)槠淙蝿?wù)明確、可拆解。而最具挑戰(zhàn)性的場(chǎng)景,則是涉及高危或高互動(dòng)性的工作,尤其是與人密切協(xié)作的情境。

例如,機(jī)器人照顧老人或小孩,這類(lèi)任務(wù)安全性要求極高,很難放心完全交由機(jī)器人獨(dú)立完成。相比之下,那些不需人類(lèi)陪伴、可獨(dú)立作業(yè)的場(chǎng)景更適合目前的機(jī)器人能力。比如執(zhí)行分揀、清理或危險(xiǎn)作業(yè),這些都可以視為更現(xiàn)實(shí)的應(yīng)用方向。


直擊具身智能痛點(diǎn):數(shù)據(jù)瓶頸、計(jì)算瓶頸、模型架構(gòu)

唐小引:在具身智能研究中,數(shù)據(jù)瓶頸是一個(gè)公認(rèn)的關(guān)鍵問(wèn)題。除了數(shù)據(jù)瓶頸外,計(jì)算資源和模型架構(gòu)也存在諸多挑戰(zhàn)。請(qǐng)各位老師結(jié)合自己的觀察談一談這三大痛點(diǎn)問(wèn)題?

夏軒具身智能中的數(shù)據(jù)本質(zhì)上是為模型服務(wù)的,而模型類(lèi)型決定了所需的數(shù)據(jù)類(lèi)型。目前主流模型分為兩類(lèi):分層決策模型和端到端模型。這兩類(lèi)模型還可以細(xì)分為不同形式,比如分層決策模型可以分為快慢系統(tǒng)(類(lèi)似大腦與小腦的分工)或大腦直接調(diào)用各類(lèi)技能模塊。有些技能模型專(zhuān)門(mén)負(fù)責(zé)抓取、按鈕操作等具體功能。

針對(duì)可學(xué)習(xí)的模塊,大致可以分為四種:大腦模型、技能模型、小腦模型,以及端到端模型。不同模型對(duì)訓(xùn)練數(shù)據(jù)的需求差異顯著。

其中,大腦模型實(shí)際上相當(dāng)于一個(gè)大型通用模型。它不僅需要掌握物理世界的常識(shí),還要理解人類(lèi)指令、技能等,這要求覆蓋大量場(chǎng)景、任務(wù)、機(jī)器人類(lèi)型和傳感器配置。為了滿足多樣性要求,單一組織很難獨(dú)立采集足夠豐富的數(shù)據(jù)。此外,結(jié)合人類(lèi)演示與機(jī)器人感知數(shù)據(jù)時(shí),如何保證數(shù)據(jù)質(zhì)量也是一大挑戰(zhàn),數(shù)據(jù)質(zhì)量評(píng)估成為瓶頸之一。

另一個(gè)問(wèn)題是,真實(shí)數(shù)據(jù)的采集速度只能線性增長(zhǎng)——增加人力與設(shè)備只能帶來(lái)成比例的提升。而模型性能提升遵循 Scaling Law,呈指數(shù)增長(zhǎng),導(dǎo)致數(shù)據(jù)增長(zhǎng)速度遠(yuǎn)遠(yuǎn)跟不上模型訓(xùn)練需求。

在這種情況下,合成數(shù)據(jù)成為重要補(bǔ)充。但合成數(shù)據(jù)的效果又高度依賴(lài)仿真平臺(tái)的擬真程度,而現(xiàn)有仿真技術(shù)仍無(wú)法完美還原真實(shí)世界。因此,如何合理結(jié)合真實(shí)數(shù)據(jù)與合成數(shù)據(jù),成為當(dāng)前學(xué)界關(guān)注的重要問(wèn)題,但仍缺乏成熟答案。

黃浴我認(rèn)為,最理想的數(shù)據(jù)來(lái)源是人類(lèi),如果能直接應(yīng)用于機(jī)器人,那無(wú)疑是最佳選擇。但實(shí)際上,人類(lèi)數(shù)據(jù)很難直接獲取。比如,通過(guò)觀察視頻,很難準(zhǔn)確提取出類(lèi)似機(jī)器人數(shù)據(jù)中的關(guān)節(jié)軌跡和運(yùn)動(dòng)信息。因此,目前最優(yōu)質(zhì)、最可控的數(shù)據(jù)往往是通過(guò)機(jī)器輔助生成的,比如借助外骨骼設(shè)備等。

在這過(guò)程中,出現(xiàn)了一個(gè)過(guò)渡階段,即利用 VR 設(shè)備輔助數(shù)據(jù)采集。通過(guò)佩戴 VR 頭盔并執(zhí)行特定動(dòng)作,再結(jié)合 VR 設(shè)備中傳感器對(duì)動(dòng)作進(jìn)行標(biāo)注,可以一定程度上彌補(bǔ)人類(lèi)數(shù)據(jù)難以直接使用的問(wèn)題。總體而言,在當(dāng)前階段,機(jī)器人數(shù)據(jù)相對(duì)容易采集,而人類(lèi)數(shù)據(jù)標(biāo)注則成本高昂且困難重重。

雖然互聯(lián)網(wǎng)上有海量視頻,但現(xiàn)有人工智能技術(shù)在動(dòng)作提取和精確標(biāo)注方面的準(zhǔn)確率仍然很低,因此依然難以大規(guī)模直接利用。這也導(dǎo)致目前幾乎所有具身智能研究者都承認(rèn),數(shù)據(jù)缺失是一個(gè)普遍痛點(diǎn)。

要真正解決這一問(wèn)題,或許只能依賴(lài)分布式采集和建設(shè)。例如,Google 正在嘗試通過(guò)大規(guī)模收集機(jī)器人交互數(shù)據(jù)來(lái)構(gòu)建以及訓(xùn)練一款基礎(chǔ)模型。但對(duì)大部分開(kāi)發(fā)者和中小型團(tuán)隊(duì)來(lái)說(shuō),更現(xiàn)實(shí)的路徑可能是通過(guò)“平民化”的方式,以最低成本去采集和使用數(shù)據(jù)。數(shù)據(jù)采集和處理后,再盡可能提升數(shù)據(jù)的泛化能力,減少模型對(duì)具體實(shí)體和場(chǎng)景的依賴(lài),也能大大提高數(shù)據(jù)的重復(fù)利用率。

我認(rèn)為,這種以低成本快速迭代、落地應(yīng)用,再通過(guò)逐步實(shí)現(xiàn)商業(yè)價(jià)值,進(jìn)而回收成本,最終反哺數(shù)據(jù)質(zhì)量提升的模式,可能是最符合當(dāng)前產(chǎn)業(yè)發(fā)展需求的一條路徑。畢竟,即使是像 Google 這樣資源豐富的公司,也難以長(zhǎng)期承擔(dān)純靠高投入堆砌數(shù)據(jù)的方式。

當(dāng)然,短期內(nèi)我們也能看到一些經(jīng)驗(yàn)教訓(xùn)。在大語(yǔ)言模型早期發(fā)展階段,訓(xùn)練數(shù)據(jù)主要是文本,且絕大部分是英文。這些數(shù)據(jù)來(lái)源廣泛、共享良好,且利用自監(jiān)督學(xué)習(xí)的方法(如 Masked Language Modeling)基本不需要額外標(biāo)注,極大降低了成本。而具身智能則不同,一開(kāi)始就缺少可以直接用的大規(guī)模高質(zhì)量數(shù)據(jù)。

因此,相比當(dāng)年 LLM 面臨的問(wèn)題,如今具身智能在數(shù)據(jù)上要艱難得多。當(dāng)前,我們不僅要解決存儲(chǔ)、計(jì)算資源、模型架構(gòu)的問(wèn)題,更要優(yōu)先突破數(shù)據(jù)瓶頸。沒(méi)有足夠好、足夠多的數(shù)據(jù)支撐,后續(xù)的分析和模型優(yōu)化都難以為繼。

如果我們能率先降低數(shù)據(jù)獲取和處理的難度,后續(xù)在計(jì)算和模型架構(gòu)上的突破也有望加速到來(lái)。

陳光很多之前接觸技術(shù)不多的朋友可能會(huì)疑惑:為什么具身智能需要如此大量的交互數(shù)據(jù)?實(shí)際上,人類(lèi)的學(xué)習(xí)有兩種基本方式:一種是通過(guò)示范學(xué)習(xí),比如觀看視頻、模仿他人的操作,從中理解并習(xí)得經(jīng)驗(yàn);另一種則是通過(guò)親身實(shí)踐,在與環(huán)境的持續(xù)交互中積累知識(shí)。

對(duì)于具身智能而言,它實(shí)際上是一個(gè)以環(huán)境交互為核心的機(jī)制。因此,通過(guò)自身的體驗(yàn)來(lái)學(xué)習(xí),是目前最有效且高效的方法。雖然現(xiàn)在也有模仿學(xué)習(xí),比如通過(guò) YouTube 視頻訓(xùn)練模型,但在實(shí)際應(yīng)用中,這類(lèi)方法在遷移能力、魯棒性等方面仍面臨巨大挑戰(zhàn)。

舉個(gè)例子,比如實(shí)現(xiàn)機(jī)器人“踹不倒”的功能,只有當(dāng)它真正經(jīng)歷了失去平衡、重新調(diào)整、恢復(fù)穩(wěn)定的全過(guò)程,機(jī)器人才能收集到有價(jià)值的數(shù)據(jù),用于強(qiáng)化學(xué)習(xí)。這種通過(guò)親身體驗(yàn)獲得的數(shù)據(jù),是提升模型能力的關(guān)鍵資源。

相比之下,像 AlphaGo 這樣的系統(tǒng)能夠快速提升,是因?yàn)樗鼈兛梢栽谔摂M環(huán)境中無(wú)限次地進(jìn)行自我博弈,快速累積經(jīng)驗(yàn)。但具身智能要想通過(guò)仿真環(huán)境采集數(shù)據(jù),要求極高。環(huán)境模擬不僅要精準(zhǔn),還需要考慮氣溫、氣壓、地面摩擦力等復(fù)雜因素。當(dāng)前的仿真系統(tǒng)很難達(dá)到這種精度,因此,許多關(guān)鍵數(shù)據(jù)必須在真實(shí)世界中采集。但現(xiàn)實(shí)世界的數(shù)據(jù)采集受限于物理時(shí)間和資源成本,沒(méi)有“加速鍵”,無(wú)法像虛擬環(huán)境那樣批量生成。

因此,解決數(shù)據(jù)瓶頸,需要從多個(gè)方向同時(shí)推進(jìn):

  • 首先是自監(jiān)督物理探索。就像我們?cè)谔摂M世界或 VR 中做的那樣,讓機(jī)器人自主探索環(huán)境、生成數(shù)據(jù),無(wú)需大量人工干預(yù)。

  • 其次是生成式合成數(shù)據(jù)。可以借助大模型,像天氣預(yù)報(bào)那樣,通過(guò)擬合真實(shí)世界中各種復(fù)雜因素(如擴(kuò)散模型、Transformer 等),生成更加精確可靠的訓(xùn)練數(shù)據(jù)。

  • 此外,我們還應(yīng)打破傳統(tǒng)從模擬到現(xiàn)實(shí)(Sim2Real)的一條路思維。未來(lái),更理想的方式是現(xiàn)實(shí)與模擬的雙向融合:在真實(shí)世界中采集那些低成本、高價(jià)值的數(shù)據(jù),在仿真環(huán)境中生成難以直接獲得的數(shù)據(jù)。對(duì)于任務(wù)精度要求不高的部分,可以充分發(fā)揮仿真的效率,形成現(xiàn)實(shí)與仿真的混合訓(xùn)練體系,從而緩解當(dāng)前數(shù)據(jù)不足的問(wèn)題。

  • 另一個(gè)方向是少樣本學(xué)習(xí)。很多物理規(guī)律,尤其是稀有、小概率現(xiàn)象(比如杯子破碎、水穿杯子等現(xiàn)象),在傳統(tǒng)采集中容易被忽略。通過(guò)少量示范提煉出普適知識(shí),能有效補(bǔ)足這類(lèi)罕見(jiàn)場(chǎng)景的數(shù)據(jù)空缺。

  • 同時(shí),多智能體(Multi-Agent)學(xué)習(xí)也是突破口之一。比如 Meta 研究的多智能體協(xié)作逃離迷宮,就是通過(guò)多個(gè) Agent 互相傳遞經(jīng)驗(yàn),降低單體學(xué)習(xí)對(duì)數(shù)據(jù)量的要求。這種經(jīng)驗(yàn)共享機(jī)制,能顯著提升學(xué)習(xí)效率。

  • 最后,機(jī)器人自身的內(nèi)在驅(qū)動(dòng)力設(shè)計(jì)也很關(guān)鍵。當(dāng)前機(jī)器人在探索環(huán)境時(shí),普遍缺乏“好奇心”,導(dǎo)致數(shù)據(jù)收集效率低。注入好奇心機(jī)制,不僅能讓機(jī)器人更主動(dòng)探索,還能實(shí)現(xiàn)長(zhǎng)時(shí)間持續(xù)的數(shù)據(jù)收集。例如,一個(gè)具備好奇心的機(jī)器人,能做到 24 小時(shí)不間斷地在環(huán)境中學(xué)習(xí)和記錄,這對(duì)緩解數(shù)據(jù)瓶頸意義重大。

綜上所述,雖然具身智能這條路充滿挑戰(zhàn),但也蘊(yùn)藏著希望。那些易于獲取的成果,如同低垂的果實(shí),早已經(jīng)被摘取了,未來(lái)的發(fā)展必然是逐步攻克越來(lái)越難的技術(shù)壁壘。這不僅需要時(shí)間,還需要各類(lèi)技術(shù)積累與組合創(chuàng)新的共同推進(jìn)。


未來(lái)展望

唐小引:在大模型領(lǐng)域,大家對(duì)未來(lái)的關(guān)注集中在 Agent、Scaling Law 等方向上。那在具身智能領(lǐng)域,其未來(lái)有哪些值得關(guān)注的方向以及趨勢(shì)?

陳光從長(zhǎng)期發(fā)展的角度看,我們可以觀察到幾個(gè)明顯的趨勢(shì)。

首先,具身智能正從性能優(yōu)化轉(zhuǎn)向適應(yīng)性設(shè)計(jì)。其中性能優(yōu)化主要涉及到機(jī)體性能的提升,或是智能思考、任務(wù)分解與規(guī)劃能力的增強(qiáng)。但相比之下,適應(yīng)性顯得更為關(guān)鍵。當(dāng)前機(jī)器人大多只能完成預(yù)設(shè)任務(wù),若要邁向通用化,必須強(qiáng)化環(huán)境適應(yīng)與新任務(wù)應(yīng)對(duì)能力。因此,適應(yīng)性設(shè)計(jì)將成為未來(lái)發(fā)展的核心關(guān)注點(diǎn)。

其次,是從確定性控制轉(zhuǎn)向概率性思維。因?yàn)楝F(xiàn)實(shí)世界本質(zhì)上充滿了不確定性和隨機(jī)性。對(duì)規(guī)律的認(rèn)識(shí)與世界的建模,關(guān)鍵在于如何在確定性中融入不確定性,或者在不確定性中體現(xiàn)確定性。因此,從大模型應(yīng)用到具身智能設(shè)計(jì),再到環(huán)境交互,概率性思維是關(guān)鍵一環(huán)。

再者,具身智能正從分析還原走向整體涌現(xiàn)。過(guò)去,機(jī)器人主要通過(guò)合成數(shù)據(jù)和真實(shí)數(shù)據(jù)學(xué)習(xí)經(jīng)驗(yàn)、知識(shí)與技能,以實(shí)現(xiàn)更自然的交互。而未來(lái),我們將見(jiàn)證具身智能實(shí)現(xiàn)類(lèi)似于 ChatGPT 到 OpenAI o1 的轉(zhuǎn)變,它將在多輪、多智能體交互中展現(xiàn)更強(qiáng)的智能與動(dòng)態(tài)邏輯性。

最后,具身智能的機(jī)器人正逐步從工具屬性轉(zhuǎn)向伙伴屬性。這與我們使用大語(yǔ)言模型的方式類(lèi)似:不僅僅讓它們完成特定任務(wù),而是與它們共同探討問(wèn)題解決方案。這種范式的變化正在加速,就像許多影視作品中描繪的一樣,現(xiàn)實(shí)中也已有初步的體現(xiàn)。以《鋼鐵俠》中的JARVIS為例,它不僅是一個(gè)工具式的API,還能提供建議、協(xié)助頭腦風(fēng)暴,甚至參與設(shè)計(jì)過(guò)程。正是這種協(xié)作與伙伴式的交互,帶來(lái)了更豐富的體驗(yàn)與功能。

以上四個(gè)方向,無(wú)論是對(duì)研究者還是開(kāi)發(fā)者來(lái)說(shuō),在未來(lái)都值得重點(diǎn)關(guān)注。

黃浴在數(shù)據(jù)方面,我認(rèn)為有兩點(diǎn)尤為重要:一是如何構(gòu)建高質(zhì)量數(shù)據(jù),二是如何高效利用現(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)。人類(lèi)創(chuàng)建的數(shù)據(jù)始終備受關(guān)注,一方面因?yàn)樗兄诰徑馕磥?lái)可能面臨的數(shù)據(jù)匱乏,另一方面也與仿真技術(shù)的發(fā)展密切相關(guān)。合成數(shù)據(jù)長(zhǎng)期以來(lái)被視為彌補(bǔ)數(shù)據(jù)不足的有效手段。

近期,無(wú)論是Sim-to-Real還是Real-to-Sim的閉環(huán)過(guò)程中,都能看到計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)ι窠?jīng)渲染技術(shù)的持續(xù)探索。比如早期的NeRF,以及近年來(lái)出現(xiàn)的Gaussian Splatting(高斯濺射),這類(lèi)技術(shù)不僅能夠基于真實(shí)數(shù)據(jù)重建高逼真場(chǎng)景,還能大幅提升仿真環(huán)境的質(zhì)量,因此成為當(dāng)前的研究熱點(diǎn)。

從具身智能的視角來(lái)看,數(shù)據(jù)問(wèn)題本質(zhì)上也是一個(gè)AI問(wèn)題,涉及安全性、可解釋性等核心挑戰(zhàn)。同時(shí),模型的泛化能力也是未來(lái)的關(guān)鍵議題——即能否在新環(huán)境、新任務(wù)下快速適應(yīng),實(shí)現(xiàn)舉一反三。特別是在目標(biāo)、環(huán)境或任務(wù)發(fā)生變化時(shí),模型如果無(wú)法及時(shí)調(diào)整,就難以在實(shí)際應(yīng)用中發(fā)揮價(jià)值。比如在自動(dòng)駕駛領(lǐng)域,適應(yīng)速度就是衡量智能系統(tǒng)性能的重要指標(biāo)。

最后,我們也在關(guān)注底層智能對(duì)社會(huì)產(chǎn)生的深遠(yuǎn)影響,包括與人文、倫理及社會(huì)變革相關(guān)的問(wèn)題。

夏軒關(guān)于具身智能,未來(lái)的發(fā)展趨勢(shì)可以歸納為以下幾點(diǎn)。

  • 首先,在數(shù)據(jù)方面,未來(lái)需要更大規(guī)模、更高效的數(shù)據(jù)生產(chǎn)手段。盡管我們可以通過(guò)合成數(shù)據(jù)或互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練基礎(chǔ)模型,但在真正應(yīng)用到具體機(jī)器人時(shí),仍離不開(kāi)針對(duì)性的真實(shí)數(shù)據(jù)微調(diào)。因此,如何提升數(shù)據(jù)采集效率,成為亟待解決的關(guān)鍵問(wèn)題。

  • 第二,模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的融合將成為趨勢(shì)。這二者各有優(yōu)劣:模仿學(xué)習(xí)依靠觀察獲得能力,強(qiáng)化學(xué)習(xí)通過(guò)環(huán)境交互進(jìn)行優(yōu)化。單獨(dú)使用時(shí),二者在準(zhǔn)確性和收斂速度上各有局限。近年來(lái),越來(lái)越多研究者探索將二者結(jié)合,相信這一方向?qū)⒃诓痪玫膶?lái)帶來(lái)重要突破。

  • 第三,具身智能的系統(tǒng)架構(gòu)正在經(jīng)歷從分層決策到端到端,再回到分層決策的演變。早期采用“大小腦”式分層結(jié)構(gòu),強(qiáng)調(diào)工程實(shí)現(xiàn);后來(lái),端到端方法尤其以特斯拉的自動(dòng)駕駛技術(shù)為代表,一度受到高度評(píng)價(jià),引發(fā)了是否可以全面端到端的討論。但實(shí)踐證明,端到端方法在推理效率和實(shí)時(shí)性方面存在局限。因此,業(yè)界又開(kāi)始關(guān)注快慢系統(tǒng)的分層組合。我個(gè)人認(rèn)為,這種模式更接近人類(lèi)認(rèn)知處理方式,未來(lái)有望成為主流。

  • 第四,具身智能的最終目標(biāo)是通用性,而人形機(jī)器人則是實(shí)現(xiàn)這一目標(biāo)的重要載體。實(shí)現(xiàn)通用性要求機(jī)器人能夠適應(yīng)人類(lèi)環(huán)境,具備良好的環(huán)境兼容性、地形通過(guò)性和工具使用能力。此外,協(xié)作兼容性同樣重要。為了在家庭等場(chǎng)景中安全應(yīng)用機(jī)器人,需要確保它們?cè)谂c人類(lèi)共處時(shí)不會(huì)造成潛在傷害。若一個(gè)人形機(jī)器人動(dòng)作失控,對(duì)周?chē)嗽斐蓚Γ@然是不可接受的。因此,初期可以?xún)?yōu)先將人形機(jī)器人部署在不易造成人身風(fēng)險(xiǎn)的場(chǎng)景中,逐步打磨其與人類(lèi)的協(xié)作能力。

  • 最后,還需要關(guān)注機(jī)器人的環(huán)境適應(yīng)細(xì)節(jié)。例如,當(dāng)機(jī)器人進(jìn)入室內(nèi)時(shí),如何應(yīng)對(duì)鞋底沾泥的問(wèn)題?未來(lái),機(jī)器人需要具備自行更換鞋子的能力,而不是依賴(lài)人類(lèi)操作。這類(lèi)看似細(xì)小的場(chǎng)景細(xì)節(jié),其實(shí)都直接關(guān)系到機(jī)器人能否真正融入人類(lèi)日常生活。

關(guān)于《萬(wàn)有引力》:

這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對(duì)話欄目。技術(shù)趨勢(shì)多變,一不留神總擔(dān)心錯(cuò)過(guò)。正在發(fā)生的技術(shù)事件,對(duì)于我們開(kāi)發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬(wàn)有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。

  • 欄目定位:一檔面向開(kāi)發(fā)者群體,聚焦解讀技術(shù)事件的對(duì)話直播欄目。

  • 直播觀看平臺(tái):CSDN 視頻號(hào)、CSDN 網(wǎng)站 & App

  • 多形式:文章、視頻、音頻都會(huì)有,持續(xù)關(guān)注 CSDN 公眾號(hào)都可獲取。目前《萬(wàn)有引力》欄目已上線小宇宙平臺(tái),歡迎大家關(guān)注!

2025 全球產(chǎn)品經(jīng)理大會(huì)

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產(chǎn)品經(jīng)理大會(huì)將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計(jì)、用戶(hù)體驗(yàn)、增長(zhǎng)運(yùn)營(yíng)、智能落地等核心議題,展開(kāi) 12 大專(zhuān)題分享,洞察趨勢(shì)、拆解路徑、對(duì)話未來(lái)。

更多詳情與報(bào)名,請(qǐng)掃碼下方二維碼。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大S兒女過(guò)兒童節(jié),和汪小菲夫婦聚餐曝光,小玥兒穿新衣被夸漂亮

大S兒女過(guò)兒童節(jié),和汪小菲夫婦聚餐曝光,小玥兒穿新衣被夸漂亮

古希臘掌管月桂的神
2025-06-02 10:40:32
樊振東加盟德國(guó)乒乓球俱樂(lè)部,中國(guó)乒協(xié):理解尊重,全力支持

樊振東加盟德國(guó)乒乓球俱樂(lè)部,中國(guó)乒協(xié):理解尊重,全力支持

政知新媒體
2025-06-01 12:43:51
民國(guó)的三大憾:中山引狼入室,學(xué)良適得其反,適之機(jī)場(chǎng)痛哭

民國(guó)的三大憾:中山引狼入室,學(xué)良適得其反,適之機(jī)場(chǎng)痛哭

深度報(bào)
2025-05-31 22:51:49
再戰(zhàn)薩巴倫卡!鄭欽文展望:紅土比她得心應(yīng)手,會(huì)拼搏到最后一刻

再戰(zhàn)薩巴倫卡!鄭欽文展望:紅土比她得心應(yīng)手,會(huì)拼搏到最后一刻

全景體育V
2025-06-02 08:54:07
不愧是中國(guó)軍人!邊防戰(zhàn)士口咬“光榮彈”,呵退印度越線部隊(duì)

不愧是中國(guó)軍人!邊防戰(zhàn)士口咬“光榮彈”,呵退印度越線部隊(duì)

記哥說(shuō)事
2025-06-01 21:42:54
南寧一女子花460多萬(wàn)元購(gòu)買(mǎi)大平層,要買(mǎi)第二套時(shí)竟發(fā)現(xiàn)土地使用權(quán)僅剩47年

南寧一女子花460多萬(wàn)元購(gòu)買(mǎi)大平層,要買(mǎi)第二套時(shí)竟發(fā)現(xiàn)土地使用權(quán)僅剩47年

環(huán)球網(wǎng)資訊
2025-06-02 12:36:42
每經(jīng)實(shí)探 | 網(wǎng)紅家裝企業(yè)“住范兒”上海總部人去樓空,放假前每天上百人討債,有供應(yīng)商被欠幾百萬(wàn)元

每經(jīng)實(shí)探 | 網(wǎng)紅家裝企業(yè)“住范兒”上海總部人去樓空,放假前每天上百人討債,有供應(yīng)商被欠幾百萬(wàn)元

每日經(jīng)濟(jì)新聞
2025-06-02 06:57:44
中國(guó)代表就在臺(tái)下,美防長(zhǎng)30分鐘問(wèn)責(zé)中國(guó),話音剛落,解放軍出動(dòng)

中國(guó)代表就在臺(tái)下,美防長(zhǎng)30分鐘問(wèn)責(zé)中國(guó),話音剛落,解放軍出動(dòng)

獵火照狼山
2025-06-01 21:17:15
美國(guó)零售商要求中國(guó)供應(yīng)商承擔(dān)66%關(guān)稅成本

美國(guó)零售商要求中國(guó)供應(yīng)商承擔(dān)66%關(guān)稅成本

小鬼頭體育
2025-05-31 17:06:44
安徽一姑娘將荔枝核丟水里,20天成“粉森林”,網(wǎng)友:氛圍感絕了

安徽一姑娘將荔枝核丟水里,20天成“粉森林”,網(wǎng)友:氛圍感絕了

小嵩
2025-06-02 10:40:44
河南一水庫(kù)水位下降現(xiàn)千佛石窟,有1043尊石佛幾乎全部被敲掉頭部,水庫(kù)管理人員:汛期將至,禁止參觀

河南一水庫(kù)水位下降現(xiàn)千佛石窟,有1043尊石佛幾乎全部被敲掉頭部,水庫(kù)管理人員:汛期將至,禁止參觀

魯中晨報(bào)
2025-06-02 10:19:03
日本突發(fā)5.9級(jí)地震!2天前剛發(fā)生6.1級(jí),此前“大地震預(yù)言”瘋傳

日本突發(fā)5.9級(jí)地震!2天前剛發(fā)生6.1級(jí),此前“大地震預(yù)言”瘋傳

極目新聞
2025-06-02 07:48:32
入戶(hù)調(diào)查已開(kāi)始,請(qǐng)積極配合!

入戶(hù)調(diào)查已開(kāi)始,請(qǐng)積極配合!

環(huán)球時(shí)報(bào)新聞
2025-06-02 10:59:56
獨(dú)立候選人納夫羅茨基贏得波蘭總統(tǒng)選舉

獨(dú)立候選人納夫羅茨基贏得波蘭總統(tǒng)選舉

界面新聞
2025-06-02 12:41:09
殲-20在渤海擊落F-35和預(yù)警機(jī)?越傳越離譜,造謠者膽子太肥了

殲-20在渤海擊落F-35和預(yù)警機(jī)?越傳越離譜,造謠者膽子太肥了

第一軍情
2025-05-31 19:33:23
二湘:哈佛女孩的演講假大空,這個(gè)世界缺的是溫和而意志堅(jiān)定的人

二湘:哈佛女孩的演講假大空,這個(gè)世界缺的是溫和而意志堅(jiān)定的人

二湘空間
2025-06-02 10:29:43
烏方透露對(duì)俄實(shí)施特別行動(dòng),摧毀41架俄戰(zhàn)略轟炸機(jī)

烏方透露對(duì)俄實(shí)施特別行動(dòng),摧毀41架俄戰(zhàn)略轟炸機(jī)

界面新聞
2025-06-01 21:20:09
流入市場(chǎng)的“臨床試驗(yàn)”抗癌藥

流入市場(chǎng)的“臨床試驗(yàn)”抗癌藥

大象新聞
2025-06-02 09:31:46
美軍宣布:發(fā)動(dòng)空襲

美軍宣布:發(fā)動(dòng)空襲

第一財(cái)經(jīng)資訊
2025-06-02 11:06:16
剛剛!港股突然大跌!

剛剛!港股突然大跌!

龍行天下虎
2025-06-02 10:55:09
2025-06-02 14:04:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
25596文章數(shù) 242067關(guān)注度
往期回顧 全部

科技要聞

新造車(chē)5月再洗牌:?jiǎn)柦缁厍叭∶资氐谖?/h3>

頭條要聞

女子花460萬(wàn)買(mǎi)大平層 買(mǎi)第二套時(shí)發(fā)現(xiàn)土地使用權(quán)剩47年

頭條要聞

女子花460萬(wàn)買(mǎi)大平層 買(mǎi)第二套時(shí)發(fā)現(xiàn)土地使用權(quán)剩47年

體育要聞

傲了一輩子的恩里克,心中永遠(yuǎn)住著一個(gè)小天使

娛樂(lè)要聞

章子怡深夜曬娃,兒女正面照曝光

財(cái)經(jīng)要聞

美稱(chēng)中方違反經(jīng)貿(mào)會(huì)談共識(shí) 商務(wù)部駁斥

汽車(chē)要聞

吉利汽車(chē)5月銷(xiāo)量23.52萬(wàn)輛 同比增長(zhǎng)46%

態(tài)度原創(chuàng)

數(shù)碼
教育
房產(chǎn)
公開(kāi)課
軍事航空

數(shù)碼要聞

機(jī)械革命筆記本新模具曝光,提供藍(lán)白撞色設(shè)計(jì)

教育要聞

2024智慧家長(zhǎng)家教好故事展播(二十二)

房產(chǎn)要聞

金地華南落子海南自貿(mào)港22萬(wàn)㎡標(biāo)桿項(xiàng)目,夯實(shí)代建行業(yè)領(lǐng)軍者地位

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長(zhǎng)在香會(huì)大肆渲染中國(guó)威脅 中方回應(yīng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 华池县| 普兰县| 浙江省| 鄄城县| 新晃| 平南县| 云霄县| 沙河市| 广东省| 星座| 静宁县| 依安县| 台安县| 毕节市| 游戏| 邛崃市| 进贤县| 集安市| 肇东市| 耒阳市| 阿勒泰市| 南乐县| 财经| 莲花县| 清丰县| 咸丰县| 新余市| 都江堰市| 无为县| 启东市| 合水县| 于都县| 棋牌| 玛纳斯县| 罗定市| 辉南县| 灵山县| 武城县| 西林县| 花垣县| 六枝特区|