新智元報(bào)道
編輯:桃子 好困
【新智元導(dǎo)讀】ManiSkill-ViTac 2025視觸覺(jué)融合挑戰(zhàn)賽揭榜!全球42支團(tuán)隊(duì)激烈交鋒,中國(guó)團(tuán)隊(duì)包攬三金,刷新國(guó)際榜單。
今天,機(jī)器人和自動(dòng)化領(lǐng)域的全球頂級(jí)會(huì)議ICRA 2025在亞特蘭大正式拉開(kāi)帷幕。
不久前,機(jī)器人領(lǐng)域的頂級(jí)賽事——ManiSkill-ViTac 2025也公布了獲獎(jiǎng)團(tuán)隊(duì)名單。
5月23日,ManiSkill-ViTac 2025的成果將在ICRA 2025第六屆ViTac國(guó)際研討會(huì)中集中匯報(bào)。
據(jù)主辦方統(tǒng)計(jì),本屆賽事吸引了來(lái)自清華、北大、港大、新加坡國(guó)立大學(xué)、穆罕默德·本·扎耶德人工智能大學(xué)等42支全球頂尖團(tuán)隊(duì)同臺(tái)競(jìng)技。
最終包攬三個(gè)賽道金牌的贏家,是來(lái)自國(guó)內(nèi)的兩家具身初創(chuàng)公司。
其中,拿下「純觸覺(jué)操控」和「觸覺(jué)傳感器設(shè)計(jì)」兩個(gè)賽道金牌的是原力靈機(jī)Dexmal。
這家剛成立不久就獲得2億天使輪融資的黑馬企業(yè),核心團(tuán)隊(duì)出身于老牌AI企業(yè)曠視科技,并且具有超過(guò)10年的AI原生產(chǎn)品規(guī)模落地經(jīng)驗(yàn)。
拿下「視觸融合操控」賽道的冠軍它石智航,幾乎與原力靈機(jī)同時(shí)宣布了天使輪融資,憑借1.2億美元的融資額創(chuàng)造了中國(guó)具身智能行業(yè)最大天使輪新紀(jì)錄。
三大賽道,三塊金牌,不僅讓大家感受到了具身智能在細(xì)分領(lǐng)域有多「卷」,更是體現(xiàn)了中國(guó)在機(jī)器人操控領(lǐng)域的國(guó)際領(lǐng)先實(shí)力。
機(jī)器人界「奧賽」
視觸覺(jué)融合大挑戰(zhàn)
在人工智能的版圖中,具身智能與AI 1.0時(shí)代和如今炙手可熱的LLM,有著本質(zhì)的區(qū)別。
AI 1.0聚焦于模式識(shí)別,大模型擅長(zhǎng)處理文本等多元信息。
具身智能則直面物理世界,追求讓機(jī)器人像人類(lèi)一樣感知、思考并與環(huán)境交互。
這種「身體與智能」的結(jié)合,不僅需要算法的突破,還要求硬件設(shè)計(jì)、場(chǎng)景適配和多模態(tài)感知的深度協(xié)同。
另外從衡量標(biāo)準(zhǔn)來(lái)說(shuō),不同于AI 1.0時(shí)代產(chǎn)學(xué)研在CVPR的華山論劍;也不同于大模型行業(yè)在OpenCompass,Eval等Benchmark上的百家爭(zhēng)鳴。
具身領(lǐng)域的基準(zhǔn)相對(duì)稀缺分散,且挑戰(zhàn)重重。
它不僅需要模擬復(fù)雜的物理交互、開(kāi)發(fā)高精度硬件,甚至在真實(shí)場(chǎng)景中驗(yàn)證算法的魯棒性,這使得相關(guān)賽事的門(mén)檻極高,玩家數(shù)量也更少。
隨著具身技術(shù)日趨成熟,競(jìng)爭(zhēng)越來(lái)越激烈,其細(xì)分領(lǐng)域的挑戰(zhàn)賽熱度也在升溫。
當(dāng)前,公眾往往更關(guān)注機(jī)器人的運(yùn)動(dòng)性能,比如靈活的機(jī)械臂或靈巧的步伐,但在實(shí)際應(yīng)用中,視覺(jué)觸覺(jué)等多模態(tài)感知的融合對(duì)機(jī)器人發(fā)展至關(guān)重要。
為了促進(jìn)機(jī)器人獲得像人類(lèi)一樣的操控技能,ManiSkill基準(zhǔn)測(cè)試應(yīng)運(yùn)而生。
自2022年首屆于ICLR舉辦以來(lái),ManiSkill挑戰(zhàn)賽已成為具身智能領(lǐng)域的「金字招牌」。并在2024年引入「視觸覺(jué)」融合專題(Vitac),以彌補(bǔ)傳統(tǒng)視覺(jué)主導(dǎo)方案的不足。
運(yùn)動(dòng)能力可以讓機(jī)器人「動(dòng)起來(lái)」,比如近來(lái)比較火的擎天柱熱舞視頻,而多模態(tài)感知?jiǎng)t賦予其「看懂世界,摸清環(huán)境」的智慧。
尤其是,在需要精細(xì)操作的場(chǎng)景中,視覺(jué)觸覺(jué)協(xié)同作用決定了機(jī)器人的使用價(jià)值。
然而,在許多現(xiàn)實(shí)場(chǎng)景中,它們的表現(xiàn)仍不如意。
比如,在抓取不規(guī)則物體、執(zhí)行毫米級(jí)精度的操作,或處理柔性材料時(shí),機(jī)器人常常因感知不足而失敗。
英偉達(dá)高級(jí)科學(xué)家Jim Fan在紅杉的閉門(mén)演講中,將其稱之為「物理圖靈測(cè)試」。演講過(guò)程中,他展示了一個(gè)機(jī)器人提供VIP早餐服務(wù)的翻車(chē)視頻,引全場(chǎng)爆笑。
一個(gè)再普通不過(guò)的生活場(chǎng)景,機(jī)器人為啥就搞得一團(tuán)糟呢?
這是因?yàn)椋?dāng)前機(jī)器人領(lǐng)域的研究主要依賴視覺(jué)感知,通過(guò)攝像頭捕捉環(huán)境信息,并進(jìn)行決策。
但視覺(jué)主導(dǎo)的方案,在接觸密集場(chǎng)景中存在著明顯的局限性,比如遮擋、光線變化、物體透明度,都會(huì)干擾視覺(jué)數(shù)據(jù)。
與此同時(shí),那些缺乏觸覺(jué)反饋的機(jī)器人,更是難以感知接觸力、表面紋理或物體剛性等關(guān)鍵信息。
這導(dǎo)致了,機(jī)器人在醫(yī)療手術(shù)、精密裝配、復(fù)雜物流分揀等場(chǎng)景中,難以達(dá)到人類(lèi)水平的操作能力。
ManiSkill-ViTac視觸覺(jué)融合挑戰(zhàn)賽的誕生,恰恰填補(bǔ)了這一技術(shù)空白。
主頁(yè)地址:https://ai-workshops.github.io/maniskill-vitac-challenge-2025/
它由清華、UCSD、倫敦國(guó)王學(xué)院等頂尖機(jī)構(gòu)聯(lián)合主辦,聚焦于視觸覺(jué)融合技術(shù),以拓展機(jī)器人在復(fù)雜操作任務(wù)中的能力邊界。
與歷屆ManiSkill賽事不同,ManiSkill-ViTac提供了觸覺(jué)物理仿真平臺(tái)并搭建了現(xiàn)實(shí)世界的測(cè)試平臺(tái),是全球范圍首個(gè)結(jié)合視覺(jué)與觸覺(jué)的公開(kāi)賽事。
ManiSkill-ViTac 2025的意義遠(yuǎn)超學(xué)術(shù)競(jìng)賽,它為機(jī)器人行業(yè)提供了從實(shí)驗(yàn)室到現(xiàn)實(shí)應(yīng)用的橋梁。
它將推動(dòng)觸覺(jué) - 視覺(jué)融合算法的進(jìn)步,加速改進(jìn)觸覺(jué)傳感器設(shè)計(jì),為豐富接觸的操作任務(wù)建立基準(zhǔn)。
在42支全球參賽團(tuán)隊(duì)中,中國(guó)團(tuán)隊(duì)的表現(xiàn)尤為亮眼。
以原力靈機(jī)為代表,不僅在算法研發(fā)上取得了突破,還通過(guò)「算法+硬件+場(chǎng)景」的系統(tǒng)創(chuàng)新,推動(dòng)技術(shù)快速落地。
中國(guó)隊(duì)奪三金
憑什么?
在純觸覺(jué)操作賽道(Track1)中,原力靈機(jī)Dexmal團(tuán)隊(duì)直面機(jī)器人操控的終極難題:
如何在完全沒(méi)有視覺(jué)輔助的條件下,僅憑觸覺(jué)完成高精度的操作?
根據(jù)介紹,Track1要求機(jī)器人通過(guò)觸覺(jué)傳感器,完成將軸體插入毫米級(jí)孔洞的復(fù)雜任務(wù)。
這不僅需要其精準(zhǔn)解析軸體輪廓的種種特征,還要依據(jù)接觸反饋構(gòu)建起準(zhǔn)確的空間坐標(biāo)系。
傳統(tǒng)方案大多依賴RL,但受限于觸覺(jué)數(shù)據(jù)的低維度和高噪聲,成功率僅為14.81%,且因接觸力失衡,傳感器常因過(guò)度受力而損壞。
為此,Dexmal團(tuán)隊(duì)提出了創(chuàng)新的「雙范式學(xué)習(xí)框架」,將專家知識(shí)與智能學(xué)習(xí)巧妙結(jié)合。
首先,他們利用專家示范數(shù)據(jù),對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,讓機(jī)器人快速掌握空間探索的基本能力。
隨后,團(tuán)隊(duì)引入模仿學(xué)習(xí)生成動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù),為RL的每一步微觀操作提供精準(zhǔn)、實(shí)時(shí)的反饋引導(dǎo)。
這種分層遞進(jìn)學(xué)習(xí)的策略,就像為機(jī)器人裝上了雙「無(wú)形的眼睛」,讓其在無(wú)視覺(jué)輔助這一苛刻條件下,依然能夠精準(zhǔn)定位孔洞位置。
這一方案的真實(shí)效果,令人震撼。
在仿真測(cè)試中,Dexmal混合算法將成功率提升了2-3倍,遠(yuǎn)超單一強(qiáng)化學(xué)習(xí)的方案。
更重要的是,在真實(shí)機(jī)器人驗(yàn)證環(huán)節(jié),Dexmal方案憑借大幅領(lǐng)先的比分,充分彰顯了其在純觸覺(jué)賽道領(lǐng)域的強(qiáng)大競(jìng)爭(zhēng)力。
而在觸覺(jué)傳感器設(shè)計(jì)賽道(Track3)中,原力靈機(jī)Dexmal團(tuán)隊(duì)再次展現(xiàn)了技術(shù)前瞻性。
觸覺(jué)傳感器,作為機(jī)器人「觸覺(jué)」的核心硬件,長(zhǎng)期面臨成本高、制造復(fù)雜、性能不穩(wěn)定的難題,行業(yè)仍處于探索初期。
Dexmal團(tuán)隊(duì)以經(jīng)濟(jì)性與高效性為核心目標(biāo),從傳感器結(jié)構(gòu)到數(shù)據(jù)處理進(jìn)行了全鏈條優(yōu)化。
首先,他們重新設(shè)計(jì)了傳感器的幾何形狀,使其能自適應(yīng)非均勻應(yīng)力分布,輕松應(yīng)對(duì)不同任務(wù)需求。
其次,團(tuán)隊(duì)優(yōu)化了四面體網(wǎng)格,力求在計(jì)算精度與實(shí)時(shí)性之間達(dá)成平衡。
最后,他們優(yōu)化了標(biāo)記點(diǎn)的分布,兼顧空間分辨率與信號(hào)魯棒性。
為了驗(yàn)證設(shè)計(jì)效果,團(tuán)隊(duì)對(duì)傳感器的空間分辨率、計(jì)算效率和算法協(xié)同性進(jìn)行了全面測(cè)試。
結(jié)果顯示,新設(shè)計(jì)不僅讓算法性能顯著提升,還有效降低了成本。
這種「高性價(jià)比」的方案,讓Dexmal團(tuán)隊(duì)在比賽中一舉奪魁,或許將為觸覺(jué)傳感器的規(guī)模化應(yīng)用打開(kāi)了大門(mén)。
通往AGI
必須要翻越具身的高山
與語(yǔ)音、文本等模態(tài)不同的是,觸覺(jué)信息就是物理世界的「原生數(shù)據(jù)」。
它不僅對(duì)具身智能至關(guān)重要,更是實(shí)現(xiàn)AGI的關(guān)鍵一環(huán)。
觸覺(jué),可以讓機(jī)器人能夠感知物理紋理、力反饋、材料特性等,提供視覺(jué)無(wú)法捕捉的信息。
它為機(jī)器人與現(xiàn)實(shí)世界的深度交互提供了可能。另一方面,視覺(jué)則可以為全局環(huán)境的理解提供支持。
兩者的融合,不僅可以提升機(jī)器人對(duì)環(huán)境的感知魯棒性,還為跨場(chǎng)景、跨任務(wù)的泛化能力奠定了基礎(chǔ)。
作為賽事主辦方代表,清華大學(xué)助理研究員陳睿博士表示:
多感知模態(tài)融合在機(jī)器人領(lǐng)域有非常大的應(yīng)用價(jià)值。我們舉辦挑戰(zhàn)賽的初衷是希望為業(yè)界提供一個(gè)平臺(tái),共同推進(jìn)視觸覺(jué)融合技術(shù)的進(jìn)步。
未來(lái),我們還計(jì)劃擴(kuò)展任務(wù)復(fù)雜性,比如納入語(yǔ)言模態(tài),推進(jìn)視覺(jué)-觸覺(jué)-語(yǔ)言多模態(tài)大模型發(fā)展。也希望能夠有越來(lái)越多的優(yōu)秀團(tuán)隊(duì)能夠參與進(jìn)來(lái)。
相比如火如荼的LLM,機(jī)器人直接作用于物理世界,是AGI必須要翻越的高山,也是解決未來(lái)生產(chǎn)力難題的核心。
只有將觸覺(jué)視覺(jué)無(wú)縫融合,才能提升機(jī)器人精細(xì)操作的能力。
前段時(shí)間,老黃在接受采訪時(shí)表示,人形機(jī)器人將是一個(gè)價(jià)值50萬(wàn)億美元的產(chǎn)業(yè)。當(dāng)前,全球機(jī)器人市場(chǎng)正處于爆發(fā)前夜。
未來(lái),它將為工業(yè)、醫(yī)療、物流等領(lǐng)域的智能化轉(zhuǎn)型,注入全新動(dòng)能。
也就是說(shuō),這一領(lǐng)域技術(shù)突破和落地,將為全世界帶去的價(jià)值不可估量。
中國(guó)團(tuán)隊(duì)在賽事中的卓越表現(xiàn),彰顯了其在全球AI和機(jī)器人領(lǐng)域的引領(lǐng)地位。
奪得雙金的Dexmal團(tuán)隊(duì)表示,團(tuán)隊(duì)日前還參加了CVPR 2025協(xié)作智能Workshop核心賽事之一——RoboTwin,并在第一輪仿真平臺(tái)賽中斬獲并列第一。
目前,他們正全力備戰(zhàn)第二輪比賽,結(jié)果將于6月底公布。
這些連連戰(zhàn)績(jī),無(wú)疑為中國(guó)在具身智能領(lǐng)域的全球影響力,再添濃墨重彩的一筆。
ManiSkill-ViTac 2025的正式落幕,不僅是一場(chǎng)技術(shù)的巔峰對(duì)決,更是中國(guó)具身智能崛起的里程碑。
原力靈機(jī)和它石智航的耀眼表現(xiàn),展現(xiàn)了中國(guó)團(tuán)隊(duì)在算法創(chuàng)新、硬件突破、場(chǎng)景落地的全棧實(shí)力。
他們用三枚金牌向世界證明:中國(guó)不僅是AI賽道上的追趕者,更是引領(lǐng)者。
參考資料:
https://ai-workshops.github.io/maniskill-vitac-challenge-2025/#Award
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.