靈巧手要學習不完美數據,才能更像人類。
2024年4月28日,中國科技產業智庫「甲子光年」在上海·閔行馬橋工業智能中心成功舉辦「AI共潮生—2025甲子引力X科技產業新風向」大會。
此次大會上,人工智能領域的多位行業大咖、專家學者、投資人及創業者們匯聚一堂,共同探討中國AI產業的新趨勢、新機遇、新變化和新未來。
其中,伯牙智能創始人兼CEO劉欣就AGI時代AI技術的落地場景應用進行了細致的剖析和分享,并以“靈巧手重塑具身智能”為主體展開了分享。
劉欣認為,AI技術在物理世界要想真正實現賦能,必須要有一個具體的交互硬件,這個硬件就是靈巧手。同時,具身智能產品上的自主移動、智能思考以及大模型的應用等,都已經比較成熟,但靈巧操作仍處在發展初期。
靈巧操作在硬件和軟件上都有諸多挑戰,硬件的難點在于靈巧手產品對高自由度等性能需求和空間限制的矛盾,以及柔性化控制單元的融合;軟件難度則來自于控制算法既要泛化能力也要精準度,以及訓練數據的獲取。總的來說,劉欣的演講向與會人員展示了其對靈巧手發展趨勢和具體產品設計領域的思考和判斷,對于數據及觸覺傳感能力的反共識觀點,也給具身智能行業帶來了新的思考。
以下是伯牙智能創始人兼CEO劉欣演講實錄,「甲子光年」整理刪改:
1.AI交互問題還沒有被很好地解決
大家下午好,今天非常開心現場和大家分享一下我們過去做的事情。我們公司是去年7月份成立的,那時整個具身智能,或者說整個人形機器人產業都是非常火爆的,但是我們選擇了做靈巧手以及靈巧操作這個更細分的賽道。
過去一段時間,大家已經被各種機器人的視頻刷屏,有扭秧歌的,有跳舞的,前兩周北京還搞了第一屆人形機器人馬拉松大賽。但是這里面有很多機器人,甚至連手都沒有,反而是像機器貓一樣的一個個圓球或爪子。
我認為在AGI時代,AI想在物理世界里面發揮實際作用,還需要一點點幫助,用什么來幫助?一雙真正的手,像人類一樣靈巧的手。手對于人類來說非常重要,可以說是和人的大腦一起進化結果。這里給大家看一個很經典的圖:皮質小人。他講的是在大腦皮層負責感知和運動的不同部位的映射,可以很直觀地看出來手對人非常重要,整個圖片里手和五官占的面積非常大。
這些所有的人需要在大腦和小腦里面處理的能力,放到機器人、具身智能里面一樣需要。一般來說,具身智能需要的這些基礎能力被分成了四大類,這四類是相輔相成的,中間會有一些交織和協同,并不孤立存在。
這里面有一些技術,在過去經過了十幾年的高速發展,相對來說比較成熟。比如自主移動、大模型、空間智能等,這些技術雖然還有待進一步優化,但基本上不會出現特別大的瓶頸,不管是用傳統的方式還是端到端的方式,都能夠被基本解決。
但還有一件事情始終困擾著大家,那就是真正讓機器人走向工業、走向服務、走向家庭的基于靈巧手的靈巧操作,不管是在學術界還是工業界,都沒有被很好突破和解決。
2.靈巧手的研發難點
我們認為靈巧操作是機器人進化出具身智能的關鍵環節。靈巧操作為什么這么難?首先要做一個靈巧手的硬件,這個硬件本身非常挑戰了。馬斯克曾經提到,在整個擎天柱的工程開發量里,有接近一半工作量都是在手部。為什么這么難?因為人手有27塊骨骼,23個自由度,在漫長的進化里跟大腦、小腦形成了協同,他是非常復雜的軟硬結合的部件。
我們做機器人,首先想的是要在手掌這么小的空間里,塞下這么高的自由度,在工程上會產生很多的矛盾。比方說你想要很好的性能,需要靈巧手的力量、速度都比較理想,就需要比較大的電機,但使用了大的電機會發現靈巧手變得非常沉、非常大。如果讓手變得更小巧,用更小的電機,力量和性能就會打折扣。電機、減速機做小之后也非常容易損壞。
世界上有沒有做的比較好的靈巧手呢?答案是有的,就是OpenAI使用的這個靈巧手(Shadow Dexterous Hand),這個靈巧手在行業里非常有名,它有24個活動關節,20個主動自由度,非常接近人類。OpenAI在2018年的時候用shadow做了一個非常有名的研究項目,用后者的靈巧手來轉一個方塊,不是轉魔方,僅僅是把方塊轉到一個指定的方向就算成功。
OpenAI在整個實驗過程當中用了兩個非常經典的方式,一個是用強化學習來制定手指的運動策略。另一個用了RNN來進行5個手指的位置評估和方塊的方向的預測,整個過程取得了不錯的結果。這已經是將近7年前的事情了。
OpenAI做的這個實驗給我們帶來了一個啟示,即AI非常傾向于使用機器手的小拇指進行操作,比如用大拇指+小拇指一起轉方塊,而同樣的動作人類更習慣用拇指和食指來做,為什么呢?因為這個機器手本身設計的比較靈巧,對于強化學習算法來說,它更愿意去嘗試、去形成不同的操作習慣。這就是我們為什么一定要做帶有小拇指的五指靈巧手的產品。
不僅如此,隨機策略產生的一定程度的泛化,還能讓我們用強化學習解決靈巧手的操作問題的時候,不一定非要模仿人類,也一樣可以很好地完成動作,同時還有一個點很關鍵,好的系統工程和好的算法一樣重要,如果只有算法,而硬件和軟件工程做的不夠好,那么好的想法也得不到實現,因此把系統工程做好是關鍵的基礎。
3.兩條反共識結論
有兩條結論是反共識的,第一條是在OpenAI的實驗里面,機器手是支持觸覺傳感器的,但他們沒有用,他們認為這是沒有必要的,但我必須要講的是,在今天我們需要面對的復雜落地場景下,這一句話不再正確了。當時OpenAI的實驗設計比較簡單,不需要考慮機器手持握方塊的軟硬,以及是不是會被捏壞,它只要轉到相應的方向就可以了。
但是今天我們在實際場景里可能會有各種各樣的物體,硬的、軟的,比如需要靈巧手去處理一些食材,用力太大會就對物體造成損壞。所以在今天,靈巧手的設計必須要把觸覺當做一個很重要的能力去構建。
還有一條,OpenAI做完實驗后得出的結論,是真實世界的數據并沒有幫助他們訓練出更優策略,這是為什么呢?在當時條件之下,他們發現這些數據質量并不好,比如用視覺來跟蹤位置標簽,甚至是動作捕捉系統來去做位置跟蹤,但這些標簽的識別計算有延遲、測量精度有誤差,只要稍微改變一下環境,之前數據的配置就不可用了。
但我認為,質量不好的數據,也很重要。因為只用質量好的數據來訓練具身智能,會讓其不知道如何處理意外情況。在人類環境里,各種條件并不完美,我們需要讓機器人和人一樣學習如何處理不完美的數據。
4.伯牙智能靈巧手產品
有了這些思考,我們就要重新構建一個靈巧操作系統,我們需要去推倒重來。這個過程就想過去十年大家去講軟件定義汽車一樣,首先定義你需要什么樣的數據,再去逆推你的硬件是怎么設計的,然后構建你需要的傳感器,并且構建整個拓撲,讓數據和傳感器達到算法要求。
我們做靈巧手也要擁抱最新的硬件生態、接口、軟件。經過迭代和打磨,我們的第一款產品高山D22Pro很快就可以小批量試制,預計在今年下半年就會公開發售。
這里用我們的產品和Shadow進行一個對比。從硬件層面來講,我們刪減了兩個不太重要的自由度,但是我們依然達到了22個自由度,可以完美復刻人類手部的動作;我們的動作速度是Shadow的3倍,簡單來說如果我們伸開手做握拳的動作再恢復,一秒鐘之內可以做一內就是1Hz,我們能夠做三次,基本上達到了人類的能力;我們在重量方面也做了減輕,Shadow是4.3公斤,我們能夠做到1.5公斤以下。
今天市場上已經有很多靈巧手產品,但低自由度的機器手不能叫做靈巧手。所以可以說我們是目前唯一一個能夠和Shadow以及包括特斯拉正在研發的下一代靈巧手去做對標的產品,同時我們還提供了不同的顏色配置。
有了好的硬件作為基礎之后,軟件算法也是非常重要的。今天整個具身智能行業有一股VLA熱潮,但我們覺得VLA目前首先解決的問題是零樣本的泛化,第二解決的問題是用自然語言進行人機交互,但VLA并沒有很好地解決任務成功率和精準度的問題。所以我們今天也提出了自己的一套架構,我們把VLA和強化學習以及傳統的經典控制算法綁定在一起,既可以有很好的泛化能力,也可以達到很好的精度。
我們還有一個很重要的產品在研發,是一個同樣有22個自由度的但零電機的版本。這是我們的首席科學家張世武教授帶領團隊研發了很多年的成果,用SMA(形狀記憶合金)代替電機模組,可以理解為是一種人工肌肉。這個最新版本的靈巧手的優點是大功重比,也就是說他可以自身很輕的情況下提動很重的物體,已經能夠滿足絕大部分的應用場景了,成本也可以很低,而且形態更仿生。
我們也會更積極地擁抱仿生結構。在傳統機器人的控制層面,大家是追求剛度而厭惡柔性的,但我們今天可以有機會在AGI時代解鎖新的技術樹,把柔性的執行單元代入到具身智能行業里面來。
我們的技術研發迭代很快,因為我們有兩個強大的后盾:一個是中科大的人形機器人研究院,另一個是哈工大深圳校區的nROS-LAB 。我們會繼續努力,給大家推出更多的產品,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.