衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
每只手21個自由度,支持16主動自由度,具備高精度操作能力。
在夾持、旋轉、精準插拔等精細操作上,能力遠超市面常見的6自由度抓取器。
這就是具身智能創業公司靈初智能最新推出的自研靈巧手。
要知道,人類的一只手是27個自由度,而特斯拉最新一代Optimus Gen-3靈巧手也只有22個自由度。
21個自由度,意味著機械結構復雜,硬件制造上難度極高,還需要保證穩定性和可量產性,造價下探很有難度,“市面上很多團隊,光靈巧手就要幾十萬一只。”
而靈初智能創始人兼CEO王啟斌告訴量子位,靈初的目標,是將一臺機器人整機的價格——
打到17000美元(約122083元)級別,對標特斯拉“Model 3定價策略”。
由于視雙足為炫技,在整機設計上,靈初的人形機器人打造成“輪式+雙手”的形象,長下面這樣:
從Day One開始拋棄夾爪
先來說此次新推出靈巧手背后的故事。
靈初智能的目標是打造通用靈巧操作的機器人系統,強調的是從動作層面解決復雜任務。
在創始團隊看來,“通用”和“復雜”,意味著機器人只配備夾爪來抓取遠遠不夠——
抓取只是一種簡單的單一技能,但現實中的任務,如使用工具、精密裝配、翻頁、掃碼、旋轉,必須具備更高自由度與靈巧度。
耶魯大學等在2013年的《Grasp Frequency and Usage in Daily Household and Machine Shop(抓取頻率及其在家庭與機械車間的應用)》一文中總結了家庭和車間環境下人類手部的高頻抓取動作,共10種。
很多看似簡單的操作,比如轉筆、精準插拔、翻書、調方向,都需要高自由度手部與觸覺反饋才能完成。
考慮到落地,工業場景中很多手中操作(如轉動螺絲刀)和精密操作(如電池抓取與攝像頭校準)場景交給低自由度的靈巧手尚且無法完成,更別提夾爪了。
因此從Day One開始,靈初就決定不做夾爪。
之所以選擇自研,是因為靈初團隊覺得市面上的靈巧手產品都不好用。
而靈初身上頗有做靈巧手的技術基因。
公司首席科學家楊耀東,北京大學人工智能研究院助理教授、強化學習領域的知名學者。
2022年時,他帶領華人團隊獲得NeurIPS 2022具身靈巧操作冠軍;那時候,楊耀東就開始和團隊在仿真環境中用強化學習訓練靈巧手完成復雜操作。
彼時團隊中的一名00后陳源培,現在成了靈初的聯合創始人。
他師從李飛飛和Karen Liu(領導斯坦福機器人中心運動實驗室),曾在全球全球范圍內首次實現利用強化學習在真實世界同時控制雙臂、雙手多技能操作。
在機器人領域搞強化學習冷啟動訓練
從上面二人的經歷中不難抽取出除「靈巧手」外的另一關鍵詞:
強化學習。
這個詞對大家來說并不陌生——近幾年,它在語言模型后訓練階段立下豐功偉績。然而陳源培介紹,在機器人抓取任務領域,強化學習還是一個難度較高的小眾領域,有相關經驗的人并不多。
他例舉了做這件事的部分困難之處:兩個挑戰 + 一個關鍵矛盾。
第一,自由度越高,訓練難度越大。
現在經常出街的機器狗基本上全身是12個自由度,其訓練尚且不易。
靈初智能想做具身智能人形機器人,現階段光是一只手就21個自由度,對算法訓練的要求不言而喻——能做出來和能用起來,中間還是有巨大的gap。
第二,具身智能在真實世界里需要完成的任務,更多是“開放場景長程復雜任務”,單就“長程”這一點來說,非常容易有誤差累積。
比如完成一個任務需要十個步驟,如果第二步有1cm的偏差,最后的操作結果就可能差出十萬八千里來。
剩下的那一個關鍵矛盾在于強化學習模型常專用于一個場景,遷移難,跨任務泛化能力差。
靈初是怎么解決這些問題的?
在去年成立之初,靈初就提出分層端到端快慢腦架構技術路線。
快腦S1專注操作,靈巧操作涵蓋多種形式,其操作經過tokenize后,作為S2慢腦(專注推理規劃)的輸入,和語言、視覺模態融合,基于Causal VLM自回歸架構,實現多模態融合的推理和任務規劃。
更直接的理解是,快腦是小腦層,控制手部完成精細動作,通過預訓練仿真環境與真機數據回傳優化動作序列;慢腦是大腦層,基于視覺感知(多攝像頭采集牌面、手勢),通過語言模型決策出牌策略,處理開放環境中的規則變化。
快慢腦通過Action Tokenizer隱式連接,構建了支持「動作感知-環境反饋-動態決策」全閉環的VLA模型,端到端訓練,協同完成長程任務的靈巧操作。
而靈初推出的分層端到端VLA+強化學習算法模型Psi-R1,會結合歷史動作與當前環境狀態,理解動作的長期影響,避免重復試錯和動作誤差積累,建立動作與環境變化的因果鏈。
這就是靈初解決傳統VLM決策短視的辦法。
走一條“Model 3式的產業破局之路”
但王啟斌和陳源培提到,做“靈巧手”或“大小腦算法”,都不能概括靈初的全部。
靈初自研的靈巧手不會單賣,“今天做一個靈巧手去賣,沒意義。”
王啟斌表示,靈初的打法是將軟硬件深度耦合,系統層面定義體驗。所有硬件都為算法、模型服務,強調系統閉環與數據鏈條完整性。
- 你得有整機+動作系統+數據+任務交付,才叫產品。
根據這套公式,靈初目前手里的牌是這樣的——
- 整機:標志性紫色的輪足雙手人形機器人;
- 動作系統:已迭代至Psi-R1,重視強化學習技術,持續推進中;
- 數據:從靈初接觸單個場景中逐步獲取并積累;
- 任務交付:目前ToB為主,3C制造和倉儲物流兩方重點發力,驗證技術后再逐步向家庭場景延伸。
這么一套軟硬件協同的人形機器人產品,靈初給出的(理想)價格是17000美金,約12萬人民幣。
值得注意的是,特斯拉Model 3的平均整車成本也在1.7萬美元上下。
這不是偶然,而是靈初的特意計算和設計過的。
這個數字背后是走一條“Model 3式的產業破局之路”。
Model 3是特斯拉首款面向大眾市場的車型,相比之前的Model S和Model X大幅降低,使特斯拉產品進入了普通消費者可接受的價格區間。
把價格打下來、體驗做好,出貨量就出現明顯拉升。截至今年,Model 3累計銷量已經超過一百萬輛。
與此同時,特斯拉「硬件+FSD+數據」生態一體化,構建了自己的獨特護城河。
與之對應,當具身智能玩家擁有可靠的、穩定的、量產級硬件平臺,一體化的軟件體驗與數據回傳機制,一個可以定義任務閉環的主導型平臺,還能單一場景ROI,那么就像特斯拉推出了Model 3一般,產業就能從試驗轉向規模。
靈初現在做的,正是為機器人世界里的“Model 3”一步步打基礎。
王啟斌表示,具身智能需等到硬件成本降至10萬元人民幣級(預計2030年),且單場景出貨量突破百萬臺,才能觸發生態爆發。
一旦這一點打通了,產業拐點就來了。
就像Model 3之于智能電車行業,靈初也在押注:
不是第一個造出人形機器人的團隊,但可能是第一個把機器人真正變成“可商用工具”的團隊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.