語言模型只有70%的準確率,機器人模型需要99%。
文|智駕網 王欣
編輯|曉雨
過去一段時間,具身智能賽道正經歷著一場割裂敘事。
一派是金沙江朱嘯虎呼喚的「撤退宣言」,作為曾押注非夕、星海圖的項目投資人,他在2024年底至2025年初批量退出多個具身項目,直言「行業太早期,商業化不清晰」。
而另一派是大批量高調入局的智駕系背景公司,如成立僅50天的它石智航近日斬獲1.2億美元天使輪融資,創下行業記錄;和估值翻倍被互聯網巨頭等產業方重金投資的年輕團隊,如華為前總裁鄧泰華和「華為天才少年」稚暉君創辦的智元機器人。
這兩條分叉認知的背后,恰如其分地映射著人類集體對智能革命到來時的選擇困境,具身智能指明了實現AGI的方向雖成為大共識,但從技術角度而言,算法的通用性、模型的通用性、以及不少模態的信息還沒有被有效利用,例如觸覺模態等,對溫度、時間、空間等的感知,也需要未來具身智能行業逐步去突破。
3月,智元機器人發布了首個通用具身基座大模型,來自內部合伙人的姚卯青觀點認為,「不做大模型的機器人公司沒有未來」。昨日,智元又宣布與具身智能公司 Physical Intelligence(Pi)達成合作關系,牽頭人正是昨天宣布加入智元的首席科學家:羅劍嵐。
據了解,羅劍嵐組建了「智元具身研究中心」,主導前沿算法研發與工程化落地,他曾在Google X、Google DeepMind從事研究工作。在伯克利人工智能實驗室(BAIR)做博士后期間,他是Sergey Levine教授團隊的核心成員,領導開發的世界上首個超人類的機器人真機強化學習系統SERL/HIL-SRL,首次實現將任務成功率提升到100%,在全球范圍內被廣泛應用。
與大模型不同,具身智能的失敗成本涉及人身安全(如家庭機器人摔碎物品)或設備損毀。羅劍嵐指出,語言模型60%準確率可通過人工糾錯,但具身智能需達到99%以上可靠性才具商用價值。
算法層面,目前機器人仍需依賴真實物理數據迭代,而現有仿真環境無法復現復雜力學的交互。無論是這次羅劍嵐的采訪觀點,還是行業過去的總結,一個被驗證的共識是:具身智能目前僅處于類似大模型的「GPT-1階段」,距離通用性突破至少需4-5年。
大模型和具身智能到底是什么互相影響的關系?具身智能和自動駕駛的發展又有何相似之處?具身智能作為AGI探索中的關鍵方向,技術突破核心到底是什么?
以下是羅劍嵐接受《深度AI》的采訪,或許能窺見答案:
01.
實現AGI前提:攻克長周期復雜任務技術壁壘
Q:羅博士您好,近期人形機器人行業普遍將「執行長周期復雜任務」作為技術功課重點,例如海外Figure和國內廠商均發布了相關視頻。我們發現不同廠商對同一概念的定義存在區別,請問智元如何界定「長周期」和「復雜任務」這兩個核心維度?
羅劍嵐:所謂「長周期」具有相對性,我們更關注任務的多階段特性:需要處理多個存在復雜依賴關系的子任務序列,而非單純的時間長度。例如裝配作業中,零件A的安裝必須優先于部件B的調試,這種工序間的邏輯鏈條才是核心挑戰。
在復雜任務維度,我們聚焦操作(Manipulation)領域的歷史性難題:當機械手與環境發生物理接觸時,涉及多體動力學建模、高維視覺感知融合,以及確保99%以上的操作成功率,這正是機器人學50年來持續攻關的底層技術難點。
Q:智元當前在「執行長周期復雜任務」的技術成熟度如何?比如咱們這次和Pi合作展示的視頻中,圍巾整理涉及雙機協同操作的畫面,智元都在哪些技術層面上實現了突破?
羅劍嵐:這次發布的視頻已展現部分我們的技術進展,以圍巾整理為例,其技術突破體現在:
針對柔性物體(Deformable Object)的非剛性動力學建模,我們開發了基于實時點云數據的形變預測算法;
在運動規劃層,提出了分層強化學習架構,將高層任務分解為抓取、形變控制等子模塊;
末端執行器方面,采用模塊化設計,通過電磁快換接口實現工具切換時間<0.5秒。
這對目前行業來說仍是比較難的一個點,圍巾是一個可變形的物體,除此之外,我們還有一些其他正進行的成果展示,后續可以繼續關注。
02.
美國研究環境更能容納,軟硬件聯合迭代的技術路線更能成功
Q:在加入智元之前,您在伯克利呆了很久,請問是什么契機讓你加入智元機器人并牽頭成立「具身研究中心」?有沒有思考過未來研究中心的核心目標與短期技術落地規劃?
羅劍嵐:我加入智元的核心動力還是希望真正做有技術影響力的事情。實際上我始終未脫離學術研究,但更希望將學術界探索的可能性轉變為真實世界里的生產力。
加入智元與團隊共事數月后,我確信我們具備打造全球領先具身智能系統的工程能力。我個人的研究重心在于提升系統的自主學習和跨場景泛化能力——這是機器人學習領域自2016年DeepMind開創性研究以來尚未突破的難題。盡管學術界持續產出優秀成果,但基于學習的機器人至今仍未實現規模化落地,這正是我們需要攻克的戰略高地。
Q:您的研究背景強在強化學習系統,請問研究中心是否會側重該技術路線?如何平衡算法創新與硬件穩定性等工程化挑戰?
羅劍嵐:我們技術路線選擇秉持開放原則,我過去的學術積累確實集中在機器人大模型與強化學習,但作為企業,我們也要進行全棧布局:大腦層,要提升任務規劃、推理決策等認知能力;小腦層,要提升優化運動控制、多模態感知等執行能力;以及在系統層,要攻克軟硬件協同、實時計算架構等工程難題。
Q:那基于您過去在中美頂尖機構的兩地經歷,能否系統對比兩國在具身智能領域的創新范式差異?特別是在基礎研究驅動與技術落地的協同機制方面,您觀察到哪些本質區別?
羅劍嵐:中美發展路徑會呈現顯著互補特征,比如美國更側重原始創新與理論突破,科研評價體系嚴格規避重復性改進,例如麻省理工學院A123公司完成了磷酸鐵鋰電池概念驗證,但產業化落地由中國企業實現,這也是中國產業鏈的優勢所在。
中國依托全產業鏈優勢,在技術工程化、場景適配方面具備獨特競爭力,典型案例包括新能源電池商業化進程較美國快3-5年。
Q:智元面對不同的技術路線,智元將如何構建系統級競爭力?特別是在哪些方面做重要戰略部署?
羅劍嵐:具身智能一項比較系統性的工程,雖然現在有很多未解的問題,但總體上我認為它從算法,硬件、數據和場景都需要耦合,是需要整合起來聯合迭代。
所以我會更傾向于從這個方法的通用性,還有數據閉環角度去思考路線的問題。當然我們也會保持對主流路線的敏感,因為大家現在都在探索的階段,同時我現在回來的話也會去更大膽的探索一些,沒有被充分驗證的方案,比如說強化學習,然后大規模的真實世界強化學習等。
Q:您提到具身智能需要軟硬件協同發展,能否具體闡述兩者的關系?隨著技術迭代,二者的重要性是否會隨發展階段產生變化?比如某些周期更依賴硬件突破,某些階段更側重軟件創新?
羅劍嵐:當前軟硬件處于同等重要的"雙軌并行"狀態。硬件層面,執行器、本體設計尚未形成行業標準,如同1980年代PC產業初期百家爭鳴的狀態,未來可能會根據不同應用場景(工業、家庭、服務等)收斂出幾類標準化本體方案,但很難出現"萬能機器人"。
軟件層面,算法路徑爭議更大——是否必須強化學習、仿真與真實數據配比、合成數據應用等問題都懸而未決,根源在于真實場景數據積累嚴重不足。這需要經歷類似自動駕駛的"數據飛輪"過程:隨著具身智能設備在真實世界中大規模部署,物理交互產生的海量數據將倒逼算法優化,進而推動硬件針對性改進。比如機械臂抓取失敗的數據可能揭示材料剛性缺陷,行走跌倒的數據可能暴露關節驅動參數不合理,這種"數據反哺研發"的閉環將促使軟硬件協同迭代,最終在特定場景中形成穩定技術棧。
03.
語言模型只有70%的準確率,機器人模型需要99%
深度AI:現在關于具身智能行業,樂觀和悲觀信號都很多,既有大額融資也有投資人退出。您如何看待行業的復雜性?目前市場對具身智能存在哪些明顯誤讀?
羅劍嵐:這種現象在技術演進中很常見,類似自動駕駛的發展軌跡——2015年前后資本狂熱涌入,隨后因預期未達進入低谷,經過沉淀調整再逐步復蘇,整個過程往往需要10-15年周期。
Q:具體舉個自動駕駛的例子。
羅劍嵐:Waymo從2016年獨立發展到如今才初現商業化曙光,而具身智能作為更復雜的系統性工程,涉及感知、決策、執行的完整閉環,必然需要更長期的技術積累,絕非單純依賴算力或模型堆疊就能突破。當前部分市場認知存在偏差,尤其是將具身智能與大模型發展路徑簡單類比,過度強調"大模型+具身"的協同效應,卻忽視了行動系統(action)在物理交互、環境適應、機械控制等維度的挑戰。
大模型本質是數字世界的交互,而具身智能必須突破能耗管理、實時響應、實體操作等現實世界的多重技術關卡,這種復雜性導致其發展節奏不可能完全復刻大模型的爆發曲線。行業的起伏本質是資源與關注度前置的必然過程,最終需回歸技術沉淀與場景落地的規律,用自動駕駛領域的耐心來看待具身智能的成長更為理性。
Q:大模型熱潮是否讓市場對具身智能發展速度產生誤判?兩者底層邏輯是否存在本質差異?
羅劍嵐:大模型與具身智能存在根本性代差。大模型作為數字世界的概率游戲,60%準確率已具備可用性,因為人類會主動糾偏——即便GPT建議喝農藥,正常人也不會執行。但具身智能在物理世界60%的動作成功率意味著災難:家庭機器人每3小時摔碎杯子,咖啡機20分鐘潑灑一次,這種失誤伴隨物理后果,用戶容忍度趨近于零。
因此,這正是自動駕駛打磨十年才敢商用的原因,即便當前可靠性達99.9%,仍需追求更高安全閾值。大模型技術可遷移到機器人語義理解、場景分析等模塊,但絕不能簡單套用其發展范式。具身智能的突破必須經歷"物理約束下的漸進改良",任何試圖繞過實體交互試錯過程的預期,都是對技術本質的誤讀。
Q:機器人對動作準確率的嚴苛要求,是否意味著其算法體系需要更多底層創新,而非簡單移植語言模型或模仿學習的技術路徑?
羅劍嵐:技術邏輯層面仍有借鑒價值,但實現路徑需重新校準。大模型將視覺、語言、行動數據統一token化進行端到端預測的范式,在機器人領域尚未形成共識——現有視覺-行動協同方案仍有巨大優化空間。機器人作為物理交互系統,既需要吸收多模態大模型的感知理解能力,也必須構建專屬算法架構。
04.
具身智能完全成熟需要十年以上技術沉淀
Q:參照自動駕駛十年發展周期,當前具身智能處于技術演進的哪個階段?
羅劍嵐:2016年可視為具身智能元年,類比自動駕駛同期的技術萌芽期。經過八年積淀,當前正處于從實驗室原型向商業場景滲透的關鍵轉折點。未來3-5年將在餐飲服務、倉儲物流等封閉場景實現突破,這與自動駕駛先在高速場景落地再擴展至城市道路的路徑相似。但具身智能面臨更復雜的物理交互維度,其完全成熟仍需十年以上技術沉淀。
Q:您一直強調具身智能真實數據優先的原則,這有沒有可能改變自動駕駛依賴仿真訓練的現狀?
羅劍嵐:兩類技術的數據范式本質相通,自動駕駛早期同樣受困仿真與真實數據之爭,如今特斯拉500億英里真實路測數據已構建絕對壁壘。具身智能的突破將反向推動自動駕駛進入"物理增強仿真」新階段——機器人積累的抓取、避障等微觀物理交互數據,能顯著提升自動駕駛系統應對極端場景(如冰面打滑控制、飛石撞擊響應)的預測精度,形成跨領域的物理智能共生生態。
Q:解決動態環境下的長周期復雜任務可以類比成自動駕駛的「端到端長尾場景處理」的任務嗎?兩者邏輯是不是共通的?
羅劍嵐:對,有一些相似性,兩者都是行業一直以來比較困難的技術難題。
Q:當前機器人領域的數據積累策略如何平衡真實場景部署與實驗室訓練?相較于自動駕駛「有圖/無圖」技術路線,具身智能是否更需要實時環境感知能力?
羅劍嵐:技術路線的選擇取決于任務特性。在物體操控(manipulation)這類動態交互場景中,我們更側重端到端的實時感知決策體系——機器人需像人類一樣即時構建環境認知并執行動作,而非依賴預設地圖。這比傳統導航建圖更具挑戰性,但也更貼近真實世界的運行邏輯。
以咖啡制作為例,當機器人在動態環境中處理杯體傾斜、液體晃動等變量時,必須融合視覺識別、力學反饋、運動預測等多維數據流進行毫秒級決策,這種實時響應機制正是具身智能與傳統工業機械臂的本質區別。
Q:機器人會不會同樣面臨缺乏數據的問題,比如尚未大規模部署時,是否會出現「數據不足制約技術突破,技術不足阻礙部署」的死循環?
羅劍嵐:需要轉變「絕對安全才能部署」的思維,與自動駕駛不同,具身智能可采用漸進策略:在星巴克等半封閉場景部署千臺機器人,即便初始成功率僅70%-80%,單月產生的物理交互數據(如突發碰撞、物體滑落等)就能超越實驗室十年積累。
這些真實環境數據能精準暴露材料摩擦系數誤差、力學模型偏差等仿真無法觸及的物理約束。通過「部署→數據反饋→算法迭代」的循環,系統可靠性和數據規模將形成相互促進的飛輪效應。
end.
【關注深度AI,關注深度AI視頻號】
關注汽車的智駕時代上智駕網(http://autor.com.cn)
合作or新聞線索提供,聯系郵箱:editor@autor.com.cn
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.