做“有技術門檻”的Scale AI。
作者|王藝
6月10日,《金融時報》曝出重磅消息:Meta計劃斥資約150億美元入股數據基礎設施獨角獸Scale AI 49%股權。這是繼微軟6.5億美元“整體打包”Inflection團隊、谷歌27億美元綁定Character AI之后,全球科技巨頭在“訓練數據”上開出的迄今最大支票——誰掌握數據,誰就握住了下一輪AI競速的加速鍵。
大語言模型(LLM)早已用“拼算力 + 堆數據”跑通Scaling Law:GPT-4、Claude 3.5等一次訓練就吞掉100萬億tokens。自動駕駛依靠真實道路+仿真場景,累計數百億公里數據。數據饑渴直接催生了獨角獸基礎設施——典型代表Scale AI,2024年營收近9億美元,如今被Meta收購,估值飛躍至280億美元。
然而,當機器人真正走進家庭、倉庫、工廠,所需的卻是物理交互數據:動作軌跡、碰撞反饋、力覺、光照、摩擦……這些數據的獲取難度與成本呈指數級上升。迄今最領先的具身VLA模型Pi-0也只有約1萬小時真機數據,仍遠不及LLM量級——LLM吞掉100萬億tokens,而機器人的高保真交互數據僅相當于其十萬分之一。
那么,究竟從哪里才能找到具身智能領域的Scale AI?
答案可能在于仿真合成數據產業。
1.真實數據與互聯網數據,為何“遠遠不夠”
目前,機器人或具身智能團隊可以獲取訓練數據的途徑大致分為三類:真實數據、互聯網數據與仿真合成數據。
真實數據通常通過遙操作(Teleoperation)的方式采集,人類操作者借助示教器或力反饋手柄直接控制機器人執行任務。為了確保安全與精度,一套能夠輸出關節角、6D姿態、RGB-D及觸覺信息的高自由度機器人動輒要一兩萬美元,且傳感器和末端執行器需要定期標定與更換;實驗室還必須按真實任務場景(例如廚房、倉儲或裝配線)搭建工位,并持續采購道具與耗材。再加上操作員、數據工程師與安全員的人工時薪,以及高頻傳感器數據帶來的存儲與帶寬費用,一個配備五臺機械臂、兩班制運行的中等規模數據采集站,一年就可能燒掉兩三百萬美元,卻只能得到一兩千小時的高質量軌跡。換言之,這類數據雖然“貼近部署環境”,但以LLM訓練的量級來看依然極其稀缺,單樣本邊際成本最高,且無法達成規模化。
在一座配備了5臺7自由度機械臂、晝夜兩班倒的中型“數據工廠”里,全年要燒掉200–300萬美元,卻只能“榨”出區區1000–2000小時的高質量軌跡——而想把數據量放到能支撐LLM級Scaling Law的程度,至少還要再膨脹1000到10000倍。
互聯網數據來自YouTube、Instagram、Bilibili等公開平臺,最大的吸引力在于“量大價低”。公開抓取即可獲得PB級別的視頻,覆蓋從廚房切菜到倉儲揀貨等長尾場景,為具身智能模型提供觀察多樣性的原料。然而,這些內容缺乏動作邊界、接觸點、力信息等精細標注,畫質、視角和光照也高度不穩定,直接提供給模型用于訓練會有巨大Domain Gap,并無法有效作為預訓練數據支持具身基礎模型訓練。版權合規審核也是隱藏成本;一旦涉及商用,獲取授權便成剛需。
仿真合成數據借助物理引擎(如Isaac Sim、MuJoCo等)在服務器集群中并行生成。其核心優勢有三點:第一,可無限擴展,理論上可以在數百張GPU上同時跑上千萬個場景;第二,天生帶齊“全標注”——物體姿態、語義、深度、接觸力矩甚至材質屬性全部由引擎輸出;第三,新增樣本幾乎零邊際成本,真正的成本在于前期制作高保真SimReady資產、精調材質與物理參數以及維持算力開銷。通過域隨機化 (Domain Randomization)、Sensor Noise(傳感器噪聲)注入等技術來縮小仿真-現實差距(Sim2Real Gap) ,行業領先者(DeepMind、NVIDIA、Figure AI 等)已經把機器人訓練在仿真里完成,之后才用少量真實數據微調,實現快速迭代和可控成本。
具身智能三類訓練數據對比,制圖:「甲子光年」
值得注意的是,仿真合成數據并非是要取代真實數據,而是給真實數據的利用“加杠桿”。在具身智能和自動駕駛領域,行業采取的主流做法更多是“混搭”,也就是將真實數據、互聯網數據和仿真合成數據混合在一起進行訓練(Co-Training)。
2.仿真合成數據:放大真實世界的杠桿
仿真合成數據是指通過計算機算法或模擬技術生成的虛擬數據,旨在模仿真實世界的數據分布和特征。它主要應用于人工智能訓練領域,用于解決真實數據獲取成本高、隱私風險大、數據質量參差不齊等問題。
目前,合成數據在各行各業均得到了較為廣泛應用——比如在自然語言處理、銀行與金融服務、醫療、自動駕駛等領域,合成數據均有較為成熟的應用模式,Gartner也預測,到2030年AI模型使用的絕大部分數據將是合成數據。
到2030年,人工智能模型中的合成數據將完全超過真實數據,圖源:Gartner
2022年,德克薩斯州立大學奧斯汀分校的朱玉可教授提出了具身智能的“數據金字塔”理論。
圖源:Yuke Zhu《The Data Pyramid for Building Generalist Agents》
該理論認為,在訓練通用機器人所需要的數據中,最底層、來源最大的是互聯網數據(如YouTube,維基百科,Common Crawl),它是非結構化的、多模態的、被動收集的,對于訓練大型視覺語言模型(VLM)至關重要;中間層是仿真合成數據,從模擬器中生成(如使用Omniverse等工具,以及RoboCasa等項目用于人工智能生成資產、任務,或DexMimicGen用于自動生成軌跡等),這一層比真實世界的數據更具可擴展性,但存在Sim2Real Gap,這是訓練“系統1”(快速、反應性、感覺運動)策略的關鍵;最頂層的是來自真實世界的機器人數據,通過遠程操作等方法直接從機器人硬件收集(如特斯拉的機器人農場),這是最相關也最小、最昂貴的數據集。
朱玉可教授的“數據金字塔”理論被眾多具身智能公司所認可,而這一范式已經被頂尖團隊驗證。
DeepMind最新發布的VLA模型Gemini Robotics采用了雙臂機器人平臺ALOHA2的訓練數據集,該數據集包括真實遙操作數據和利用MuJoCo模型生成的高保真虛擬數據,保證了Gemini Robotics的靈巧性和高泛化性。
英偉達是仿真合成數據的堅定支持者。從仿真合成數據引擎Omniverse Replicator到支持生成多模態數據的Cosmos系列模型,再到世界首個開源的通用人形機器人模型Isaac GR00T N1,英偉達構建了覆蓋數據生成、模擬訓練到部署的全套工具鏈。2025年3月,英偉達還以超3.2億美元的價格收購了合成數據公司Gretel,旨在整合其仿真合成數據平臺、強化自己的AI生態壁壘。
最近開源的通用機器人大模型Isaac GR00T N1在訓練過程中也采用了“數據金字塔”結構。從其論文中可以看出,英偉達使用了真實數據、仿真數據和人類視頻數據和共同訓練機器人,數據占比逐層增大。
無論DeepMind、英偉達還是國內的銀河通用機器人都已經用仿真合成數據訓練具身大模型,并在機器人身上表現出了良好的效果,仿真合成數據在具身智能領域的重要性日益凸顯。
3.仿真合成數據,兩個誤解
盡管仿真合成數據價值巨大,但仿真合成數據領域一直有一個痛點,就是仿真環境與真實環境之間的差異,也就是業內人士常說的“Sim2Real Gap”。這導致了一些對仿真合成數據效果的誤解。
具體有哪些誤解?
第一個誤解是,“只有真實數據才靠譜”。
長期以來,人們普遍認為“真實數據”是最高質量、最有價值的數據來源。對于具身智能而言,似乎搭建大量的“真實數據采集工廠”,讓機器人在真實環境中進行操作并采集數據,是通往通用機器人的康莊大道。真實數據確實是具身智能數據基建的重要組成部分,也是行業正在積極探索的方向。然而,這種觀點往往忽略了一個重要的“陷阱”:真實場景之間也存在巨大的“Real2Real Gap”。
這里的“真實場景”往往指的是在受控環境中搭建的“實景工廠”或實驗室環境,而并非機器人未來真正需要工作的、千變萬化的真實世界。實景工廠的環境布局、物體種類、光照條件等是相對固定的,這與現實世界中動態、開放、充滿未知的情況(例如,不同的家庭環境、混亂的倉庫、復雜的戶外場景)存在固有差異。這構成了第一個層面的“Real2Real Gap”:實景工廠與機器人真實工作環境本身之間的Gap。
同時,由于實景工廠的建設和維護成本高昂,且數量有限,它無法窮盡真實世界的各種復雜場景和“長尾”案例。機器人若只在這些有限的實景環境中進行訓練,其在未見過的真實場景中的泛化能力將受到嚴重限制,難以應對突發情況或特殊任務。
除了場景本身的限制,當前依賴硬件和人工的真實數據采集方式也存在客觀問題。雖然它是具身智能數據積累不可否認的基建,但也面臨數據質量和效率的挑戰。由于早期機器人硬件技術的局限性,本體在執行任務時難以避免抖動、運動軌跡不平滑等問題,采集到的軌跡數據可能并非最優路徑,反而可能引入“噪音”,影響模型訓練的準確性和效率。此外,數據采集工廠的運營成本極高,包括硬件維護(機器人和傳感器經常需要調試甚至維修)、人員培訓(需要大量專業的遙操作人員或維護工程師)等,這些都導致真實數據采集的效率不高,難以快速、低成本地大規模采集。
第二個誤解是,“仿真數據沒物理感,訓練不出好模型”。
仿真合成數據由于具有物理真實性不足、跨模態對齊復雜等特點,因此很多人認為仿真合成數據物理真實性訓練出的模型效果不如真實數據。
但是,Sim2Real Gap并非難以跨越。具身智能訓練中,除了視覺真實性(確保虛擬場景看起來像真實世界)外,物理真實性(確保虛擬場景中的物體交互、動力學遵循真實世界的物理規律)同樣至關重要,甚至對于機器人操作任務而言更為關鍵。物理屬性的重建——如物體的重量、摩擦力等——仍然是行業目前所需要突破的技術點。然而,在很多傳統的仿真合成數據生成方案中,物理真實性常常被忽略或簡化。而物體如何受力、碰撞與變形是決定機器人能否在現實中完成抓取、搬運、裝配的關鍵。
針對Sim2Real Gap,光輪獨創性的提出了Real2Sim2Real+Realism Validation,能夠將多視角照片與物性數據結合生成SimReady資產,在自研仿真器中大規模生成合成數據,最后把模型回灌至真機做分鐘級驗證并即時回寫誤差,形成高速、自收斂的迭代循環。
實測表明,在此框架下訓練的 VLA 模型,只需1∶100 的真機/仿真數據配比,即可把人形機器人從仿真遷到汽車產線——左右手協同裝載零件、搬運重物的成功率與真機采集大體量數據的方案不相上下,卻將數據成本壓到原來的十分之一。
4.做“有技術門檻的”Scale AI
具身智能的商業化一直是行業從業者普遍關心的問題。在產業發展各個時期都存在“賣鏟子”的機會,仿真合成數據就是其中的典型代表。
以大語言模型為例,正如開頭提到的,Scale AI通過“賣數據”給大模型廠商,成為了估值千億的獨角獸公司,而具身智能領域,也有機會通過“賣仿真合成數據”給具身智能廠商的方法,創造屬于自己的Scale AI。
作為具身智能領域的“隱形數據供應商”,我們看到光輪智能的定位和模式,也非常像具身智能領域的Scale AI。根據公開資料,光輪的第一個具身客戶為英偉達,第二個為硅谷估值最高的人形機器人公司Figure AI,接連服務的DeepMind、智元機器人、銀河通用機器人等,都是具身智能領域的巨頭和領跑者。
光輪智能披露的已合作客戶,來源:光輪智能官網
但光輪智能并未完全照搬Scale AI的模式。與Scale AI業務重心偏數據服務不同,光輪智能在算法研發投入方面明顯更高,創造的不僅僅只是“數據”。
以光輪智能與英偉達Isaac GR00T N1人形機器人的合作為例,光輪智能不僅具有數據能力,還擁有VLA算法能力,在N1發布后僅一個月的時間,就幫助其完成了汽車工廠任務的落地。
英偉達公布的合作案例和光輪智能的技術博客還原了這一部署過程。首先,光輪智能利用多樣化的仿真環境,模擬了汽車工廠中的復雜任務場景。他們用NVIDIA Omniverse和光輪的專有 SimReady 資產管道搭建了一個和真實汽車工廠1:1的“Digital Twin(數字孿生)”環境、及相應的“Digital Cousin(數字表親)”,接著由遙操員戴上VR眼鏡,遠程操控虛擬機器人完成工廠任務,比如抓零件、搬重物等。這些操作被記錄下來,變成訓練數據,并通過多種泛化生成快速訓練數據,避免了在真實工廠里反復試錯的成本。最終,光輪智能使用約為100:1的仿真數據和真實數據配比訓練機器人,提升機器人適應工廠環境和零部件形狀變化的能力,且同時少量真實數據則確保機器人的動作符合物理規律。
使用光輪智能VLA模型和數據訓練的英偉達N1機器人,視頻來源:光輪智能
從部署N1的案例可以看出,光輪智能的能力并非僅局限于仿真數據生產,而是以仿真為中心,加速VLA+RL算法訓練的體系化能力。這種能力使得光輪智能可以快速將真實場景數字孿生到仿真環境中,通過仿真遙操作快速采集訓練數據,并基于VLA的FineTuning與RL顯著加速模型Sim2Real落地部署,實現了工業級應用。
因此,光輪智能想做的并不是一家單純的數據公司,而是“有技術門檻的”Scale AI。正如光輪智能對英偉達Isaac GR00T N1的賦能,這種兼具仿真能力與算法Sim2Real能力的數據公司,或許才是具身行業Scale AI發展的終極方向。
(封面圖來源:光輪智能)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.