網易首頁 > 網易號 > 正文申請入駐

獨家對話光輪智能：合成數據如何破解AI“數據饑渴”｜50x50

2025-05-30 18:20:12　來源: 鈦媒體APP

北京舉報

分享至

「50個技術賽道，50家創業公司」是一檔聚焦前沿科技領域創新力量的深度探索欄目。我們以全球視野掃描新興技術趨勢，每期深入一個細分技術賽道，挖掘最具顛覆潛力的創業公司。呈現技術的商業價值，展示創新者的先鋒姿態。本文為第五篇。

在人工智能飛速演進的當下，數據的價值變得愈發關鍵。以大模型和具身智能為代表的新一代AI系統，正逼近傳統數據采集方式的極限。

MIT等機構預測，若按當前速度發展，人類生成的真實數據（尤其是高質量文本數據）將在2-8年內被消耗殆盡，到2026年可能用完互聯網可用文本數據，而具身智能更是對數據呈指數的級膨脹需求，達到了EB（1EB = 1024PB）級別。

面對“數據荒”的危機，合成數據（Synthetic Data）被視為打破瓶頸的關鍵鑰匙，也成為業界共識的解決方案。英偉達科學家 Jim Fan 曾指出，未來AI模型的訓練數據，將有望由合成數據提供萬億級token支持。

合成數據（Synthetic Data）是一種模仿真實世界數據的非人工創建的數據，它是由基于生成式人工智能技術的計算算法和模擬創建而成。早在1993年，著名統計學家Donald Rubin就在論文中提出了合成數據的概念。近年來，隨著ChatGPT的火爆和生成式人工智能技術的發展，合成數據概念受到越來越多的關注。

相比傳統的真實數據采集方式，合成數據的優勢不僅在于成本低、效率高，還包括無需標注、更強泛化性等特性。

Gartner預測，到2030年合成數據將成為AI模型的主要訓練來源，市場規模預計超過86億美元。其應用場景廣泛，涵蓋自動駕駛、醫療健康、金融、零售等多個領域，在提升模型性能、保護隱私、系統測試等方面發揮著重要作用。

全球科技巨頭已紛紛布局：英偉達推出Omniverse Replicator生成高精度3D仿真數據，并收購合成數據公司Gretel；微軟開源Synthetic Data Showcase工具，服務于醫療和金融場景；Meta則通過Llama 3自生成數據優化代碼生成能力。

在國內，一批新興合成數據企業也正在崛起。2023年，專注具身智能的合成數據公司——光輪智能應運而生。公司首創將生成式AI與仿真技術結合，用以構建大規模、可交互、高保真的訓練場景，重塑自動駕駛與具身智能的數據體系。

團隊成員來自英偉達、Cruise等全球領先企業，具備AI、仿真、合成數據工程化落地等多領域交叉背景。目前，已服務例如英偉達、DeepMind、Figure、銀河、智元多家國際頭部客戶以及全球高校實驗室。

值得一提的是，成立短短兩年多時間，光輪智能已完成五輪融資，投資方包括北京市人工智能產業基金、經緯創投、奇績創壇、辰韜資本等。

近期，我們對話了光輪智能技術生態負責人甘宇飛，圍繞“合成數據如何驅動具身智能”和“行業技術挑戰”展開深度探討。

以下為創投家與甘宇飛對話全文，略有刪減：

創投家：目前合成數據在機器人、自動駕駛等領域的使用占比如何？哪些場景會用到比較多的合成數據？

甘宇飛：在自動駕駛領域，合成數據的使用比例大約在30%至40%之間，而在具身智能領域，這一比例則高達80%至90%。

具身智能中的數據采集成本很高，需要搭建實景環境、部署機器人并進行日常維護，效率低。而合成數據可以通過仿真的方式快速構建多樣化場景，成本更低、效率更高。

目前合成數據在具身智能的不同階段，包括預訓練、后訓練、評測目前都有很大的數據缺口，具身智能產品研發的全生命周期都需要用到大量的合成數據。

創投家：生成式 AI 與仿真技術的結合對合成數據行業的有哪些促進作用？未來 3-5 年的技術演進方向可能是什么？

甘宇飛：AI圖像生成和仿真技術各有優劣。生成式AI擅長視覺逼真度，但在空間尺度和物理約束方面缺乏精確控制；仿真技術則強調物理一致性，但在真實感和生成效率上遜色一些。

將兩者融合，是我們認為最具前景的發展方向。例如，神經渲染技術正逐步成熟，它結合AI視覺生成與仿真建模能力，能夠直接輸出具備真實感和物理精度的3D場景與資產。

此外，未來的合成數據應當更“真實”，更“極端”，更“高效”——能模擬現實中罕見卻關鍵的長尾事件，幫助AI模型提升魯棒性。

創投家：為什么純AI生成的合成數據不可行？

甘宇飛：因為純AI生成數據可能會讓模型“自我循環崩潰”。這在早期研究中就已被證實，比如GPT會在多輪純合成訓練下崩潰、自動駕駛模型在純合成數據訓練后會采取危險而積極的駕駛風格。當模型用自身生成的數據不斷訓練自己時，誤差會逐步放大，數據分布也會偏離現實，最終導致模型性能下降甚至崩潰。

要想保持模型的穩定性與現實對齊，必須引入人類示范或真實世界的“錨點”，讓AI理解世界的本質。這是合成數據構建中不可缺少的一環。比如特斯拉會利用五星司機的數據迭代自駕算法，ChatGPT會找各個領域專家來做RLHF（人類反饋強化學習），而在具身領域，光輪使用人類專家的示范動作來作為合成數據的來源。

創投家：合成數據的 “真實性” 如何量化評估？當前行業在視覺 - 物理一致性等方面的技術難度和挑戰是什么？

甘宇飛：我們將真實性評估分為三層：

首先是量化檢查，通過自動化工具逐項檢測物體屬性是否符合真實世界，例如瓶子的顏色、重量、材質、貼紙、旋蓋方向等。

其次是主觀判別，借助判別模型評估合成數據是否足夠逼真，目標是讓模型“分不清”真假。

最后是效用驗證，最核心的一步是實戰驗證，看合成數據是否真正提升了模型效果。例如在長尾場景中的識別準確率是否提升，是否有效支持客戶業務目標。

創投家：具身領域的合成數據相比自駕領域的合成數據有什么不同的地方？

甘宇飛：具身智能是更復雜的“多任務交互系統”，其對數據的需求遠超自動駕駛。

主要體現在四個方面：

首先是數據量級更大，自動駕駛數據為PB級，而具身智能則需要EB級數據。例如在家務場景中，機器人需處理疊被、洗碗、開門等復雜交互，任務維度和場景復雜度遠高于自動駕駛。

其次是交互維度更豐富，尤其是物理交互，自動駕駛追求“無交互”，即盡量避免碰撞。而具身智能必須主動與世界互動，例如抓取易碎玻璃或柔軟衣物，這對合成數據的物理屬性要求極高。

然后是適配難度更大，自動駕駛車輛相對標準化，而具身機器人千姿百態，從人形機器人到機械臂，形態與關節結構各異，數據生成必須因機而異。

最后是數據積累的階段不同，不同于自動駕駛，具身智能仍處于起步階段，尚未形成大規模真實數據積累，因此合成數據在這一階段扮演著更關鍵的角色。

創投家：具身場景中真實數據與合成數據的最佳實踐占比分別是多少？實際提升效果如何？

甘宇飛：根據我們的實踐經驗與行業研究，當前真實數據與合成數據的最佳組合比例大致為 1:10，當然，這一比例也會根據具體應用場景而動態調整。

更重要的是，在引入合成數據后，模型性能通常能實現顯著提升。比如在物體檢測、交互識別等任務中，合成數據的加入可帶來平均30%左右的性能增益。這不僅體現在精度上，更體現在模型對復雜環境的泛化能力上。

簡而言之，合成數據正在成為構建高效具身智能模型的關鍵加速器。

創投家：行業里面有純真實和純合成的路線之爭，你們如何看待？

甘宇飛：在真實項目中，其實并不存在所謂的“路線之爭”——效果優先，永遠是技術決策的第一準則。

實踐中，混合使用真實與合成數據已被證明是最優解。例如在英偉達最新開源的人形機器人基座模型 GR00T N1 中，采用“混合訓練”（co-training）的策略，其性能明顯優于純真實或純合成方案。其中光輪為此提供了大量合成數據資產，我們也將持續為其后續 Nx 系列模型提供數據支持，并與行業共享我們的經驗。

真正能落地的方案，往往都是多種技術手段協同演進的結果。在光輪，我們采用的是“混合訓練策略”——根據模型訓練階段和任務需求靈活調整真實與合成數據比例，實現效率與效果的最佳平衡。

創投家：相對于其他的提供數據解決方案的企業，光輪智能在技術上的差異化優勢是什么？

甘宇飛：我們堅持從“物理真實感”出發打造合成數據。高精度物理仿真能力是光輪的核心優勢。我們提供的數字資產具備重量、質地、觸感、邏輯交互等物理屬性，能夠真實還原機器人在現實中的動作反饋。

其次，強調人類示范數據的價值。只有讓模型看到人類如何完成任務，它才能更深刻地理解意圖、策略和行為邏輯，從而構建更強的認知能力。

為了提升數據的使用效率和模型的效果，我們認為還應該高度重視數據的泛化性。通過對仿真環境中的多維度控制，我們能主動生成覆蓋不同情境、角度和復雜度的任務數據，從而解決具身智能中的“real2real gap”問題，也就是“真實世界中數據之間的鴻溝”。

創投家：目前光輪智能的主要客戶群體是哪些？能否分享 1-2 個典型案例。

甘宇飛：我們的客戶包括眾多國內外頂級機構，如英偉達、DeepMind、Figure AI 以及多家一流高校實驗室。

例如，在英偉達開源人形機器人模型 GR00T N1 項目中，我們為其提供了全套合成數據支持，包括遙操作行為數據、仿真場景與交互資產，幫助其在復雜物理交互任務中的模型訓練。

在國內，我們為智元提供了具備高保真物理屬性的仿真資產，智元在此基礎上構建并發布了公開數據集 Agibot Digital World，為行業提供了高質量的具身智能訓練資源。

其他客戶還包括字節跳動、銀河等，只要需要使用高質量物理交互數據的公司基本上都是我們的客戶。

創投家：光輪最近在對外場合強調real2real gap，這是什么意思，怎么理解？

甘宇飛：在和客戶實際合作中我們發現，很多時候場景之間的分布差異即real2real gap很大，而這點是經常不被重視的。

我們認為需要考慮到數據之間的real2real gap，這點在真實數據中很難通過靠擺拍采集來解決，最好的辦法就是利用仿真技術，快速泛化場景從而通過合成數據解決這一問題。結合數據生產效率、數據泛化性等維度看，當下合成數據就是具身智能的最優選擇。

創投家：目前光輪智能的仿真資產和場景覆蓋到了哪些場景？哪些場景是客戶比較關注的？

甘宇飛：我們的仿真場景涵蓋了居家、商超、工業、實驗室、農業、水域等多個場景，且注重地域多樣性的還原。

以居家場景為例，國內廚房通常面積較小、家電緊湊，而海外家庭廚房則寬敞、設備種類多樣（如雙開門冰箱、咖啡機、旋鈕式微波爐等）。

這種高度定制化的仿真能力，使我們在跨國公司和不同地區的客戶中獲得了良好口碑。

創投家：目前仿真合成數據領域還有哪些挑戰是亟待解決的？你們目前進展如何？

甘宇飛：目前最大的挑戰，是整個行業仍處在早期發展階段，尤其在數據標準化與關鍵技術攻堅方面。

首先，數據標準的缺失限制了行業協同效率。光輪基于多年業務積累，制定并推廣了一套標準數據格式，正在被越來越多客戶采納。

其次是技術層面，柔體仿真與觸覺仿真是目前重點攻堅方向。例如，機器人在疊衣服或穿針引線這類細致任務中，對柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真，還需要硬件協同。

目前我們已在這兩個方向持續投入，力求在真實還原復雜交互場景的同時，提升模型訓練的上限與穩定性。

（本文首發于鈦媒體App，作者｜郭虹妘，編輯｜陶天宇）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.