「50個技術賽道,50家創業公司」是一檔聚焦前沿科技領域創新力量的深度探索欄目。我們以全球視野掃描新興技術趨勢,每期深入一個細分技術賽道,挖掘最具顛覆潛力的創業公司。呈現技術的商業價值,展示創新者的先鋒姿態。 本文為第五篇。
在人工智能飛速演進的當下,數據的價值變得愈發關鍵。以大模型和具身智能為代表的新一代AI系統,正逼近傳統數據采集方式的極限。
MIT等機構預測,若按當前速度發展,人類生成的真實數據(尤其是高質量文本數據)將在2-8年內被消耗殆盡,到2026年可能用完互聯網可用文本數據,而具身智能更是對數據呈指數的級膨脹需求,達到了EB(1EB = 1024PB)級別。
面對“數據荒”的危機,合成數據(Synthetic Data)被視為打破瓶頸的關鍵鑰匙,也成為業界共識的解決方案。英偉達科學家 Jim Fan 曾指出,未來AI模型的訓練數據,將有望由合成數據提供萬億級token支持。
合成數據(Synthetic Data)是一種模仿真實世界數據的非人工創建的數據,它是由基于生成式人工智能技術的計算算法和模擬創建而成。早在1993年,著名統計學家Donald Rubin就在論文中提出了合成數據的概念。近年來,隨著ChatGPT的火爆和生成式人工智能技術的發展,合成數據概念受到越來越多的關注。
相比傳統的真實數據采集方式,合成數據的優勢不僅在于成本低、效率高,還包括無需標注、更強泛化性等特性。
Gartner預測,到2030年合成數據將成為AI模型的主要訓練來源,市場規模預計超過86億美元。其應用場景廣泛,涵蓋自動駕駛、醫療健康、金融、零售等多個領域,在提升模型性能、保護隱私、系統測試等方面發揮著重要作用。
全球科技巨頭已紛紛布局:英偉達推出Omniverse Replicator生成高精度3D仿真數據,并收購合成數據公司Gretel;微軟開源Synthetic Data Showcase工具,服務于醫療和金融場景;Meta則通過Llama 3自生成數據優化代碼生成能力。
在國內,一批新興合成數據企業也正在崛起。2023年,專注具身智能的合成數據公司——光輪智能應運而生。公司首創將生成式AI與仿真技術結合,用以構建大規模、可交互、高保真的訓練場景,重塑自動駕駛與具身智能的數據體系。
團隊成員來自英偉達、Cruise等全球領先企業,具備AI、仿真、合成數據工程化落地等多領域交叉背景。目前,已服務例如英偉達、DeepMind、Figure、銀河、智元多家國際頭部客戶以及全球高校實驗室。
值得一提的是,成立短短兩年多時間,光輪智能已完成五輪融資,投資方包括北京市人工智能產業基金、經緯創投、奇績創壇、辰韜資本等。
近期,我們對話了光輪智能技術生態負責人甘宇飛,圍繞“合成數據如何驅動具身智能”和“行業技術挑戰”展開深度探討。
以下為創投家與甘宇飛對話全文,略有刪減:
創投家:目前合成數據在機器人、自動駕駛等領域的使用占比如何?哪些場景會用到比較多的合成數據?
甘宇飛:在自動駕駛領域,合成數據的使用比例大約在30%至40%之間,而在具身智能領域,這一比例則高達80%至90%。
具身智能中的數據采集成本很高,需要搭建實景環境、部署機器人并進行日常維護,效率低。而合成數據可以通過仿真的方式快速構建多樣化場景,成本更低、效率更高。
目前合成數據在具身智能的不同階段,包括預訓練、后訓練、評測目前都有很大的數據缺口,具身智能產品研發的全生命周期都需要用到大量的合成數據。
創投家:生成式 AI 與仿真技術的結合對合成數據行業的有哪些促進作用?未來 3-5 年的技術演進方向可能是什么?
甘宇飛:AI圖像生成和仿真技術各有優劣。生成式AI擅長視覺逼真度,但在空間尺度和物理約束方面缺乏精確控制;仿真技術則強調物理一致性,但在真實感和生成效率上遜色一些。
將兩者融合,是我們認為最具前景的發展方向。例如,神經渲染技術正逐步成熟,它結合AI視覺生成與仿真建模能力,能夠直接輸出具備真實感和物理精度的3D場景與資產。
此外,未來的合成數據應當更“真實”,更“極端”,更“高效”——能模擬現實中罕見卻關鍵的長尾事件,幫助AI模型提升魯棒性。
創投家:為什么純AI生成的合成數據不可行?
甘宇飛:因為純AI生成數據可能會讓模型“自我循環崩潰”。這在早期研究中就已被證實,比如GPT會在多輪純合成訓練下崩潰、自動駕駛模型在純合成數據訓練后會采取危險而積極的駕駛風格。當模型用自身生成的數據不斷訓練自己時,誤差會逐步放大,數據分布也會偏離現實,最終導致模型性能下降甚至崩潰。
要想保持模型的穩定性與現實對齊,必須引入人類示范或真實世界的“錨點”,讓AI理解世界的本質。這是合成數據構建中不可缺少的一環。比如特斯拉會利用五星司機的數據迭代自駕算法,ChatGPT會找各個領域專家來做RLHF(人類反饋強化學習),而在具身領域,光輪使用人類專家的示范動作來作為合成數據的來源。
創投家:合成數據的 “真實性” 如何量化評估?當前行業在視覺 - 物理一致性等方面的技術難度和挑戰是什么?
甘宇飛:我們將真實性評估分為三層:
首先是量化檢查,通過自動化工具逐項檢測物體屬性是否符合真實世界,例如瓶子的顏色、重量、材質、貼紙、旋蓋方向等。
其次是主觀判別,借助判別模型評估合成數據是否足夠逼真,目標是讓模型“分不清”真假。
最后是效用驗證,最核心的一步是實戰驗證,看合成數據是否真正提升了模型效果。例如在長尾場景中的識別準確率是否提升,是否有效支持客戶業務目標。
創投家:具身領域的合成數據相比自駕領域的合成數據有什么不同的地方?
甘宇飛:具身智能是更復雜的“多任務交互系統”,其對數據的需求遠超自動駕駛。
主要體現在四個方面:
首先是數據量級更大,自動駕駛數據為PB級,而具身智能則需要EB級數據。例如在家務場景中,機器人需處理疊被、洗碗、開門等復雜交互,任務維度和場景復雜度遠高于自動駕駛。
其次是交互維度更豐富,尤其是物理交互,自動駕駛追求“無交互”,即盡量避免碰撞。而具身智能必須主動與世界互動,例如抓取易碎玻璃或柔軟衣物,這對合成數據的物理屬性要求極高。
然后是適配難度更大,自動駕駛車輛相對標準化,而具身機器人千姿百態,從人形機器人到機械臂,形態與關節結構各異,數據生成必須因機而異。
最后是數據積累的階段不同,不同于自動駕駛,具身智能仍處于起步階段,尚未形成大規模真實數據積累,因此合成數據在這一階段扮演著更關鍵的角色。
創投家:具身場景中真實數據與合成數據的最佳實踐占比分別是多少?實際提升效果如何?
甘宇飛:根據我們的實踐經驗與行業研究,當前真實數據與合成數據的最佳組合比例大致為 1:10,當然,這一比例也會根據具體應用場景而動態調整。
更重要的是,在引入合成數據后,模型性能通常能實現顯著提升。比如在物體檢測、交互識別等任務中,合成數據的加入可帶來平均30%左右的性能增益。這不僅體現在精度上,更體現在模型對復雜環境的泛化能力上。
簡而言之,合成數據正在成為構建高效具身智能模型的關鍵加速器。
創投家:行業里面有純真實和純合成的路線之爭,你們如何看待?
甘宇飛:在真實項目中,其實并不存在所謂的“路線之爭”——效果優先,永遠是技術決策的第一準則。
實踐中,混合使用真實與合成數據已被證明是最優解。例如在英偉達最新開源的人形機器人基座模型 GR00T N1 中,采用“混合訓練”(co-training)的策略,其性能明顯優于純真實或純合成方案。其中光輪為此提供了大量合成數據資產,我們也將持續為其后續 Nx 系列模型提供數據支持,并與行業共享我們的經驗。
真正能落地的方案,往往都是多種技術手段協同演進的結果。在光輪,我們采用的是“混合訓練策略”——根據模型訓練階段和任務需求靈活調整真實與合成數據比例,實現效率與效果的最佳平衡。
創投家:相對于其他的提供數據解決方案的企業,光輪智能在技術上的差異化優勢是什么?
甘宇飛:我們堅持從“物理真實感”出發打造合成數據。高精度物理仿真能力是光輪的核心優勢。我們提供的數字資產具備重量、質地、觸感、邏輯交互等物理屬性,能夠真實還原機器人在現實中的動作反饋。
其次,強調人類示范數據的價值。只有讓模型看到人類如何完成任務,它才能更深刻地理解意圖、策略和行為邏輯,從而構建更強的認知能力。
為了提升數據的使用效率和模型的效果,我們認為還應該高度重視數據的泛化性。通過對仿真環境中的多維度控制,我們能主動生成覆蓋不同情境、角度和復雜度的任務數據,從而解決具身智能中的“real2real gap”問題,也就是“真實世界中數據之間的鴻溝”。
創投家:目前光輪智能的主要客戶群體是哪些?能否分享 1-2 個典型案例。
甘宇飛:我們的客戶包括眾多國內外頂級機構,如英偉達、DeepMind、Figure AI 以及多家一流高校實驗室。
例如,在英偉達開源人形機器人模型 GR00T N1 項目中,我們為其提供了全套合成數據支持,包括遙操作行為數據、仿真場景與交互資產,幫助其在復雜物理交互任務中的模型訓練。
在國內,我們為智元提供了具備高保真物理屬性的仿真資產,智元在此基礎上構建并發布了公開數據集 Agibot Digital World,為行業提供了高質量的具身智能訓練資源。
其他客戶還包括字節跳動、銀河等,只要需要使用高質量物理交互數據的公司基本上都是我們的客戶。
創投家:光輪最近在對外場合強調real2real gap,這是什么意思,怎么理解?
甘宇飛:在和客戶實際合作中我們發現,很多時候場景之間的分布差異即real2real gap很大,而這點是經常不被重視的。
我們認為需要考慮到數據之間的real2real gap,這點在真實數據中很難通過靠擺拍采集來解決,最好的辦法就是利用仿真技術,快速泛化場景從而通過合成數據解決這一問題。結合數據生產效率、數據泛化性等維度看,當下合成數據就是具身智能的最優選擇。
創投家:目前光輪智能的仿真資產和場景覆蓋到了哪些場景?哪些場景是客戶比較關注的?
甘宇飛:我們的仿真場景涵蓋了居家、商超、工業、實驗室、農業、水域等多個場景,且注重地域多樣性的還原。
以居家場景為例,國內廚房通常面積較小、家電緊湊,而海外家庭廚房則寬敞、設備種類多樣(如雙開門冰箱、咖啡機、旋鈕式微波爐等)。
這種高度定制化的仿真能力,使我們在跨國公司和不同地區的客戶中獲得了良好口碑。
創投家:目前仿真合成數據領域還有哪些挑戰是亟待解決的?你們目前進展如何?
甘宇飛:目前最大的挑戰,是整個行業仍處在早期發展階段,尤其在數據標準化與關鍵技術攻堅方面。
首先,數據標準的缺失限制了行業協同效率。光輪基于多年業務積累,制定并推廣了一套標準數據格式,正在被越來越多客戶采納。
其次是技術層面,柔體仿真與觸覺仿真是目前重點攻堅方向。例如,機器人在疊衣服或穿針引線這類細致任務中,對柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真,還需要硬件協同。
目前我們已在這兩個方向持續投入,力求在真實還原復雜交互場景的同時,提升模型訓練的上限與穩定性。
(本文首發于鈦媒體App,作者|郭虹妘,編輯|陶天宇)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.