99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獨家對話光輪智能:合成數據如何破解AI“數據饑渴”|50x50

0
分享至

「50個技術賽道,50家創業公司」是一檔聚焦前沿科技領域創新力量的深度探索欄目。我們以全球視野掃描新興技術趨勢,每期深入一個細分技術賽道,挖掘最具顛覆潛力的創業公司。呈現技術的商業價值,展示創新者的先鋒姿態。 本文為第五篇。

在人工智能飛速演進的當下,數據的價值變得愈發關鍵。以大模型和具身智能為代表的新一代AI系統,正逼近傳統數據采集方式的極限。

MIT等機構預測,若按當前速度發展,人類生成的真實數據(尤其是高質量文本數據)將在2-8年內被消耗殆盡,到2026年可能用完互聯網可用文本數據,而具身智能更是對數據呈指數的級膨脹需求,達到了EB(1EB = 1024PB)級別。

面對“數據荒”的危機,合成數據(Synthetic Data)被視為打破瓶頸的關鍵鑰匙,也成為業界共識的解決方案。英偉達科學家 Jim Fan 曾指出,未來AI模型的訓練數據,將有望由合成數據提供萬億級token支持。

合成數據(Synthetic Data)是一種模仿真實世界數據的非人工創建的數據,它是由基于生成式人工智能技術的計算算法和模擬創建而成。早在1993年,著名統計學家Donald Rubin就在論文中提出了合成數據的概念。近年來,隨著ChatGPT的火爆和生成式人工智能技術的發展,合成數據概念受到越來越多的關注。

相比傳統的真實數據采集方式,合成數據的優勢不僅在于成本低、效率高,還包括無需標注、更強泛化性等特性。

Gartner預測,到2030年合成數據將成為AI模型的主要訓練來源,市場規模預計超過86億美元。其應用場景廣泛,涵蓋自動駕駛、醫療健康、金融、零售等多個領域,在提升模型性能、保護隱私、系統測試等方面發揮著重要作用。

全球科技巨頭已紛紛布局:英偉達推出Omniverse Replicator生成高精度3D仿真數據,并收購合成數據公司Gretel;微軟開源Synthetic Data Showcase工具,服務于醫療和金融場景;Meta則通過Llama 3自生成數據優化代碼生成能力。

在國內,一批新興合成數據企業也正在崛起。2023年,專注具身智能的合成數據公司——光輪智能應運而生。公司首創將生成式AI與仿真技術結合,用以構建大規模、可交互、高保真的訓練場景,重塑自動駕駛與具身智能的數據體系。

團隊成員來自英偉達、Cruise等全球領先企業,具備AI、仿真、合成數據工程化落地等多領域交叉背景。目前,已服務例如英偉達、DeepMind、Figure、銀河、智元多家國際頭部客戶以及全球高校實驗室。

值得一提的是,成立短短兩年多時間,光輪智能已完成五輪融資,投資方包括北京市人工智能產業基金、經緯創投、奇績創壇、辰韜資本等。

近期,我們對話了光輪智能技術生態負責人甘宇飛,圍繞“合成數據如何驅動具身智能”和“行業技術挑戰”展開深度探討。

以下為創投家與甘宇飛對話全文,略有刪減:

創投家:目前合成數據在機器人、自動駕駛等領域的使用占比如何?哪些場景會用到比較多的合成數據?

甘宇飛:在自動駕駛領域,合成數據的使用比例大約在30%至40%之間,而在具身智能領域,這一比例則高達80%至90%。

具身智能中的數據采集成本很高,需要搭建實景環境、部署機器人并進行日常維護,效率低。而合成數據可以通過仿真的方式快速構建多樣化場景,成本更低、效率更高。

目前合成數據在具身智能的不同階段,包括預訓練、后訓練、評測目前都有很大的數據缺口,具身智能產品研發的全生命周期都需要用到大量的合成數據。

創投家:生成式 AI 與仿真技術的結合對合成數據行業的有哪些促進作用?未來 3-5 年的技術演進方向可能是什么?

甘宇飛:AI圖像生成和仿真技術各有優劣。生成式AI擅長視覺逼真度,但在空間尺度和物理約束方面缺乏精確控制;仿真技術則強調物理一致性,但在真實感和生成效率上遜色一些。

將兩者融合,是我們認為最具前景的發展方向。例如,神經渲染技術正逐步成熟,它結合AI視覺生成與仿真建模能力,能夠直接輸出具備真實感和物理精度的3D場景與資產。

此外,未來的合成數據應當更“真實”,更“極端”,更“高效”——能模擬現實中罕見卻關鍵的長尾事件,幫助AI模型提升魯棒性。

創投家:為什么純AI生成的合成數據不可行?

甘宇飛:因為純AI生成數據可能會讓模型“自我循環崩潰”。這在早期研究中就已被證實,比如GPT會在多輪純合成訓練下崩潰、自動駕駛模型在純合成數據訓練后會采取危險而積極的駕駛風格。當模型用自身生成的數據不斷訓練自己時,誤差會逐步放大,數據分布也會偏離現實,最終導致模型性能下降甚至崩潰。

要想保持模型的穩定性與現實對齊,必須引入人類示范或真實世界的“錨點”,讓AI理解世界的本質。這是合成數據構建中不可缺少的一環。比如特斯拉會利用五星司機的數據迭代自駕算法,ChatGPT會找各個領域專家來做RLHF(人類反饋強化學習),而在具身領域,光輪使用人類專家的示范動作來作為合成數據的來源。

創投家:合成數據的 “真實性” 如何量化評估?當前行業在視覺 - 物理一致性等方面的技術難度和挑戰是什么?

甘宇飛:我們將真實性評估分為三層:

首先是量化檢查,通過自動化工具逐項檢測物體屬性是否符合真實世界,例如瓶子的顏色、重量、材質、貼紙、旋蓋方向等。

其次是主觀判別,借助判別模型評估合成數據是否足夠逼真,目標是讓模型“分不清”真假。

最后是效用驗證,最核心的一步是實戰驗證,看合成數據是否真正提升了模型效果。例如在長尾場景中的識別準確率是否提升,是否有效支持客戶業務目標。

創投家:具身領域的合成數據相比自駕領域的合成數據有什么不同的地方?

甘宇飛:具身智能是更復雜的“多任務交互系統”,其對數據的需求遠超自動駕駛。

主要體現在四個方面:

首先是數據量級更大,自動駕駛數據為PB級,而具身智能則需要EB級數據。例如在家務場景中,機器人需處理疊被、洗碗、開門等復雜交互,任務維度和場景復雜度遠高于自動駕駛。

其次是交互維度更豐富,尤其是物理交互,自動駕駛追求“無交互”,即盡量避免碰撞。而具身智能必須主動與世界互動,例如抓取易碎玻璃或柔軟衣物,這對合成數據的物理屬性要求極高。

然后是適配難度更大,自動駕駛車輛相對標準化,而具身機器人千姿百態,從人形機器人到機械臂,形態與關節結構各異,數據生成必須因機而異。

最后是數據積累的階段不同,不同于自動駕駛,具身智能仍處于起步階段,尚未形成大規模真實數據積累,因此合成數據在這一階段扮演著更關鍵的角色。

創投家:具身場景中真實數據與合成數據的最佳實踐占比分別是多少?實際提升效果如何?

甘宇飛:根據我們的實踐經驗與行業研究,當前真實數據與合成數據的最佳組合比例大致為 1:10,當然,這一比例也會根據具體應用場景而動態調整。

更重要的是,在引入合成數據后,模型性能通常能實現顯著提升。比如在物體檢測、交互識別等任務中,合成數據的加入可帶來平均30%左右的性能增益。這不僅體現在精度上,更體現在模型對復雜環境的泛化能力上。

簡而言之,合成數據正在成為構建高效具身智能模型的關鍵加速器。

創投家:行業里面有純真實和純合成的路線之爭,你們如何看待?

甘宇飛:在真實項目中,其實并不存在所謂的“路線之爭”——效果優先,永遠是技術決策的第一準則

實踐中,混合使用真實與合成數據已被證明是最優解。例如在英偉達最新開源的人形機器人基座模型 GR00T N1 中,采用“混合訓練”(co-training)的策略,其性能明顯優于純真實或純合成方案。其中光輪為此提供了大量合成數據資產,我們也將持續為其后續 Nx 系列模型提供數據支持,并與行業共享我們的經驗。

真正能落地的方案,往往都是多種技術手段協同演進的結果。在光輪,我們采用的是“混合訓練策略”——根據模型訓練階段和任務需求靈活調整真實與合成數據比例,實現效率與效果的最佳平衡。

創投家:相對于其他的提供數據解決方案的企業,光輪智能在技術上的差異化優勢是什么?

甘宇飛:我們堅持從“物理真實感”出發打造合成數據。高精度物理仿真能力是光輪的核心優勢。我們提供的數字資產具備重量、質地、觸感、邏輯交互等物理屬性,能夠真實還原機器人在現實中的動作反饋。

其次,強調人類示范數據的價值。只有讓模型看到人類如何完成任務,它才能更深刻地理解意圖、策略和行為邏輯,從而構建更強的認知能力。

為了提升數據的使用效率和模型的效果,我們認為還應該高度重視數據的泛化性。通過對仿真環境中的多維度控制,我們能主動生成覆蓋不同情境、角度和復雜度的任務數據,從而解決具身智能中的“real2real gap”問題,也就是“真實世界中數據之間的鴻溝”。

創投家:目前光輪智能的主要客戶群體是哪些?能否分享 1-2 個典型案例。

甘宇飛:我們的客戶包括眾多國內外頂級機構,如英偉達、DeepMind、Figure AI 以及多家一流高校實驗室。

例如,在英偉達開源人形機器人模型 GR00T N1 項目中,我們為其提供了全套合成數據支持,包括遙操作行為數據、仿真場景與交互資產,幫助其在復雜物理交互任務中的模型訓練。

在國內,我們為智元提供了具備高保真物理屬性的仿真資產,智元在此基礎上構建并發布了公開數據集 Agibot Digital World,為行業提供了高質量的具身智能訓練資源。

其他客戶還包括字節跳動、銀河等,只要需要使用高質量物理交互數據的公司基本上都是我們的客戶。

創投家:光輪最近在對外場合強調real2real gap,這是什么意思,怎么理解?

甘宇飛:在和客戶實際合作中我們發現,很多時候場景之間的分布差異即real2real gap很大,而這點是經常不被重視的。

我們認為需要考慮到數據之間的real2real gap,這點在真實數據中很難通過靠擺拍采集來解決,最好的辦法就是利用仿真技術,快速泛化場景從而通過合成數據解決這一問題。結合數據生產效率、數據泛化性等維度看,當下合成數據就是具身智能的最優選擇。

創投家:目前光輪智能的仿真資產和場景覆蓋到了哪些場景?哪些場景是客戶比較關注的?

甘宇飛:我們的仿真場景涵蓋了居家、商超、工業、實驗室、農業、水域等多個場景,且注重地域多樣性的還原。

以居家場景為例,國內廚房通常面積較小、家電緊湊,而海外家庭廚房則寬敞、設備種類多樣(如雙開門冰箱、咖啡機、旋鈕式微波爐等)。

這種高度定制化的仿真能力,使我們在跨國公司和不同地區的客戶中獲得了良好口碑。

創投家:目前仿真合成數據領域還有哪些挑戰是亟待解決的?你們目前進展如何?

甘宇飛:目前最大的挑戰,是整個行業仍處在早期發展階段,尤其在數據標準化與關鍵技術攻堅方面。

首先,數據標準的缺失限制了行業協同效率。光輪基于多年業務積累,制定并推廣了一套標準數據格式,正在被越來越多客戶采納。

其次是技術層面,柔體仿真與觸覺仿真是目前重點攻堅方向。例如,機器人在疊衣服或穿針引線這類細致任務中,對柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真,還需要硬件協同。

目前我們已在這兩個方向持續投入,力求在真實還原復雜交互場景的同時,提升模型訓練的上限與穩定性。

(本文首發于鈦媒體App,作者|郭虹妘,編輯|陶天宇)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宗澤后曬出宗家家譜,否認哥哥有7個孩子,證實宗馥莉有三個兄妹

宗澤后曬出宗家家譜,否認哥哥有7個孩子,證實宗馥莉有三個兄妹

史行途
2025-07-17 23:42:59
一個奇怪現象:今年1000多萬畢業生就業難,6000元月薪卻找不到人

一個奇怪現象:今年1000多萬畢業生就業難,6000元月薪卻找不到人

阿傖說事
2025-07-17 08:04:40
“嫂嫂好說話,她陪嫁房我要了”施工員:她好說話不代表我好說話

“嫂嫂好說話,她陪嫁房我要了”施工員:她好說話不代表我好說話

施工員小天哥
2025-07-17 08:17:43
杜建英年輕時照片被扒,長相出眾時尚漂亮,和宗慶后發妻子太不同

杜建英年輕時照片被扒,長相出眾時尚漂亮,和宗慶后發妻子太不同

鑫鑫說說
2025-07-15 12:01:01
中方:強烈不滿、堅決反對,已向日方提出嚴正交涉!

中方:強烈不滿、堅決反對,已向日方提出嚴正交涉!

政知新媒體
2025-07-16 12:54:32
凌晨4點,50余人身穿白衣排隊夜行,村中老人:看了你也得加入

凌晨4點,50余人身穿白衣排隊夜行,村中老人:看了你也得加入

古怪奇談錄
2025-07-12 17:31:32
曼聯實慘!滕哈赫“詐騙”行為:1億歐簽“兒子” 如今自己都嫌棄

曼聯實慘!滕哈赫“詐騙”行為:1億歐簽“兒子” 如今自己都嫌棄

風過鄉
2025-07-18 07:02:44
罕見!同一天,3架波音新飛機飛往中國

罕見!同一天,3架波音新飛機飛往中國

每日經濟新聞
2025-07-16 08:52:05
網友腦洞大開:各省“專屬航母”設計驚艷亮相,河南艦給我笑噴了

網友腦洞大開:各省“專屬航母”設計驚艷亮相,河南艦給我笑噴了

有趣的火烈鳥
2025-07-15 13:14:29
天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

帶你感受人間冷暖
2025-06-18 13:28:38
烏克蘭大規模集結西方遠程武器,將戰火引向莫斯科,逼迫普京妥協

烏克蘭大規模集結西方遠程武器,將戰火引向莫斯科,逼迫普京妥協

國際情爆猿
2025-07-18 10:03:15
中國要做最壞打算:若俄不幸解體 這塊1千萬km2土地 不要被人搶去

中國要做最壞打算:若俄不幸解體 這塊1千萬km2土地 不要被人搶去

軍評陳光文
2025-07-17 21:53:35
大運會中國女排再取勝,繆伊雯得分王!華東四省女排邀請賽來襲

大運會中國女排再取勝,繆伊雯得分王!華東四省女排邀請賽來襲

金毛愛女排
2025-07-18 10:13:18
剛剛!臺風“韋帕”生成!最新路徑→

剛剛!臺風“韋帕”生成!最新路徑→

壹福清
2025-07-18 09:20:42
知情人士:宗慶后,不止這四個孩子

知情人士:宗慶后,不止這四個孩子

鳳凰網財經
2025-07-16 22:10:39
“一年設計白干了!”設計專業大學生乘高鐵行李箱丟失,行李架處無監控,多方回應

“一年設計白干了!”設計專業大學生乘高鐵行李箱丟失,行李架處無監控,多方回應

瀟湘晨報
2025-07-17 13:42:57
不許與俄做生意,呂特令中方勸普京低頭,中方在烏發聲信號強烈

不許與俄做生意,呂特令中方勸普京低頭,中方在烏發聲信號強烈

快看張同學
2025-07-18 09:13:56
日本首相石破茂支持率大跌

日本首相石破茂支持率大跌

財聯社
2025-07-17 16:42:51
宮頸癌只是表象?王晶爆料梅艷芳真正死因,和張柏芝一樣太任性!

宮頸癌只是表象?王晶爆料梅艷芳真正死因,和張柏芝一樣太任性!

安山客
2025-07-16 18:15:03
廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

新東方家庭教育
2025-07-11 17:14:32
2025-07-18 10:56:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
120991文章數 860818關注度
往期回顧 全部

科技要聞

OpenAI深夜發布"超級智能體"

頭條要聞

宗慶后親弟公開家譜 首談哥哥私生活:沒有別的6個孩子

頭條要聞

宗慶后親弟公開家譜 首談哥哥私生活:沒有別的6個孩子

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

哈弗大狗2026款上市 限時權益價9.89萬元起

態度原創

時尚
房產
旅游
本地
教育

“Polo衫+牛仔褲”今年火爆了,這樣穿時髦松弛又減齡!

房產要聞

突發!海航陳峰被判12年,罰2.2億!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

教育要聞

學簽放寬+工簽延長!新西蘭悄悄成為留學性價比新黑馬!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宣威市| 溆浦县| 读书| 夹江县| 衡阳市| 临湘市| 武义县| 区。| 沈丘县| 尼勒克县| 新沂市| 四川省| 迁安市| 哈尔滨市| 富宁县| 达日县| 大宁县| 五大连池市| 长丰县| 五常市| 湖北省| 安西县| 新蔡县| 沭阳县| 伊宁市| 叶城县| 玉屏| 吉木萨尔县| 祁连县| 宣威市| 共和县| 临桂县| 京山县| 尉氏县| 东至县| 牙克石市| 临西县| 彭州市| 河津市| 华蓥市| 乌拉特前旗|