99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獨家對話光輪智能:合成數據如何破解AI“數據饑渴”|50x50

0
分享至

「50個技術賽道,50家創業公司」是一檔聚焦前沿科技領域創新力量的深度探索欄目。我們以全球視野掃描新興技術趨勢,每期深入一個細分技術賽道,挖掘最具顛覆潛力的創業公司。呈現技術的商業價值,展示創新者的先鋒姿態。 本文為第五篇。

在人工智能飛速演進的當下,數據的價值變得愈發關鍵。以大模型和具身智能為代表的新一代AI系統,正逼近傳統數據采集方式的極限。

MIT等機構預測,若按當前速度發展,人類生成的真實數據(尤其是高質量文本數據)將在2-8年內被消耗殆盡,到2026年可能用完互聯網可用文本數據,而具身智能更是對數據呈指數的級膨脹需求,達到了EB(1EB = 1024PB)級別。

面對“數據荒”的危機,合成數據(Synthetic Data)被視為打破瓶頸的關鍵鑰匙,也成為業界共識的解決方案。英偉達科學家 Jim Fan 曾指出,未來AI模型的訓練數據,將有望由合成數據提供萬億級token支持。

合成數據(Synthetic Data)是一種模仿真實世界數據的非人工創建的數據,它是由基于生成式人工智能技術的計算算法和模擬創建而成。早在1993年,著名統計學家Donald Rubin就在論文中提出了合成數據的概念。近年來,隨著ChatGPT的火爆和生成式人工智能技術的發展,合成數據概念受到越來越多的關注。

相比傳統的真實數據采集方式,合成數據的優勢不僅在于成本低、效率高,還包括無需標注、更強泛化性等特性。

Gartner預測,到2030年合成數據將成為AI模型的主要訓練來源,市場規模預計超過86億美元。其應用場景廣泛,涵蓋自動駕駛、醫療健康、金融、零售等多個領域,在提升模型性能、保護隱私、系統測試等方面發揮著重要作用。

全球科技巨頭已紛紛布局:英偉達推出Omniverse Replicator生成高精度3D仿真數據,并收購合成數據公司Gretel;微軟開源Synthetic Data Showcase工具,服務于醫療和金融場景;Meta則通過Llama 3自生成數據優化代碼生成能力。

在國內,一批新興合成數據企業也正在崛起。2023年,專注具身智能的合成數據公司——光輪智能應運而生。公司首創將生成式AI與仿真技術結合,用以構建大規模、可交互、高保真的訓練場景,重塑自動駕駛與具身智能的數據體系。

團隊成員來自英偉達、Cruise等全球領先企業,具備AI、仿真、合成數據工程化落地等多領域交叉背景。目前,已服務例如英偉達、DeepMind、Figure、銀河、智元多家國際頭部客戶以及全球高校實驗室。

值得一提的是,成立短短兩年多時間,光輪智能已完成五輪融資,投資方包括北京市人工智能產業基金、經緯創投、奇績創壇、辰韜資本等。

近期,我們對話了光輪智能技術生態負責人甘宇飛,圍繞“合成數據如何驅動具身智能”和“行業技術挑戰”展開深度探討。

以下為創投家與甘宇飛對話全文,略有刪減:

創投家:目前合成數據在機器人、自動駕駛等領域的使用占比如何?哪些場景會用到比較多的合成數據?

甘宇飛:在自動駕駛領域,合成數據的使用比例大約在30%至40%之間,而在具身智能領域,這一比例則高達80%至90%。

具身智能中的數據采集成本很高,需要搭建實景環境、部署機器人并進行日常維護,效率低。而合成數據可以通過仿真的方式快速構建多樣化場景,成本更低、效率更高。

目前合成數據在具身智能的不同階段,包括預訓練、后訓練、評測目前都有很大的數據缺口,具身智能產品研發的全生命周期都需要用到大量的合成數據。

創投家:生成式 AI 與仿真技術的結合對合成數據行業的有哪些促進作用?未來 3-5 年的技術演進方向可能是什么?

甘宇飛:AI圖像生成和仿真技術各有優劣。生成式AI擅長視覺逼真度,但在空間尺度和物理約束方面缺乏精確控制;仿真技術則強調物理一致性,但在真實感和生成效率上遜色一些。

將兩者融合,是我們認為最具前景的發展方向。例如,神經渲染技術正逐步成熟,它結合AI視覺生成與仿真建模能力,能夠直接輸出具備真實感和物理精度的3D場景與資產。

此外,未來的合成數據應當更“真實”,更“極端”,更“高效”——能模擬現實中罕見卻關鍵的長尾事件,幫助AI模型提升魯棒性。

創投家:為什么純AI生成的合成數據不可行?

甘宇飛:因為純AI生成數據可能會讓模型“自我循環崩潰”。這在早期研究中就已被證實,比如GPT會在多輪純合成訓練下崩潰、自動駕駛模型在純合成數據訓練后會采取危險而積極的駕駛風格。當模型用自身生成的數據不斷訓練自己時,誤差會逐步放大,數據分布也會偏離現實,最終導致模型性能下降甚至崩潰。

要想保持模型的穩定性與現實對齊,必須引入人類示范或真實世界的“錨點”,讓AI理解世界的本質。這是合成數據構建中不可缺少的一環。比如特斯拉會利用五星司機的數據迭代自駕算法,ChatGPT會找各個領域專家來做RLHF(人類反饋強化學習),而在具身領域,光輪使用人類專家的示范動作來作為合成數據的來源。

創投家:合成數據的 “真實性” 如何量化評估?當前行業在視覺 - 物理一致性等方面的技術難度和挑戰是什么?

甘宇飛:我們將真實性評估分為三層:

首先是量化檢查,通過自動化工具逐項檢測物體屬性是否符合真實世界,例如瓶子的顏色、重量、材質、貼紙、旋蓋方向等。

其次是主觀判別,借助判別模型評估合成數據是否足夠逼真,目標是讓模型“分不清”真假。

最后是效用驗證,最核心的一步是實戰驗證,看合成數據是否真正提升了模型效果。例如在長尾場景中的識別準確率是否提升,是否有效支持客戶業務目標。

創投家:具身領域的合成數據相比自駕領域的合成數據有什么不同的地方?

甘宇飛:具身智能是更復雜的“多任務交互系統”,其對數據的需求遠超自動駕駛。

主要體現在四個方面:

首先是數據量級更大,自動駕駛數據為PB級,而具身智能則需要EB級數據。例如在家務場景中,機器人需處理疊被、洗碗、開門等復雜交互,任務維度和場景復雜度遠高于自動駕駛。

其次是交互維度更豐富,尤其是物理交互,自動駕駛追求“無交互”,即盡量避免碰撞。而具身智能必須主動與世界互動,例如抓取易碎玻璃或柔軟衣物,這對合成數據的物理屬性要求極高。

然后是適配難度更大,自動駕駛車輛相對標準化,而具身機器人千姿百態,從人形機器人到機械臂,形態與關節結構各異,數據生成必須因機而異。

最后是數據積累的階段不同,不同于自動駕駛,具身智能仍處于起步階段,尚未形成大規模真實數據積累,因此合成數據在這一階段扮演著更關鍵的角色。

創投家:具身場景中真實數據與合成數據的最佳實踐占比分別是多少?實際提升效果如何?

甘宇飛:根據我們的實踐經驗與行業研究,當前真實數據與合成數據的最佳組合比例大致為 1:10,當然,這一比例也會根據具體應用場景而動態調整。

更重要的是,在引入合成數據后,模型性能通常能實現顯著提升。比如在物體檢測、交互識別等任務中,合成數據的加入可帶來平均30%左右的性能增益。這不僅體現在精度上,更體現在模型對復雜環境的泛化能力上。

簡而言之,合成數據正在成為構建高效具身智能模型的關鍵加速器。

創投家:行業里面有純真實和純合成的路線之爭,你們如何看待?

甘宇飛:在真實項目中,其實并不存在所謂的“路線之爭”——效果優先,永遠是技術決策的第一準則

實踐中,混合使用真實與合成數據已被證明是最優解。例如在英偉達最新開源的人形機器人基座模型 GR00T N1 中,采用“混合訓練”(co-training)的策略,其性能明顯優于純真實或純合成方案。其中光輪為此提供了大量合成數據資產,我們也將持續為其后續 Nx 系列模型提供數據支持,并與行業共享我們的經驗。

真正能落地的方案,往往都是多種技術手段協同演進的結果。在光輪,我們采用的是“混合訓練策略”——根據模型訓練階段和任務需求靈活調整真實與合成數據比例,實現效率與效果的最佳平衡。

創投家:相對于其他的提供數據解決方案的企業,光輪智能在技術上的差異化優勢是什么?

甘宇飛:我們堅持從“物理真實感”出發打造合成數據。高精度物理仿真能力是光輪的核心優勢。我們提供的數字資產具備重量、質地、觸感、邏輯交互等物理屬性,能夠真實還原機器人在現實中的動作反饋。

其次,強調人類示范數據的價值。只有讓模型看到人類如何完成任務,它才能更深刻地理解意圖、策略和行為邏輯,從而構建更強的認知能力。

為了提升數據的使用效率和模型的效果,我們認為還應該高度重視數據的泛化性。通過對仿真環境中的多維度控制,我們能主動生成覆蓋不同情境、角度和復雜度的任務數據,從而解決具身智能中的“real2real gap”問題,也就是“真實世界中數據之間的鴻溝”。

創投家:目前光輪智能的主要客戶群體是哪些?能否分享 1-2 個典型案例。

甘宇飛:我們的客戶包括眾多國內外頂級機構,如英偉達、DeepMind、Figure AI 以及多家一流高校實驗室。

例如,在英偉達開源人形機器人模型 GR00T N1 項目中,我們為其提供了全套合成數據支持,包括遙操作行為數據、仿真場景與交互資產,幫助其在復雜物理交互任務中的模型訓練。

在國內,我們為智元提供了具備高保真物理屬性的仿真資產,智元在此基礎上構建并發布了公開數據集 Agibot Digital World,為行業提供了高質量的具身智能訓練資源。

其他客戶還包括字節跳動、銀河等,只要需要使用高質量物理交互數據的公司基本上都是我們的客戶。

創投家:光輪最近在對外場合強調real2real gap,這是什么意思,怎么理解?

甘宇飛:在和客戶實際合作中我們發現,很多時候場景之間的分布差異即real2real gap很大,而這點是經常不被重視的。

我們認為需要考慮到數據之間的real2real gap,這點在真實數據中很難通過靠擺拍采集來解決,最好的辦法就是利用仿真技術,快速泛化場景從而通過合成數據解決這一問題。結合數據生產效率、數據泛化性等維度看,當下合成數據就是具身智能的最優選擇。

創投家:目前光輪智能的仿真資產和場景覆蓋到了哪些場景?哪些場景是客戶比較關注的?

甘宇飛:我們的仿真場景涵蓋了居家、商超、工業、實驗室、農業、水域等多個場景,且注重地域多樣性的還原。

以居家場景為例,國內廚房通常面積較小、家電緊湊,而海外家庭廚房則寬敞、設備種類多樣(如雙開門冰箱、咖啡機、旋鈕式微波爐等)。

這種高度定制化的仿真能力,使我們在跨國公司和不同地區的客戶中獲得了良好口碑。

創投家:目前仿真合成數據領域還有哪些挑戰是亟待解決的?你們目前進展如何?

甘宇飛:目前最大的挑戰,是整個行業仍處在早期發展階段,尤其在數據標準化與關鍵技術攻堅方面。

首先,數據標準的缺失限制了行業協同效率。光輪基于多年業務積累,制定并推廣了一套標準數據格式,正在被越來越多客戶采納。

其次是技術層面,柔體仿真與觸覺仿真是目前重點攻堅方向。例如,機器人在疊衣服或穿針引線這類細致任務中,對柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真,還需要硬件協同。

目前我們已在這兩個方向持續投入,力求在真實還原復雜交互場景的同時,提升模型訓練的上限與穩定性。

(本文首發于鈦媒體App,作者|郭虹妘,編輯|陶天宇)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
烏軍F-16戰機接入北約Link-16系統,薩博預警機、F-16實現一體化

烏軍F-16戰機接入北約Link-16系統,薩博預警機、F-16實現一體化

山河路口
2025-05-31 19:38:51
不接受一國兩制?20萬島內武裝放下武器,明確了臺灣的最終結局?

不接受一國兩制?20萬島內武裝放下武器,明確了臺灣的最終結局?

小莜讀史
2025-05-26 20:26:45
喜從天降,下月初財神點名,事業連走上坡,鈔票數不贏的生肖

喜從天降,下月初財神點名,事業連走上坡,鈔票數不贏的生肖

毅談生肖
2025-05-29 19:44:53
博主:曼城已經允許斯通斯在今年夏天離隊

博主:曼城已經允許斯通斯在今年夏天離隊

懂球帝
2025-06-01 01:28:24
為什么很多擁有幾百萬存款的人,平時都很樸素?內行人:5大原因

為什么很多擁有幾百萬存款的人,平時都很樸素?內行人:5大原因

平說財經
2025-05-31 22:37:47
都說殲20擊落了“敵機”,還是一架隱形五代機!怎么回事?

都說殲20擊落了“敵機”,還是一架隱形五代機!怎么回事?

科普大世界
2025-05-30 20:58:59
我靠!紅米K80至尊版“用力過猛”!

我靠!紅米K80至尊版“用力過猛”!

手機評測室
2025-05-29 11:50:43
S媽又和汪小菲扛上了,這回連聊天記錄都被扒了出來

S媽又和汪小菲扛上了,這回連聊天記錄都被扒了出來

一盅情懷
2025-05-30 16:46:03
法國女子在當地商店,發現茅臺才300塊,想全買下帶回中國賺錢

法國女子在當地商店,發現茅臺才300塊,想全買下帶回中國賺錢

坦然風云
2025-05-27 19:38:54
里德:不排除以替補身份回歸森林狼的可能性,但我當然認為自己能打首發

里德:不排除以替補身份回歸森林狼的可能性,但我當然認為自己能打首發

雷速體育
2025-05-31 20:47:08
想用降息來逼儲戶取款消費,這一招降不了我

想用降息來逼儲戶取款消費,這一招降不了我

上海云河
2025-05-27 19:15:55
撒貝寧,戳穿了辛柏青喪妻后的“真實處境”,也給娛樂圈提了個醒

撒貝寧,戳穿了辛柏青喪妻后的“真實處境”,也給娛樂圈提了個醒

頭號劇委會
2025-05-30 21:09:26
天熱該喝的不是綠豆湯,是這3杯神仙飲!一周3次,氣血直接開掛

天熱該喝的不是綠豆湯,是這3杯神仙飲!一周3次,氣血直接開掛

江江食研社
2025-05-18 08:30:07
丈夫發現5歲雙胞胎非親生,卻裝作不知情,又讓妻子再為其生兩個

丈夫發現5歲雙胞胎非親生,卻裝作不知情,又讓妻子再為其生兩個

蘭姐說故事
2025-05-27 17:00:13
女人對你“袒露”這3處秘密,就是在等你說“我們在一起”

女人對你“袒露”這3處秘密,就是在等你說“我們在一起”

伊人河畔
2025-04-12 11:22:23
美論壇:既然中國不遵守南海仲裁,聯合國為什么不取消其五常資格

美論壇:既然中國不遵守南海仲裁,聯合國為什么不取消其五常資格

霽寒飄雪
2025-04-16 06:30:06
“禁酒令”要“打七寸”,不要“擴大化”和“一刀切”

“禁酒令”要“打七寸”,不要“擴大化”和“一刀切”

煮酒論法
2025-05-31 08:09:49
鄭欽文2-0晉級!沖擊2086萬獎金,央視收視率穩居第一

鄭欽文2-0晉級!沖擊2086萬獎金,央視收視率穩居第一

體育就你秀
2025-05-31 03:00:03
朱立倫再遭重創!罷吳領銜人稱因朱立倫一再誤判,其才失望退出!

朱立倫再遭重創!罷吳領銜人稱因朱立倫一再誤判,其才失望退出!

三毛看世界
2025-05-31 20:16:01
Lisa西班牙演唱會,疑似下半身穿肉色丁字褲,對觀眾瘋狂抖動臀部

Lisa西班牙演唱會,疑似下半身穿肉色丁字褲,對觀眾瘋狂抖動臀部

花哥扒娛樂
2025-05-30 22:12:29
2025-06-01 03:31:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
118867文章數 860524關注度
往期回顧 全部

科技要聞

1小時大定破千,余承東:尊界S800是個開端

頭條要聞

69歲正部級高官被查 半個多月前曾赴海南考察

頭條要聞

69歲正部級高官被查 半個多月前曾赴海南考察

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

張柏芝曬端午vlog!大兒子送禮物

財經要聞

中汽協倡議:反對“內卷式”惡性競爭

汽車要聞

續航超1000km/增程動力 上汽大眾ID.ERA深圳車展亮相

態度原創

教育
本地
手機
親子
公開課

教育要聞

為什么留學中介的話不能信?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

手機要聞

主打輕薄,傳音旗下兩款新機均不足6mm

親子要聞

孩子性子比較急,容易哭鬧怎么辦?聽聽兒科醫生的建議

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 易门县| 潢川县| 富裕县| 凤山县| 科尔| 乐业县| 铅山县| 台前县| 浑源县| 广饶县| 美姑县| 淮滨县| 平利县| 云和县| 珠海市| 奇台县| 沁水县| 华宁县| 永修县| 紫金县| 泸定县| 阳春市| 东明县| 临湘市| 都昌县| 如皋市| 壶关县| 桂东县| 日喀则市| 苍山县| 鲜城| 东乌珠穆沁旗| 佛坪县| 巴南区| 金华市| 久治县| 雷波县| 行唐县| 贵德县| 红安县| 罗平县|