99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

為什么Sora不能成為世界模型?

0
分享至


文:王智遠 | ID:Z201440

寫完一篇空間智能文章,發到群里,聊它如何用虛擬空間數據訓練機器人,幫人類理解世界。

結果有朋友提出個問題:

文生視頻算不算空間智能?它也能生成虛擬場景,為什么不是最佳途徑?這問題挺有意思,我第一反應就想到了Sora。

文生視頻“新星”崛起速度太快,幾句話能生成一個視頻,兩年內字節、騰訊、甚至其他模型廠商紛紛壓住該賽道。

不過,兩年過去,有人發現它沒那么完美,生成人像總帶著“恐怖谷”的詭異,連Facebook首席人工智能科學家Yann LeCun也點評說:Sora不過是畫得好看,壓根不懂物理規律。

于是,我帶著疑問研究了一下:看似強大的Sora,為什么不能成為真正的世界模擬器?它和空間智能的差距到底在哪?

01

愛因斯坦有句經典的名言:

“如果不能簡單地解釋一件事,那就說明還沒有真正理解它。”(If you can't explain it simply, you don't understand it well enough.)

所以,想深入探究,就必須從深層次技術原理出發。

Sora的核心是“擴散模型”(Diffusion Model);從一堆隨機噪點開始,通過AI一步步去掉雜亂,最終生成清晰的畫面,再將這些畫面串聯成視頻,聽起來像魔法,其實背后是數學原理在支撐。

另外,它還有個幫手是“Transformer”,這個詞不少人聽說過。什么意思呢?它擅長處理序列數據,把零散的信息連成一條線。在Sora中,它將文字指令拆解,再把一幀幀畫面串聯成流暢的動作。

舉個例子:

如果你輸入“船在咖啡杯里航行”,Sora會先理解“船”和“咖啡杯”,然后,把船、水波蕩漾、船身傾斜這些相關的詞匯、場景串聯起來。

這背后依賴海量視頻數據和強大的算力,才能在幾秒鐘內生成幾十秒的畫面。

可是,你有沒想過,僅僅依賴數據堆砌出來的結果,真的能理解物理世界嗎?答案是不會。問題就出在架構上。

擴散模型擅長從數據中學習像素規律,預測下一步畫面應該是什么樣子;Transformer則能讓幀與幀銜接得天衣無縫。所以從視覺上看,Sora很“聰明”,能夠模仿真實視頻的連續感,但仔細一想,問題就來了。

船怎么可能塞進杯子?我試過輸入「貓跳到桌上」,畫面流暢得沒話說,結果貓腿直接穿過了桌面,就像游戲里的穿模。為什么會這樣?

因為Sora的生成邏輯是“畫得好看”,而不是“畫得對”。

它不懂重力如何讓腳落地,也不懂桌子為何會擋住貓腿,生成“恐怖谷”人像時,更一目了然,臉部細節一放大就崩了,它只知道靠像素預測,卻沒有考慮現實規則。

所以,Sora的強項和弱點是一枚硬幣的兩面。

視覺流暢是它的本事,不合理也是它的命門。正如Yann LeCun所說,它“不懂蘋果為何落地”,我覺得這個觀點很對:Sora的架構根本就沒想去理解物理世界,只是想把畫面糊弄得像真的。

既然Sora不懂物理世界,那它能否成為世界模擬器呢?

我認為有點懸。為什么?

世界模擬器是一個能夠運行物理規則的虛擬環境,幫助機器人學習現實中的因果關系,但Sora生成的視頻雖然看起來像回事,卻毫無真實性。

你想想看,“船在杯子里”這樣的視頻去怎么去教機器人,機器人可能會以為杯子能裝下萬噸巨輪,這根本沒好用。

因此,擴散模型和Transformer的目標是視覺生成,而不是物理模擬,Sora更像一個藝術工具,追求“好看”的畫面,而不是“對”的世界,這讓我覺得Sora局限性在于其架構沒有對準目標。

02

既然這樣問題來了:世界模擬器要具備哪些關鍵特性?

我覺得最基礎的有三點:

一,得知道現實物品規則是什么樣,搬到虛擬場景中,不能差太多;二,理解物品與物品之間怎么相互影響的;三,還得能把不同物品整合到一起,相互推理。

這么說,有點抽象,我舉個例子:

你在教一個機器人怎么拿東西,世界模擬器里面的“虛擬杯子”,得模仿出真實杯子的重量、材質、形狀,這樣機器人才知道該用多大的力氣去抓。

模擬器把重力以各指標模仿的不準確,機器人就會抓得太緊或者太松,東西就會掉下來,甚至還會被弄壞。

再聊聊智能交通。

現實中,堵車是個大難題。要解決它,得靠算法、數據分析,比如錯峰出行。

假設有個世界模擬器,如果它沒法模擬紅綠燈時長、車輛速度,就無法預測哪里會堵車、什么時候堵,也做不了錯峰規劃。

同樣,如果模擬器不清楚車輛摩擦力,就判斷不了車子能不能在綠燈時順利起步或紅燈時及時停下;如果搞不清車輛之間的相互影響,交通就會亂套,甚至可能出事故。

所以,世界模擬器的作用,是把復雜的物理規則和物體之間的關系都搞清楚,這樣才能讓機器人、智能交通這些高科技的東西更好地工作。

對比來看,Sora在關鍵特性上明顯不足。它在視覺生成方面做得很棒,但沒辦法滿足世界模擬器對物理規則和因果關系推理的要求。

這種問題不只出現在Sora上,一些國產大模型也有類似架構缺陷。我刷抖音時經常看到有人用圖生視頻模型,結果人突然變成狗,看起來很搞笑,但明顯不符合現實邏輯。

原因很簡單,架構無法為世界模擬器提供真實的物理理解能力,因此,在具身智能或其他領域的應用就會受到很大限制。

可以得出一個結論:世界模型和文生視頻的架構完全不一樣。世界模型要模擬真實世界,必須懂物理規律和現實邏輯;文生視頻主要生成畫面,在邏輯和真實性上沒那么嚴格。

03

我認為,相比之下,真正值得關注的,是更注重物理規則建模和具備因果關系推理方向的模型。比如:李菲菲的World Labs、黃仁勛的世界模型(Cosmos WFMs),以及群核科技的空間智能。

為什么拿他們舉例呢?有三點:

先看目標,黃仁勛提出的 Cosmos WFMs(世界模型)是希望打造一個能模擬真實世界的「虛擬大腦」。這個大腦要懂物理規則,要知道物體怎么動、力怎么作用,還要明白事情的前因后果。

李菲菲的 World Labs 目標是讓人工智能真正理解世界。它通過模擬物理規則、因果關系和復雜場景,讓AI不僅能“看到”,還能“理解”世界。

比如:一個AI產品可以在虛擬場景中預測事情的發展,或根據不同情況做出合理決策。這種能力對提升機器人、自動駕駛等領域的智能化至關重要。

群核科技的空間智能,目標是希望把真實世界搬到數字世界里,讓AI能看懂、能用,然后用數據幫助家居設計、建筑規劃、以及AR、VR這些領域,幫行業更高效的干活。

說得直白點,是希望打造一個“數字孿生”的世界,讓人、AI、空間里面思考和行動,解決實際問題。

既然有了目標,再看看三家技術實現路徑。

Cosmos WFMs 的技術實現路徑是通過構建生成式世界基礎模型(WFMs),結合高級分詞器、安全護欄和加速視頻處理管道等關鍵技術,為開發者提供高效的開發工具。

具體來說,它利用NVIDIA NeMo對基礎模型進行調優,并通過 GitHub 和 Hugging Face 提供開源支持,幫助開發者生成高仿真的物理數據。

此外,Cosmos 還專注于多視角視頻生成、路徑規劃、避障等任務,進一步提升物理AI在機器人、自動駕駛等領域的應用能力。

報告里面的東西是不是很難懂?

通俗的說:他們做的這套系統,能讓AI學會像人一樣看路、規劃路線、避開障礙物,還能生成各種角度的視頻,特別適合用在機器人和自動駕駛這些領域。

李菲菲的World Labs的技術實現路徑是,開發一種從2D到3D的智能轉化技術,讓AI不僅能看懂平面圖片,還能生成完整的三維空間。

他們的系統從一張普通照片出發,估算出場景的3D結構,然后補全圖片中看不到的部分,最終生成一個用戶可以自由探索和互動的虛擬世界。

簡單講,用AI把平面圖像變成立體空間,讓人像在真實世界一樣能走進去、四處看看。這種技術對機器人導航、虛擬現實等領域特別有用,因為它們都要“空間智能”來理解和應對復雜的3D環境。

群核科技搞空間智能,簡單來說:

1萬臺GPU服務器,用計算能力幫家居和建筑行業快速做出大量3D模型,順便攢了一堆2D和3D的設計數據;把數據整合到一個平臺上,能生成特別逼真的虛擬場景。

最后,企業可以用這個平臺來訓練機器人,比如:掃地機器人或者自動駕駛設備,讓它們在虛擬世界里模擬真實環境,學會怎么動、怎么避障,變得更聰明。

因此,無論黃仁勛的Cosmos WFMs、李菲菲的World Labs,還是群核科技的空間智能,技術核心目標是通過模擬真實世界的物理規則和因果關系,讓AI在空間內訓練更聰明、更能解決實際問題。

04

我認為,要實現這一目標,離不開一個關鍵因素:高質量數據。數據是構建世界模型和空間智能的基礎,可它也是發展里最大的「攔路虎」。

為什么?

我們說具身智能有點抽象,換一個更具體的詞:“虛擬訓練”。虛擬訓練有兩個重要方面:

一個是生成式的海量數據。就像GPT這樣的文字模型,靠超大規模的數據和強大的算力來學習和推理;另一個是真實數據。枕頭的大小、重量、材質,或者光線怎么反射、物體怎么碰撞,這些是物理交互場景。

這種真實數據來源于現實世界,直接決定虛擬訓練能否模擬出符合實際邏輯的行為和反應;

換句話說,虛擬訓練要兩種數據:一種是“虛擬生成”的大數據,另一種是“真實場景”的物理數據,而后者,往往成為發展的瓶頸。

原因很簡單:文生視頻、文生圖等生成式技術雖然能生成豐富的內容,但很難直接獲取真實的物理規則和精確的交互細節。

比如,文生視頻可以生成一個“滾動的球”,但它可能無法準確模擬球在不同材質地面上的摩擦力、彈跳高度或碰撞反應。

那真實場景的數據從哪兒來呢?只能從真實世界里來。

通過傳感器、攝像頭、激光雷達等設備,從現實環境中采集;你開車時,傳感器會記錄車輛的運動軌跡、力度變化、光線反射,還有車輛間距、行人行為,甚至天氣對路況的影響。這些信息會被上傳到平臺,用來分析和訓練。

但有了數據還不夠。

平臺的數據不能保證下一次操作一定精準,還得在虛擬環境里進行大量訓練;自動駕駛汽車,要在虛擬環境里反復模擬行駛,可能要跑成千上萬次,直到能應對各種復雜場景,才能用到現實世界里。

明白這些,你也就明白了,這不僅是自動駕駛、機器人領域的問題,其他行業也一樣。

不管醫療、制造還是農業,世界模型和空間智能都需要海量的真實數據來支撐,并且要通過虛擬環境的反復訓練來驗證和優化能力。

換句話說,無論是自動駕駛、機器人導航,還是其他行業的具身智能應用,核心挑戰都在于如何獲取高質量的真實數據,再通過虛擬和現實的結合,讓AI真正能解決實際問題;這才是未來技術落地的關鍵。

誰有底層架構、誰有數據,誰才有上牌桌的機會。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
汪小菲秀給孩子買的新衣,被林心如一個舉動打臉,為大S扳回一局

汪小菲秀給孩子買的新衣,被林心如一個舉動打臉,為大S扳回一局

動物奇奇怪怪
2025-06-03 01:30:20
成立僅一年,這家魔幻車企要吊打比亞迪 | 馬上評

成立僅一年,這家魔幻車企要吊打比亞迪 | 馬上評

鈦媒體APP
2025-05-31 07:05:24
中國建設銀行2025年6月最新存款利率出爐:3年期定存利率最高

中國建設銀行2025年6月最新存款利率出爐:3年期定存利率最高

如煙財道
2025-06-02 21:56:29
驚人!中國稀土管制一個月,海關破了好幾個走私案,價格暴漲還缺貨,美國車企要停擺了

驚人!中國稀土管制一個月,海關破了好幾個走私案,價格暴漲還缺貨,美國車企要停擺了

大白聊IT
2025-06-02 11:16:40
2025年鐵飯碗排名:公務員跌出前10,第一名你可能想不到!

2025年鐵飯碗排名:公務員跌出前10,第一名你可能想不到!

老板手記
2025-05-22 19:40:42
賈靜雯一家三口患癌,巨大變故導致她心情大變,深情呼吁珍惜當下

賈靜雯一家三口患癌,巨大變故導致她心情大變,深情呼吁珍惜當下

快樂娛文
2025-06-02 16:23:19
鈦金屬,再見!iPhone17Pro確定都換了

鈦金屬,再見!iPhone17Pro確定都換了

搞機小帝
2025-06-02 21:04:40
4支球隊已鎖定2029年世俱杯:吉達國民、大巴黎、金字塔、藍十字

4支球隊已鎖定2029年世俱杯:吉達國民、大巴黎、金字塔、藍十字

懂球帝
2025-06-03 02:48:11
男子借著酒勁去鄰居家,與鄰居發生關系,老婆發現后竟非常開心

男子借著酒勁去鄰居家,與鄰居發生關系,老婆發現后竟非常開心

罪案洞察者
2025-05-21 09:47:42
6月5日芒種,入梅、出梅時間來了,哪天入梅?今年夏天雨水多嗎?

6月5日芒種,入梅、出梅時間來了,哪天入梅?今年夏天雨水多嗎?

小談食刻美食
2025-06-02 23:20:28
20億美元!恭喜威少!終于殺回俄克拉荷馬城……

20億美元!恭喜威少!終于殺回俄克拉荷馬城……

籃球實戰寶典
2025-06-02 18:28:28
5年砸出32億估值,蔡崇信投出了女子體育天花板

5年砸出32億估值,蔡崇信投出了女子體育天花板

體育產業生態圈
2025-06-02 20:08:27
沉默3天后,中方終于發聲,對美提出4個要求,白宮稱中美將通話

沉默3天后,中方終于發聲,對美提出4個要求,白宮稱中美將通話

掌青說歷史
2025-06-02 17:12:55
湖北省委:深刻汲取教訓,對置若罔聞、頂風違紀的,從嚴從重從快查處!

湖北省委:深刻汲取教訓,對置若罔聞、頂風違紀的,從嚴從重從快查處!

政知新媒體
2025-06-02 13:23:23
露餡了!展車用“假”激光雷達,還被人“揭”起來了,真心尷尬

露餡了!展車用“假”激光雷達,還被人“揭”起來了,真心尷尬

小李車評李建紅
2025-06-02 07:23:41
4999元!iPhone 16 Pro成618最大贏家,無情降價重回銷量榜首

4999元!iPhone 16 Pro成618最大贏家,無情降價重回銷量榜首

爆侃家居圈
2025-05-31 15:11:01
俄軍損失沒那么嚴重,現場小伙立大功,爬上卡車徒手掰斷無人機!

俄軍損失沒那么嚴重,現場小伙立大功,爬上卡車徒手掰斷無人機!

阿龍聊軍事
2025-06-02 21:09:28
黨員干部參加這20種飯局就出局!(附典型案例)

黨員干部參加這20種飯局就出局!(附典型案例)

小江網評
2025-05-28 14:00:49
大鵝的飛機,大鵝的飛機,被炸啦

大鵝的飛機,大鵝的飛機,被炸啦

歷史總在押韻
2025-06-03 02:31:51
9.1分,HBO這部尺度之作真夠狠!

9.1分,HBO這部尺度之作真夠狠!

天天美劇吧
2025-06-02 20:13:26
2025-06-03 07:36:49
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業探索,關注科技人文、消費電商、品牌營銷、商業認知思維等方面。
438文章數 89關注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

手機
健康
本地
教育
公開課

手機要聞

華為nova 14 Ultra評測:質感長焦人像輕松捕捉

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

教育要聞

越努力,越沒用?如何避開“雞娃”的陷阱

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 易门县| 平山县| 南华县| 冕宁县| 阳新县| 桓仁| 贵溪市| 玛纳斯县| 怀远县| 山阳县| 阿拉善盟| 巴东县| 吴忠市| 馆陶县| 沂源县| 化州市| 昆明市| 山丹县| 广西| 遂川县| 祁东县| 正阳县| 文昌市| 威远县| 大姚县| 平原县| 淮阳县| 阳谷县| 定兴县| 家居| 永和县| 大同县| 金平| 班玛县| 安顺市| 宣恩县| 星座| 武冈市| 凤山市| 石泉县| 鄂伦春自治旗|