Sora的野心:世界模擬器
現實世界(物理世界)存在大統一理論嗎?
這是愛因斯坦一輩子都在追尋的目標。
無數人類天才窮盡一生才合伙建立殘缺的大統一理論(GUT):它只統一了強相互作用、弱相互作用和電磁力,引力至今無法統一到模型之中。
同理,AI世界存在大統一模型嗎?
這也是很多AI工程師也在追求的目標。
此次OpenAI發布Sora,官方對它的定義就是:世界模擬器。
并且認為它是構建物理世界通用模擬器的一個可能方法。
那么,AI世界也會存在“基本粒子”嗎?
為什么Sora發布會引發對AGI的思考和爭議。
人類的大統一理論與AI大統一模型如何比照參考?
物理引擎和數學原理又將扮演什么角色?
隨著Sora的DEMO推出,人類似乎觸手可及“AI創世紀”!
1
AI語言大模型(LLM)的“基本粒子”
人類的終極目標之一,
就是尋找物理世界的“基本粒子”。
只有找到“基本粒子”,才有可能理解這個宇宙。
AI世界則不一樣,人類現在是創世者,我們設定“基本粒子”。只有制造出“基本粒子”,才能去生成一個新世界。
回到AI人工智能的“奇點大爆炸”時代,ChatGPT作為第一個真正意義的人工通用智能,它的工作原理是什么:
ChatGPT借助Embedding將人類語言“編碼”成AI能夠計算的“語言顆粒”,也就是Token化,將自然語言轉換為高維向量空間中的數值,通過自注意力機制權衡不同語言元素的相對重要,最終“解碼”回自然語言。
大語言模型處理和生成文本的過程步驟:
1.文本Tokenization ? 2. Embedding映射 ? 3. 加入位置編碼 ? 4. 通過自注意力機制處理 ? 5. 利用前饋網絡進一步處理 ? 6. 生成預測并“解碼”
具體步驟如下:
①文本Tokenization:
將原始文本分解為更小的單元(Tokens)。
"Hello, world!" ? ["Hello", ",", "world", "!"]
②Embedding映射:
將每個Token轉換為高維空間中的向量。
["Hello", ",", "world", "!"]
? [向量Hello, 向量,, 向量world, 向量!]
③加入位置編碼:
為每個向量加上位置信息,保留序列中詞的順序。
[向量Hello, 向量,, 向量world, 向量!] ? [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos]
④通過自注意力機制處理:
模型計算每個詞對序列中其他詞的“注意力”,從而調整每個詞的表示,使其包含更豐富的上下文信息。
[向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos] ? [向量Hello_context, 向量,_context, 向量world_context, 向量!_context]
⑤利用前饋網絡進一步處理:
對每個詞的向量進行進一步的非線性變換,以學習更復雜的表示。
[向量Hello_context, 向量,_context, 向量world_context, 向量!_context] ? [向量Hello_final, 向量,_final, 向量world_final, 向量!_final]
⑥生成預測并“解碼”:
基于最終的向量表示,模型生成下一個詞的預測,并將其轉換回人類可讀的文本。
[向量Hello_final, 向量,_final, 向量world_final, 向量!_final] ? 預測下一個Token ? "Language"】
從以上步驟可以看出,ChatGPT技術原理的起點是將“自然語言”Token化,也就是給大語言模型提供了一個可計算可理解的“基本粒子”,然后用這些“基本粒子”去組合文本語言新世界。
不僅僅是ChatGPT,其它語言大模型基本上都將“Token”視為基本粒子,在文本大模型這個領域,創世粒子已經“塵埃落定”。
2
Sora中的基本粒子“spacetime patches”
與ChatGPT的技術原理很相似,Sora模型技術棧也是先將視頻數據“基本粒子”化。
A、文字語言基本粒子“Token化”
B、視頻數據基本粒子“ spacetime patches化”
與ChatGPT采用Token Embedding方法以實現文本數據相似,Sora模型將視頻數據壓縮至一個低維的潛空間(Latent Space),再將這些壓縮后的數據細分為時空碎片(Spacetime Latent Patches)。
視頻大模型的工程師一直都在創造基本粒子,但并不是每個基本粒子都能成為“創世粒子”。
能夠得到眾生認可的“創世粒子”應該具有以下特點:
1、能夠高效繼承原生世界的信息;
2、可以自由組合創造(生成)新世界。
這次Sora模型的視頻數據“時空碎片”(spacetime patches)已經被證實是一種高效且可擴展的數據塊,它能夠捕捉和表征各類視頻數據的關鍵信息。成為AI時空數據建模的基石,和Token一樣時空碎片spacetime patches成為AI時空建模的關鍵,成為視頻大模型的“基本粒子”。
Sora模型處理和生成視頻的過程步驟:
1.視頻數據輸入 ? 2. 壓縮到低維潛變量空間(Latent Space) ? 3. 拆解為時空碎片(Spacetime Patches) ? 4. AI時空建模
通過這一系列步驟,視頻數據被轉換成時空碎片spacetime patches,這為深入理解視頻內容提供一種統一方法。
AI創世紀的一些基本粒子好像慢慢被創造出來了:
語言大模型的基本粒子創造出來了:Token;
視頻大模型的基本粒子也創造出來了:spacetime patches。
3
Sora 的技術原理猜想
Sora模型官方只出了一個技術報告,并沒有公布具體技術細節。
看來創世者也不是無私的,OpenAI從原生世界的開源技術和公開論文中獲取靈感,但卻不愿意公開自己的技術。
以上我們對Sora進行了一個總體的總結,現在來解構一下它的產品脈絡,以下內容是對Sora模型的技術猜想:
步驟1:
壓縮原始視頻,提取特征信息
在Sora模型的訓練初期,第一步是將原始視頻數據轉化為低維度潛空間(Latent Space)中的特征。這個過程可以視為一個高維數據壓縮和特征提煉的數學操作。
現存的4K或高清視頻擁有極高分辨率,需要一個“壓縮”步驟,旨在從原始視頻中提取特征信息,簡化描述:
OpenAI參考了Latent Diffusion的研究成果——將原圖像數據轉換成潛空間特征,降低處理數據量,且能有保留核心信息。
經過壓縮后的數據存在以下特征:
1.有損壓縮與重建
通過在潛在空間中進行擴散和逆擴散過程,模型能夠在有損的基礎上重建出與原始數據相似但又新穎的樣本。
2.效率與靈活性
在低維潛在空間中進行操作使得模型更加高效,同時提供了更大的創造性靈活性。也就是說,雖然數據經過壓縮,在Latent Diffusion技術加持下對大模型訓練影響不大。
步驟2:
將壓縮視頻拆解成時空碎片(spacetime patches)
視頻數據被壓縮到潛空間,再拆解成基本單位,也就是時空碎片Spacetime Patches。
Patch的原始的意義是一個獨立的圖像塊,在圖像訓練的Vision Transformer (ViT)的原始論文中,研究者提出以處理大型圖像的訓練方法——方法的思想在于將大圖像分割為等面積的圖像塊,也就是Patch,將每個圖像塊視為序列化數據的一部分,在這一序列化過程中,每個圖像塊的位置信息也被編碼進去,這就是圖片生成的基本原理。但如果要生成視頻的話,則要將對應位置圖像塊的時間幀編碼進去,形成時空圖像塊,簡稱時空碎片(Spacetime Patches),這些時空碎片不僅攜帶空間信息,還包含時間序列上的變化信息。
1、圖像生成
訓練時由面到點(平面),生成時由點到面;
2、視頻生成
訓練時由立體到點(立本),生成時再由點到立體。
數學上可以將視頻視為一個由時空碎片(Spacetime Patches)組成的復雜矩陣。
假設視頻V是一個連續的時空信號,可以表示為一個四維張量V∈RT×H×W×C,其中T代表時間維度上的幀數,H和W分別代表每幀圖像的高度和寬度,而C是位置信息。當然這里還包括一些技術細節:
例如不同視頻尺寸捕捉信息參考Navit的“Pack”的技術,編碼器VAE的改進支持各種視頻格式。
視頻數據被拆解為一系列可管理的基本單位時空碎片(Spacetime Patches),下一步就是要將這些時空碎片輸入到到模型中進行訓練。
步驟3
“字幕重排技術”對時空向量的準確描述
在將時空碎片輸入到到模型訓練之前,OpenAI公司還引入了“字幕重排技術”。
Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
這是一種全新的工程能力,OpenAI將DALL·E 3引入的字幕重排技術應用于視頻的訓練。
DALL·E 3也是OpenAI的產品,使用起來駕輕就熟。
“字幕重排技術”工程上非常重要,它在訓練視頻和生成視頻兩個環節上都有極大作用。
正向訓練:
訓練一個字幕模型,然后使用它訓練視頻產生文本字幕。高度描述性的視頻字幕可以提高文本的準確性以及視頻的整體訓練質量。
逆向生成:
利用GPT大語言模型將用戶簡短提示擴展為詳細字幕,提高視頻生成的細節度和質量。使Sora能夠根據用戶提示生成高質量、內容豐富的視頻。
從工程上來講這里使用到了OpenAI的三大模型的技術能力:
語言大模型GPT4.0?圖片大模型DALL·E 3?視頻大模型Sora
這個環節技術突破不大,但工程影響甚巨,OpenAI手握三大模型(文+圖+視頻),其它公司想要突破這樣的工程棧并不容易。
步驟4:
擴散模型Diffusion Transformer對潛空間數據進行處理
潛變量的向量信息已經準備好了,現在進入到處理數據和生成視頻環節。
OpenAI采用了Diffusion Transformer(DiT)架構,這是基于伯克利學者在論文"Scalable diffusion models with transformers"中提出的工作。
該架構有效地結合了擴散模型和Transformer技術,構建了一個強大的信息提取器,專門用于處理和生成視頻內容。
整體架構如下:
No.1
潛變量與Patch的處理
將輸入視頻表示為一系列潛在變量,這些潛在變量進一步被分解成多個Patch。
每個Patch由多個DiT塊串聯處理,增強了模型對視頻內容的理解和重構能力。
No.2
DiT塊的優化設計
對標準Transformer架構進行了修改,引入了自適應層歸一化(Adaptive Layer Normalization)、交叉注意力(Cross Attention)和額外的輸入Token進行調節,以優化性能。實驗表明,自適應層歸一化在提高模型效果方面表現最佳。
這里最內核的兩大核心技術是擴散模型Diffusion和Transformer框架!
擴散模型的數學原理:
高斯噪聲的逐步添加與去噪過程:
● 通過連續添加高斯噪聲破壞訓練數據的結構,使信息熵增加,逐漸掩蓋原始結構信息。學習逆轉加噪過程,即去噪,從而恢復數據。
● 這一過程可以通過訓練概率分布q(xt∣xt-1)來實現,其中x0,...,xT是逐步加噪的潛變量序列。
Transformer模型的數學原理
深入探索Diffusion Transformer(DiT)架構時,理解Transformer的數學原理很重要。Transformer模型依賴于自注意力機制和多頭注意力機制,以實現對輸入數據的高效處理和深層次理解。
● 自注意力(Self-Attention)機制
自注意力機制允許模型在處理一個序列的每個元素時,考慮到序列中的所有其他元素,其數學表示為:
其中Q,K,V分別代表查詢(Query)、鍵(Key)和值(Value),dk是鍵的維度。這個機制通過計算輸入元素之間的權重分布,使模型能夠捕捉序列內部的復雜關系。
● 多頭注意力(Multi-Head Attention)機制
多頭注意力機制是對自注意力的擴展,它并行地執行多次自注意力操作,每次使用不同的權重集,然后將所有頭的輸出合并:
以上機制中W是可學習的權重矩陣,?是頭的數量允許模型同時從不同的表示子空間中學習信息,提高了其理解和表達能力。
關于TRANSFORMER的技術細節,量子學派在有過詳細的介紹和學習!
擴散模型與Transformer的結合:
●DiT通過引入Transformer架構,實現了對視頻內容的深層分析與理解。多層多頭注意力和歸一化帶來了降維和壓縮,擴散方式下的信息提取過程更加高效。
● 此過程與大型語言模型(LLM)的重整化原理相似,通過參數化潛變量的概率分布,并使用KL散度來計算分布之間的差異,從而優化模型性能。
通過這種方式,Sora不僅可以準確地提取和理解視頻內容的深層信息,還能根據用戶的簡短提示生成高質量、內容豐富的視頻。
這一創新的方法為視頻生成領域帶來了新的可能性,展示了數學原理和AI技術結合的強大力量。
步驟5
與Sora產品交互,用戶逆向生成世界
Sora能夠精確理解用戶的意圖,并將這些意圖擴展成完整故事,這為視頻生成提供了藍圖。
以下是擴展過程詳解:
●接收用戶提示
Sora首先收集用戶的簡短提示,這可能是一個場景描述、情感表達或者任何想要在視頻元素。
●提示擴展
利用GPT模型,Sora將這些簡短的提示轉換成詳細的字幕。這個過程涉及到復雜的自然語言理解和生成,確保擴展后的字幕不僅忠實于原始提示,還補充大量的細節,如背景信息、角色動作、情感色彩等,使得提示變得生動且具體。
Sora模擬時尚女士走在東京街頭,效果極其逼真
●生成視頻內容
有了這些字幕作為指導,Sora接著將字幕轉化為視覺內容。這個過程包括選擇場景、角色設計、動作編排和情感表達,確保生成視頻與字幕保持一致。
●優化與調整
在視頻生成的過程中,Sora還會優化和調整確保視頻的質量達到最高。這可能包括對視頻細節的微調、色彩的校正、以及確保視頻流暢性和視覺吸引力。
以上是對Sora技術原理的猜想,Sora模型可以生成高質量和視頻,用OpenAI工程師的話來表述:構建物理世界通用模擬器。
4
工程師的“創世紀”:鏡像世界
工程師們眼中的Sora可不是為了給你生成一部電影,而是在虛擬環境中重現物理現實,提供不違反“物理規律”的鏡像世界。
那到底該如何創世呢?這可是大神們的工作。
宇宙存在許多規則,例如能量守恒定律、熱力學定律、萬有引力牛頓定律等。
萬事萬物不能違背這些規則,蘋果不能飛向月球,人類在陽光下有影子。那這些規律是如何形成的呢?存在兩種可能:
1、混沌第一性原理:定律是在宇宙的發展過程中形成的;
2、定律第一性原理:宇宙從按照這些定律才發展到現在。
以上是兩種“創世”規則,也決定著“鏡像世界”的兩種方法。
技術上現在有兩種方式可以實現這樣的世界模型:
基于物理運動的模擬(Sora)
物理規律學習:Sora通過分析大規模視頻數據,使用機器學習算法提煉出物理互動的模式,如蘋果落地而非懸浮,遵循牛頓的萬有引力定律。
基于數學規則的模擬(虛幻引擎)
數學建模:虛幻引擎通過手工編碼物理世界的數學模型(如光照模型、動力學方程),來精確“渲染”物理現象和互動。
很明顯,基于物理運動的模擬(Sora)認可的是“混沌第一性原理”,在混亂中學習。基于數學規則的模擬(虛幻引擎)認可的是“定律第一性原理”,存在更高設計者。
以上兩者都存在爭議,那么這兩者可以結合嗎?
5
創世背后,可能的“數學漏洞”
Sora是否是“世界模型器”,數學家有自己的看法。
在很多科學家眼中,宇宙的本質是數學。
如果Sora能以模擬方式最終逼近數學本質,那它也可能被視為“創世紀”。
Sora模型中用到了很多數學原理,舉例如下:
1.流形分布
定理:
自然數據集表現為低維流形上的概率分布。
2.數據流形的
維數降低:
數據樣本點集在高維原始數據空間中實際上局限于低維流形。
3.物理系統
的適定性
物理的幾何連續可以通過偏微分方程的解的正則性和唯一性來體現,自然界的物理過程在大多數情況下是連續和可預測的。
4.概率分布
的變換:
通過傳輸變換,例如最優傳輸變換和熱擴散過程,將數據概率分布轉換為計算機易于生成的高斯分布。
滑動查看
但從Sora模型生成的視頻來看,仍然存在明顯“數學漏洞”。
1
因果性的區分
Transformer模型訓練過程中的統計方法無法精確捕捉數學積分。
2
局部合理性與整體合理性
要求模型能夠整合更高層次數學理論,以實現整體的一致性(例如蠟燭被吹滅)。
3
臨界態的識別和模擬
無法通過幾何方法的最優傳輸理論來精確探測數據流形的邊界(從量變到質變)。
Sora模型展示了通過深度學習模擬復雜物理世界的潛力,但也存在明顯“數學漏洞”,如果能真正模擬物理世界,需要更高層次的數學理論并且探索新的模型結構。
6
AI世界存在大統一模型嗎?
很明顯,OpenAI試圖建立AI大統一模型。
它通過GPT-4.0、DALL·E 3和Sora等模型的開發,試圖在語言、圖像和視頻等不同模態之間建立橋梁,完成大統一。
但很多人并不買賬,深度學習三巨頭的Yann LeCun提出的非生成式V-JEPA模型試圖通過結合視覺感知和物理推理來構建更為精確的世界模型。
AI大統一模型并非沒有可能,一種新的方向已經出現:
將不同模態的數據轉化為一種或多種統一的基本粒子形式,以便使用同一套算法框架進行處理和分析。
文字語言的Token基本粒子化,視頻數據的Spacetime Patches基本粒子化讓人看到了希望。
Sora模型其實已經讓兩種基本粒子Token和Spacetime Patches在進行交互,最后能統一成一種基本粒子嗎?也不是不可能。
除了數據“基本粒子”化,同時也看到了四大理論逐漸成形:
1、基于Transformer架構的交互關系:
利用自注意力機制(Self-Attention Mechanism)使得模型能夠捕獲長距離依賴,為跨模態數據的序列對齊和時間依賴性建模提供數學框架。
2、Diffusion模型的逐步細化過程:
Diffusion模型通過漸進式去噪進行連續隨機的離散化表達,嵌入了隨機微分方程展現了模型在處理不同數據類型時的靈活性和多樣性。
3、生成對抗網絡(GAN)的創新應用:
生成器生成逼真的數據樣本,而判別器則努力區分真實數據和生成數據,推動模型在生成質量、多樣性以及對復雜數據分布的捕捉能力方面的進步。
4、模態轉換的編解碼器:
通過映射和逆映射的數學操作,實現了從具體數據到統一表示空間的轉換。
物理世界的大統一理論是統一四種力,以上是AI世界的四種重要理論。
AI世界會存在大統一模型嗎?
如果是,那現實物理世界是不是同樣如此。
如果AI世界不存在大統一模型。
那么這么多年來科學家尋找的大統一理論是不是鏡花水月?
也許,人類只有去創造一個世界,才能理解創世者。
AI背后,藏著一個創世夢想
一直以來,人類在探索宇宙起源,叩問創世者。
但今天,自己有力量可以成為創世者了。
千年回顧,這是不是人類文明史劃時代時刻?
這一年來,目睹了Token化的大統一設計,見證了Transformer架構開疆拓土、理解了Diffusion模型底層意義、即將體驗Spacetime Patches的革命創新。
這一年來,各種大模型紛至沓來,天才創意層出不窮。產品迭代驚心動魄,一年之間可謂覆地翻天。
可對于人類天才來說,這些還不夠,他們要建立一個“世界模型”,創造一個數字宇宙。同時還希望這個世界完全遵循F = ma、E=MC2這樣的物理規律。
如果真能做到,那它和現實世界有何區別。
再想一想,現實世界有沒有可能也是一種模擬?
如果是,你是興奮,還是擔憂?
Sora將,你準備好了嗎?
入群暗號:Sora
一起討論Sora下的機遇
一起尋找更多AIGC的機會
一起了解人工智能時代的新規劃
可掃碼添加量子妹3.0
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.