而圖靈獎得主 Yann LeCun,作為一位“世界模型”的倡導者,他認為 OpenAI 的 Sora 并不理解物理世界,今天他更是直接說 Sora 對“世界模型”的實現方式,注定是死路一條。
近日,OpenAI 發布的視頻生成模型 Sora 成為全球焦點。與以往只能生成幾秒鐘視頻的模型不同,Sora 可生成長達 60 秒的高清視頻。
英偉達高級研究科學家 Jim Fan 斷言,Sora 是一個數據驅動的物理引擎,是一個可學習的模擬器,或“世界模型”。OpenAI 也聲稱 Sora 是“擴展視頻生成模型是構建物理世界通用模擬器的一條可行之路”。這些說法讓很多普通人感到非常恐慌,擔心這代表了人工智能已經有能力理解人類真實世界,因此這或許代表著人類末日的開始。
而圖靈獎得主 Yann LeCun,作為一位“世界模型”的倡導者,他認為 OpenAI 的 Sora 并不理解物理世界,今天他更是直接說 Sora 對“世界模型”的實現方式,注定是死路一條。
Yann LeCun 火力全開
之前, OpenAI Sora 研發成員 Aditya Ramesh 發布了一個關于一只螞蟻“在蟻巢內部移動的視角鏡頭”的視頻,但視頻里面的螞蟻只有四條腿。
Yann LeCun 隨后對其喊話:“Aditya,螞蟻難道不是有 6 條腿嗎?”“作為曾在我實驗室待過的學生,我擔保他知道螞蟻有 6 條腿!”
4 條腿的螞蟻的確不符合真實世界的實際情況,Yann LeCun 也認為根據提示詞生成看似真實的視頻絕不代表系統真的理解物理世界。
這樣的圖像生成跟世界模型的因果預測間仍然存在重大差異。或者說,讓視頻內容看似合理的空間非常大,視頻生成系統只需生成其中“一種”樣本即可算作成功。但真實視頻的合理連續空間要“小得多”,而且生成其中的代表性圖塊更是一項極為困難的任務,在涉及各種動作的情況下更是如此。
此外,他還強調,這種連續生成不僅成本高昂,而且完全沒有現實意義。
,時長01:59
在今天的推文中,他更是直言 Sora 這種通過生成像素來對真實世界建模“不僅是種浪費,而且注定將要失敗”,如同現在已經被基本放棄的“合成分析”技術一樣。
Yann LeCun 解釋說,幾十年前,機器學習領域曾經就生成式方法與判斷式分類方法的優劣對比展開過一場大辯論。數學家 Vapnik 等機器學習理論研究者明確反對生成式方法,認為生成模型的訓練要比分類模型更困難(從樣本復雜性角度出發)。總而言之,整個計算機視覺領域普遍認定像素的生成應該從解釋潛在變量入手。畢竟在推理過程中,人類就是在根據觀察到的像素推斷出反映規律的潛在變量。正確的推理方法還涉及優化部分:比如使用對象的 3D 模型并嘗試找到能夠重現圖像的姿態參數。遺憾的是,這個路子一直沒能徹底走通,而且速度非常緩慢。
后來,有些人選擇了貝葉斯路線,嘗試使用貝葉斯推理來推斷潛在變量(例如使用變分近似及 / 或采樣)。非參數貝葉斯與潛在狄利克雷分配都在某種程度上主導過文本建模,有些人開始勇敢嘗試借此識別圖像中的具體對象。但這同樣是一場徹頭徹尾的失敗!
Yann LeCun 認為,如果現在的目標是訓練出用于識別或規劃真實世界的模型,那么在像素層面進行預測肯定不是什么好主意。
只能說生成技術恰好適用于文本,因為文本內容屬于離散的、數量有限的符號。在這種情況下,預測過程中的不確定性更容易處理。相比之下,對高維連續感官輸入中的不確定性進行預測則非常困難。
正因為如此,依靠感官輸入的生成模型注定將會失敗。
Yann LeCun 認為的
更好的辦法是什么?
作為人類,我們對周遭世界的了解和大部分知識(特別是在童年時代)主要是依靠觀察而來。以牛頓運動定律為例,即使是未經任何引導的幼兒或者小動物,也會在多次觸碰并觀察之后意識到,一切拋擲的物體終將落向地面。是的,只需一點觀察,而非耗費幾個小時的指導或者閱讀上千本學術著作。我們內心深處的世界模型(基于世界心理模型的情境理解能力)完全可以準確預測結果,而且效率非常高。
所以 Yann LeCun 認為實現“世界模型”的方式,應該是讓機器智能像人類般學習、建立起周遭世界的內部模型,從而高效學習、適應并制定計劃以完成種種復雜的任務。
這也是他提出的 JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)的核心特點所在:它并不是在“生成”,而是在表示空間中進行預測。
在他前幾天發布的推文結尾,他又給大家安利了一遍 JEPA 的論文和他們的試驗結果表:
截圖來源: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
備受矚目的視頻 JEPA
V-JEPA 是一種非生成模型,通過預測抽象表示空間中視頻的缺失 / 遮蔽部分來進行學習。這種方法與圖像聯合嵌入預測架構(I-JEPA)對圖像抽象表示的比較(而非直接比較像素本身)有異曲同工之妙。不同于嘗試填充每個缺失像素的生成式方法,V-JEPA 能夠靈活丟棄各種不可預測的信息,從而將訓練與采樣效率提高 1.5 至 6 倍。
由于 V-JEPA 采用自監督學習方法,因此可以純依靠未經標注的數據進行預訓練。這些標簽僅在預訓練之后被用于保證模型能夠適應特定任務。事實證明,這種類型的架構比以往模型更加高效,不僅訓練需要的標注示例更少、在學習未標注數據方面投入的總工作量也更低。借助 V-JEPA,Meta 在這兩項指標上均迎來了改進。
使用 V-JEPA,研究團隊遮蔽掉了視頻中的大部分內容,借此讓模型僅能觀察到小部分上下文。之后,再要求預測器填補缺失的空白——請注意,填補過程并非根據實際像素,而是依托表示空間中更抽象的內容描述。
在學習潛在空間中,V-JEPA 通過預測被遮蔽的時空區域來訓練視覺編碼器
遮蔽方法
V-JEPA 的這種理解并非來自對某一特定操作類型的訓練;相反,它是在一系列視頻之上完成了自監督訓練,并借此掌握了大量關于真實世界運行規律的知識。
研究團隊還認真設計了遮蔽策略——如果不遮擋視頻中的大塊區域,而是隨機在各處覆蓋內容,那么任務就會變得過于簡單,導致模型學不到真實世界中的任何復雜規律。
另外需要注意的是,在大多數視頻中,對象隨時間推移的變化其實相對緩慢。如果只遮蔽特定時刻下視頻中的某個部分,而模型仍能觀察到緊隨其前 / 其后的內容,任務同樣會變得過于簡單,導致其無法學習到有趣的知識。因此,研究團隊采取一種方法,在空間與時間兩個維度上遮蔽視頻的部分內容,強迫模型學習并加深對于場景邏輯的理解。
保證在抽象表示空間中進行預測同樣非常重要,這樣模型才能專注于實際視頻內容所反映出的更高級別概念信息,而忽略掉那些對于下游任務意義不大的各類細節。舉例來說,如果視頻畫面中是一棵樹,那么就并不需要關心每片葉子的細小運動。
高效預測
V-JEPA 是首個擅長“凍結評估”的視頻模型,換句話說,模型的編碼器與預測器均可實現自監督預訓練,研究人員不必再做具體操作。想讓模型掌握一項新技能,只需要額外訓練一個小型輕量級專業層、或者在其上訓練一個小型網絡,整個過程更加高效快速。
少樣本凍結評估:將 V-JEPA 與 Kinetics-400 和 Something-Something-v2 等其他視頻模型中的凍結評估進行比較,這里我們改變了每套數據集上可用于訓練注意力探針的標注示例百分比。我們在幾種少樣本設置中進行探針訓練:分別對應訓練集中 5%、10% 和 50% 的數據,并在每種情況下進行三輪隨機比較以獲得更穩健的指標,也就是分別對每套模型進行 9 次不同的評估實驗。表中列出了官方驗證的 K400 與 SSv2 驗證集的平均值與標準差。V-JEPA 的標記效率的確高于其他模型,而且可用標注示例數量越少,V-JEPA 相較于其他模型的性能優勢也越明顯。
以往的生成式模型要求我們進行全面微調,就是說在模型預訓練完成之后,如果希望模型能夠真正掌握對細粒度動作的識別能力、利用它來處理實際任務,還需要更新所有模型中的參數或者權重。之后,該模型總體上只能執行一類特定任務,而不再適用于其他任務類型。
如果想要引導模型學會執行多種任務,則需要提供不同的數據,并針對新任務對整個模型進行特化。而正如 Meta 在研究中所演示的那樣,使用 V-JEPA,我們可以在沒有任何標注數據的前提下對模型進行一次預訓練、修復相應問題,然后重復利用模型中的相同部分處理多種不同任務,例如動作分類、識別細粒度對象交互及活動定位等。
V-JEPA 是一種從視頻中學習表示的自監督方法,適用于各類下游圖像及視頻處理任務,且無需調整模型參數。V-JEPA 在圖像分類、動作分類及時空動作檢測等任務的凍結評估方面,優于以往的視頻表示學習方法。
雖然 V-JEPA 中的“V”代表視頻,但并不是說它的適用范圍就僅限于視頻內容。后續 Meta 還將采用其他多模態方法,并認真考慮將音頻與視覺效果結合起來。
雖然目前 V-JEPA 還只能在較短的時間維度上發揮作用——比如在不超過 10 秒的視頻片段中準確識別不同對象的行為。但 Meta 接下來的另一項研究重點,在于如何調整模型以在更長的時間范圍內實現準確預測。
目前的結果證明,Meta 目前可以直接用視頻數據訓練 JEPA 模型,而不再需要大量監督和介入。它會像嬰兒般從視頻中學習,憑借被動觀察世界來學習有助于理解內容上下文的背景知識。這樣,只須配合少量標注數據,就能讓模型快速獲得執行新任務、識別各種動作的能力。
—版權聲明—
來源:AI前線,
僅用于學術分享,版權屬于原作者。
若有侵權,請聯系微信號:Eternalhui刪除或修改!
—THE END—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.