陳琦：OpenAI又祭出大殺器，來自Sora的降維打擊

2024-03-02 11:03:13　來源: 財(cái)經(jīng)作者陳琦

河南舉報(bào)

分享至

埃森哲咨詢公司于1月發(fā)布了報(bào)告《2024技術(shù)展望—AI拐點(diǎn) 重塑人類潛力》，報(bào)告梳理了2024年的四大技術(shù)趨勢，分別是AI伙伴、智能體、空間計(jì)算、人機(jī)互通。

2月2日，蘋果正式發(fā)售Vision Pro，空間計(jì)算時(shí)代加速到來。2月15日，Open AI發(fā)布了第一款文生視頻模型Sora，通用人工智能（AGC）加速到來。兩者都是引領(lǐng)時(shí)代、具有顛覆性意義的現(xiàn)象級產(chǎn)品，進(jìn)一步拉開了中美AI的差距。

Sora是繼文本模型ChatGPT、圖像模型Dall-E大殺四方后，OpenAI繼續(xù)祭出大殺器——Sora，這回他們選擇顛覆視頻領(lǐng)域。這是一個(gè)歷史性的里程碑，在視覺領(lǐng)域?qū)崿F(xiàn)了與大語言模型類似的突破，帶來了一次大的技術(shù)與商業(yè)革命。

其實(shí)，從2022年下半年開始，Midjourney、Stable Diffusion之類的應(yīng)用已經(jīng)可以根據(jù)文本提示詞生成對應(yīng)的圖片了。在2023年9月，GPT 4.0和DALLE 3結(jié)合，也讓我們能夠用聊天化的方式生成、修改圖片。在這次的Sora發(fā)布之前，也已經(jīng)有一些視頻生成AI，比如Pika、Stable video、RunwayML等等。但與Sora相比，其他模型生成的視頻在很多方面都要弱很多。

受制于AI文本到視頻生成的物理和時(shí)空推理局限，目前整個(gè)行業(yè)中所公布的單個(gè)連貫性視頻的最大長度是16秒，但此次Sora的最大支持長度是60秒。此前AI生成視頻產(chǎn)品都是單鏡頭單生成，由Sora所生成的視頻，能夠在保持主體一致性的前提下實(shí)現(xiàn)多角度鏡頭無縫切換，整個(gè)畫面干凈流暢，從而實(shí)現(xiàn)真正的視頻大片效果。

Sora是一個(gè)基于擴(kuò)散模型的視頻模型，基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重標(biāo)注技術(shù)，通過GPT的能力，使模型更加準(zhǔn)確地遵循用戶的文本指令生成視頻。對現(xiàn)實(shí)世界有了更深刻的理解和互動(dòng)能力，具有了世界模型的雛形。OpenAI最終想做的，其實(shí)不是一個(gè)“文生視頻”的工具，而是一個(gè)通用的“物理世界模擬器”，為真實(shí)世界建模。

世界模型是一種AI技術(shù)，它的目的是讓機(jī)器能夠像人類一樣對真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知。世界模型不僅包括對事物的描述和分類，還包括對事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測。世界模型可以讓機(jī)器從數(shù)據(jù)中學(xué)習(xí)出有用的知識(shí)，并根據(jù)知識(shí)進(jìn)行推理和決策。AGI是人工智能的最高境界，也是許多科學(xué)家和工程師的終極目標(biāo)。

在與谷歌Gemini 1.5 Pro相繼出場的輿論戰(zhàn)中，OpenAI Sora可以說是取得了碾壓式勝利。Sora無疑是人工智能領(lǐng)域的一次重大突破，該技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺內(nèi)容方面的先進(jìn)能力，而且對內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)帶來了前所未有的挑戰(zhàn)和機(jī)遇。

比如現(xiàn)在一個(gè)電影動(dòng)不動(dòng)就制作成本上億，AI會(huì)極大的降低電影成本，比如說《繁花》里，為了拍電影1:1復(fù)制重建黃河路，好萊塢電影的一個(gè)科幻片段需要耗費(fèi)數(shù)百萬美元，Sora正在讓這些燒錢的影視制作環(huán)節(jié)變成“零成本”，甚至創(chuàng)作出比之前更好的作品。

盡管Sora在技術(shù)和性能表現(xiàn)上有了巨大的提升，它仍有不少的局限性，在理解復(fù)雜場景的物理原理、因果關(guān)系、空間細(xì)節(jié)、時(shí)間推移上存在弱點(diǎn)。OpenAI明確表示目前Sora的模型還并不完美，仍屬于世界模型研究應(yīng)用的初期，相信這些問題隨著時(shí)間都能得到解決。

而相比于其自身缺陷，該技術(shù)的廣泛前景更為外界所關(guān)注。近兩年，由于人工智能發(fā)展迅速，以至于很多企業(yè)紛紛加大了對人工智能的投入。科技創(chuàng)業(yè)公司研究機(jī)構(gòu)PitchBook估計(jì)，2023年全球生成式AI的市場規(guī)模將達(dá)426億美元，2026年則將達(dá)到981億美元，未來增長動(dòng)能可期。

在新的發(fā)展階段，生成式AI將與更多領(lǐng)域的技術(shù)相結(jié)合，實(shí)現(xiàn)更加智能化、高效化的應(yīng)用。這些應(yīng)用將為人們的生活和工作帶來更多的便利和效益。例如，在醫(yī)療領(lǐng)域，生成式AI+醫(yī)學(xué)知識(shí)，輔助醫(yī)生進(jìn)行診斷和治療；在金融領(lǐng)域，生成式AI+金融數(shù)據(jù)，輔助投資者進(jìn)行投資決策；在教育領(lǐng)域，生成式AI+學(xué)生互動(dòng)，輔助教師進(jìn)行教學(xué)等。

從二級市場的表現(xiàn)來看，最先受到Sora降維打擊的是工具類公司Adobe，在Sora公布后的次日股價(jià)暴跌超7%。另外一只美股Shutterstock周五跌逾5%，市值一夜蒸發(fā)超7000萬美元。公開資料顯示，該公司每年銷售價(jià)值約10 億美元的照片和視頻。

對于字節(jié)跳動(dòng)來說，Sora的誕生將對剪映造成一定的沖擊。正如周鴻祎所言，它不一定那么快擊敗 TikTok，更可能成為 TikTok的創(chuàng)作工具。剪映作為一個(gè)內(nèi)容創(chuàng)作工具，所瞄準(zhǔn)的正是AI創(chuàng)新方向，據(jù)悉即將推出一個(gè)AI生圖和視頻的產(chǎn)品，進(jìn)一步拉低普通人創(chuàng)作視頻的門檻，創(chuàng)造抖音、TikTok二次增長的新機(jī)會(huì)。

ChatGPT誕生之初，引發(fā)了國內(nèi)互聯(lián)網(wǎng)大廠以及眾多創(chuàng)業(yè)公司的跟進(jìn)，上演了“百模大戰(zhàn)”，都寄希望于自己成為智能變革時(shí)代的底座。雖然積極追趕，但國內(nèi)大模型產(chǎn)品在性能、生態(tài)等方面還與ChatGPT存在一定的差距。如今Sora的爆火誕生，必將再一次產(chǎn)生國內(nèi)企業(yè)的跟風(fēng)潮，倒逼我國AI行業(yè)繼續(xù)取得重要突破。

在業(yè)內(nèi)有一個(gè)普遍的市場共識(shí)，在通用大模型領(lǐng)域，鑒于高昂的研發(fā)資金壁壘，只有少數(shù)科技巨頭有望在競爭中勝出，因?yàn)榛A(chǔ)大模型對于需求多元的廣大中小企業(yè)來說并不具備廣泛適用性。

前微軟美國總部及大中華區(qū)技術(shù)高管、邁吉客科技董事長伏英娜表示，OpenAI 之前的ChatGPT是利用Transformer的encoder-decoder編解碼機(jī)制構(gòu)建了語言的自回歸模型，而圖像和視頻領(lǐng)域最有價(jià)值的Diffusion擴(kuò)散模型是一種生成模型，它通過模擬隨機(jī)擴(kuò)散過程來生成圖像數(shù)據(jù)，本質(zhì)與語言的自回歸是相似的但維度不同。現(xiàn)在Sora是Diffusion + Transformer結(jié)合的創(chuàng)新，視頻數(shù)據(jù)壓縮進(jìn)向量空間中涌現(xiàn)的智能，不僅能夠?qū)崿F(xiàn)媲美 GAN 的圖像生成質(zhì)量，而且具有更好的擴(kuò)展性和計(jì)算效率，所想即所見時(shí)代到來。

如果繼續(xù)用這樣的思路和邏輯處理不同模態(tài)的數(shù)據(jù)，相信未來會(huì)涌現(xiàn)出更多不可思議的智能。人類的多元智能是包含語言智能、數(shù)理邏輯智能、人際關(guān)系智能（情商、情感）以及身體運(yùn)動(dòng)和控制的智能，還有空間感知智能、音樂韻律節(jié)奏相關(guān)的智能，這些多元智能有些是目前AI做不到的，但如果跨越奇點(diǎn)真的是想象力創(chuàng)造未來無限可能。

OpenAI選擇的是AGI（通用人工智能）造福全人類，這在中國并不現(xiàn)實(shí)，沒有資本、市場和創(chuàng)新環(huán)境支撐，且AGI飛輪效應(yīng)一旦形成在同一維度是不可能超越的。

反觀企業(yè)級智能AEI（Evolution/Enterprise AI）和通用智能AGI同樣有價(jià)值，其實(shí)通用大語言模型放在企業(yè)級場景中并不適用，使用互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)訓(xùn)練是一種浪費(fèi)和干擾，并且有失控和數(shù)據(jù)的風(fēng)險(xiǎn)。企業(yè)級AI沒必要用千億規(guī)模參數(shù)大模型，反而需要成本可控和邊界安全、零幻覺率，針對企業(yè)自身數(shù)據(jù)類型及規(guī)模選擇適合的參數(shù)量級和模態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.