埃森哲咨詢公司于1月發(fā)布了報(bào)告《2024技術(shù)展望—AI拐點(diǎn) 重塑人類潛力》,報(bào)告梳理了2024年的四大技術(shù)趨勢,分別是AI伙伴、智能體、空間計(jì)算、人機(jī)互通。
2月2日,蘋果正式發(fā)售Vision Pro,空間計(jì)算時(shí)代加速到來。2月15日,Open AI發(fā)布了第一款文生視頻模型Sora,通用人工智能(AGC)加速到來。兩者都是引領(lǐng)時(shí)代、具有顛覆性意義的現(xiàn)象級產(chǎn)品,進(jìn)一步拉開了中美AI的差距。
Sora是繼文本模型ChatGPT、圖像模型Dall-E大殺四方后,OpenAI繼續(xù)祭出大殺器——Sora,這回他們選擇顛覆視頻領(lǐng)域。這是一個(gè)歷史性的里程碑,在視覺領(lǐng)域?qū)崿F(xiàn)了與大語言模型類似的突破,帶來了一次大的技術(shù)與商業(yè)革命。
其實(shí),從2022年下半年開始,Midjourney、Stable Diffusion之類的應(yīng)用已經(jīng)可以根據(jù)文本提示詞生成對應(yīng)的圖片了。在2023年9月,GPT 4.0和DALLE 3結(jié)合,也讓我們能夠用聊天化的方式生成、修改圖片。在這次的Sora發(fā)布之前,也已經(jīng)有一些視頻生成AI,比如Pika、Stable video、RunwayML等等。但與Sora相比,其他模型生成的視頻在很多方面都要弱很多。
受制于AI文本到視頻生成的物理和時(shí)空推理局限,目前整個(gè)行業(yè)中所公布的單個(gè)連貫性視頻的最大長度是16秒,但此次Sora的最大支持長度是60秒。此前AI生成視頻產(chǎn)品都是單鏡頭單生成,由Sora所生成的視頻,能夠在保持主體一致性的前提下實(shí)現(xiàn)多角度鏡頭無縫切換,整個(gè)畫面干凈流暢,從而實(shí)現(xiàn)真正的視頻大片效果。
Sora是一個(gè)基于擴(kuò)散模型的視頻模型,基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重標(biāo)注技術(shù),通過GPT的能力,使模型更加準(zhǔn)確地遵循用戶的文本指令生成視頻。對現(xiàn)實(shí)世界有了更深刻的理解和互動(dòng)能力,具有了世界模型的雛形。OpenAI最終想做的,其實(shí)不是一個(gè)“文生視頻”的工具,而是一個(gè)通用的“物理世界模擬器”,為真實(shí)世界建模。
世界模型是一種AI技術(shù),它的目的是讓機(jī)器能夠像人類一樣對真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知。世界模型不僅包括對事物的描述和分類,還包括對事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測。世界模型可以讓機(jī)器從數(shù)據(jù)中學(xué)習(xí)出有用的知識(shí),并根據(jù)知識(shí)進(jìn)行推理和決策。AGI是人工智能的最高境界,也是許多科學(xué)家和工程師的終極目標(biāo)。
在與谷歌Gemini 1.5 Pro相繼出場的輿論戰(zhàn)中,OpenAI Sora可以說是取得了碾壓式勝利。Sora無疑是人工智能領(lǐng)域的一次重大突破,該技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺內(nèi)容方面的先進(jìn)能力,而且對內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)帶來了前所未有的挑戰(zhàn)和機(jī)遇。
比如現(xiàn)在一個(gè)電影動(dòng)不動(dòng)就制作成本上億,AI會(huì)極大的降低電影成本,比如說《繁花》里,為了拍電影1:1復(fù)制重建黃河路,好萊塢電影的一個(gè)科幻片段需要耗費(fèi)數(shù)百萬美元,Sora正在讓這些燒錢的影視制作環(huán)節(jié)變成“零成本”,甚至創(chuàng)作出比之前更好的作品。
盡管Sora在技術(shù)和性能表現(xiàn)上有了巨大的提升,它仍有不少的局限性,在理解復(fù)雜場景的物理原理、因果關(guān)系、空間細(xì)節(jié)、時(shí)間推移上存在弱點(diǎn)。OpenAI明確表示目前Sora的模型還并不完美,仍屬于世界模型研究應(yīng)用的初期,相信這些問題隨著時(shí)間都能得到解決。
而相比于其自身缺陷,該技術(shù)的廣泛前景更為外界所關(guān)注。近兩年,由于人工智能發(fā)展迅速,以至于很多企業(yè)紛紛加大了對人工智能的投入。科技創(chuàng)業(yè)公司研究機(jī)構(gòu)PitchBook估計(jì),2023年全球生成式AI的市場規(guī)模將達(dá)426億美元,2026年則將達(dá)到981億美元,未來增長動(dòng)能可期。
在新的發(fā)展階段,生成式AI將與更多領(lǐng)域的技術(shù)相結(jié)合,實(shí)現(xiàn)更加智能化、高效化的應(yīng)用。這些應(yīng)用將為人們的生活和工作帶來更多的便利和效益。例如,在醫(yī)療領(lǐng)域,生成式AI+醫(yī)學(xué)知識(shí),輔助醫(yī)生進(jìn)行診斷和治療;在金融領(lǐng)域,生成式AI+金融數(shù)據(jù),輔助投資者進(jìn)行投資決策;在教育領(lǐng)域,生成式AI+學(xué)生互動(dòng),輔助教師進(jìn)行教學(xué)等。
從二級市場的表現(xiàn)來看,最先受到Sora降維打擊的是工具類公司Adobe,在Sora公布后的次日股價(jià)暴跌超7%。另外一只美股Shutterstock周五跌逾5%,市值一夜蒸發(fā)超7000萬美元。公開資料顯示,該公司每年銷售價(jià)值約10 億美元的照片和視頻。
對于字節(jié)跳動(dòng)來說,Sora的誕生將對剪映造成一定的沖擊。正如周鴻祎所言,它不一定那么快擊敗 TikTok,更可能成為 TikTok的創(chuàng)作工具。剪映作為一個(gè)內(nèi)容創(chuàng)作工具,所瞄準(zhǔn)的正是AI創(chuàng)新方向,據(jù)悉即將推出一個(gè)AI生圖和視頻的產(chǎn)品,進(jìn)一步拉低普通人創(chuàng)作視頻的門檻,創(chuàng)造抖音、TikTok二次增長的新機(jī)會(huì)。
ChatGPT誕生之初,引發(fā)了國內(nèi)互聯(lián)網(wǎng)大廠以及眾多創(chuàng)業(yè)公司的跟進(jìn),上演了“百模大戰(zhàn)”,都寄希望于自己成為智能變革時(shí)代的底座。雖然積極追趕,但國內(nèi)大模型產(chǎn)品在性能、生態(tài)等方面還與ChatGPT存在一定的差距。如今Sora的爆火誕生,必將再一次產(chǎn)生國內(nèi)企業(yè)的跟風(fēng)潮,倒逼我國AI行業(yè)繼續(xù)取得重要突破。
在業(yè)內(nèi)有一個(gè)普遍的市場共識(shí),在通用大模型領(lǐng)域,鑒于高昂的研發(fā)資金壁壘,只有少數(shù)科技巨頭有望在競爭中勝出,因?yàn)榛A(chǔ)大模型對于需求多元的廣大中小企業(yè)來說并不具備廣泛適用性。
前微軟美國總部及大中華區(qū)技術(shù)高管、邁吉客科技董事長伏英娜表示,OpenAI 之前的ChatGPT是利用Transformer的encoder-decoder編解碼機(jī)制構(gòu)建了語言的自回歸模型,而圖像和視頻領(lǐng)域最有價(jià)值的Diffusion擴(kuò)散模型是一種生成模型,它通過模擬隨機(jī)擴(kuò)散過程來生成圖像數(shù)據(jù),本質(zhì)與語言的自回歸是相似的但維度不同。現(xiàn)在Sora是Diffusion + Transformer結(jié)合的創(chuàng)新,視頻數(shù)據(jù)壓縮進(jìn)向量空間中涌現(xiàn)的智能,不僅能夠?qū)崿F(xiàn)媲美 GAN 的圖像生成質(zhì)量,而且具有更好的擴(kuò)展性和計(jì)算效率,所想即所見時(shí)代到來。
如果繼續(xù)用這樣的思路和邏輯處理不同模態(tài)的數(shù)據(jù),相信未來會(huì)涌現(xiàn)出更多不可思議的智能。人類的多元智能是包含語言智能、數(shù)理邏輯智能、人際關(guān)系智能(情商、情感)以及身體運(yùn)動(dòng)和控制的智能,還有空間感知智能、音樂韻律節(jié)奏相關(guān)的智能,這些多元智能有些是目前AI做不到的,但如果跨越奇點(diǎn)真的是想象力創(chuàng)造未來無限可能。
OpenAI選擇的是AGI(通用人工智能)造福全人類,這在中國并不現(xiàn)實(shí),沒有資本、市場和創(chuàng)新環(huán)境支撐,且AGI飛輪效應(yīng)一旦形成在同一維度是不可能超越的。
反觀企業(yè)級智能AEI(Evolution/Enterprise AI)和通用智能AGI同樣有價(jià)值,其實(shí)通用大語言模型放在企業(yè)級場景中并不適用,使用互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)訓(xùn)練是一種浪費(fèi)和干擾,并且有失控和數(shù)據(jù)的風(fēng)險(xiǎn)。企業(yè)級AI沒必要用千億規(guī)模參數(shù)大模型,反而需要成本可控和邊界安全、零幻覺率,針對企業(yè)自身數(shù)據(jù)類型及規(guī)模選擇適合的參數(shù)量級和模態(tài)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.