摩登女郎漫步東京街頭、人潮涌動歡慶龍年春節、第四紀大冰期猛犸象踏過白雪皚皚的草地……
甲辰龍年的第一個工作周,大家有沒有被這幾支由視頻生成模型Sora產出的短視頻給震驚住。
輸入關鍵詞即可生成1分鐘視頻,且視頻可實現多角度鏡頭切換——這是Sora的實力與魅力所在,也是Open AI再次掀起的震撼時刻。
上一次,還是去年春節檔。彼時Open AI 攜Chat GPT概念橫空出世,快速引爆資本、科技圈,至此拉開AI大航海序幕。不曾想,恰好時隔一年,相似的故事再次發生。Open AI在毫無任何預兆的情況下發布Sora,將生成式AI的“魔法”以驚人的速度從文本延伸到視頻。
一場Open AI式的二次勝利背后,是資本市場上AI應用方向再次全線大漲,社交媒體上AIGC再次持續刷屏,“數百萬××人或將被取代”的失業警報再次被拉響。
01
視頻生成“GPT-3”時刻降臨
去年,Pika聯合創始人兼CTO Chenlin Meng在接受采訪時表示:“我覺得目前視頻生成處于類似GPT-2的時刻。”
她詳細解釋過:“視頻的每一幀都是一張圖片,但處理起來比圖片困難很多。視頻的每一幀的生成質量都要高,相鄰幀之前還要有關聯性。此外,控制視頻生成更難,因為模型需要生成每一幀發生的事情,但用戶則不會希望為每一幀都提供詳細的描述。”為此,3-4秒的有限時長、掉幀明顯得像PPT的畫質、生成內容不合理,一直是掣肘文生視頻模型發展的核心痛點。
而現在, Sora所呈現的效果,對應行業痛點均有突破,以幾乎碾壓的優勢成果甩開去年還處于大熱的選手Runway、Pika等。
究其原因,這再一次驗證了Open AI技術路徑的優越性。萬興科技AI創新中心總經理齊鏜泉評價Sora “依然遵循Open AI的Scaling Law,靠大量數據,大模型和大量算力”。思謀科技創始人賈佳亞評價“Sora是大力出奇跡,在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上高清以及更大的分辨率。”
據紐約大學數據科學中心的助理教授謝賽寧推算,Sora參數量約30億。該數量級遠超一眾AI視頻生成模型,稱得上是降維打擊。
另一方面,為優化生成效果,解決掉幀問題,Sora首次使用混合模型架構,完成擴散模型與大模型能力的融合。
Open AI在技術報告中提及用patch(視覺補丁)統一圖像與視頻的方法,通過將視頻畫面的每一幀都編碼轉化為一個視覺補丁,可方便將這些視頻、圖像的最小單位簡單、靈活地打破、重組。作為統一數據的方式,該方法是打通擴散模型和大模型的橋梁。這樣,在Sora文生視頻的訓練過程中,Open AI就能把之前沉淀的技術積累運用到視覺模型上,引入GPT的語言理解能力,讓Sora按照用戶簡短提示,自己推演預測,進而填補每一幀畫面的詳細描述,生成流暢度高、質量上乘的長視頻。
02
AGI的實現將縮短至2年
16日,360創始人周鴻祎在微博上提到自己對Sora的看法。他表示,Sora的誕生意味著AGI(通用人工智能)實現可能從10年縮短至兩三年。
秉持大力出奇跡原則,以大模型技術作為基礎,“一旦人工智能接上攝像頭,把所有的電影都看一遍,它對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現。”周鴻祎感慨道。
這里,周鴻祎提及“對世界的理解”,其實與Open AI自己在技術報告中闡述的“世界模擬器”概念不謀而合。
用Open AI自己的話說,Sora不是單純的視頻生成模型,它能更深刻地理解運動中的物理世界,未來有可能模擬生成物理世界的一切視頻。
用電影《山海奇境》制作人、星賢文化陳坤的話說:“Open AI在向我們展示它在視頻方面的能力,但真正的目的在于獲取人們的反饋數據,去探索、預測人們想要生成的視頻是什么樣的。”當Sora對真實的物理世界完成建模,當它像人類一樣,對世界形成一個全面而準確的認知后,其視頻生成會更流暢、更符合邏輯。同時,這也為生成式AI真正進入自動駕駛等更多行業打下堅實基礎。
03
太快了,
但還沒有生產工具取代人類
懷抱“世界模擬器”夢想的Sora,從來都未曾想顛覆視頻影視行業,也不應該成為影視從業者的“噩夢”。
雖然Sora開始理解部分物理世界,但它生產的“翻車”視頻也在這一周里被廣泛討論,小破站也有21萬播放量的Sora翻車視頻集錦,細數著它的常見錯誤,包括模擬人時會生成身體上難以置信的動作,比如:摩登女郎漫步東京街頭的視頻里,女郎走路時右腿連續兩次先行邁向前方……模擬物體時會因不準確的物理建模導致非自然物體“變形”,比如投籃視頻里,籃球穿過未能形成閉環的籃筐……總結起來,文生視頻依舊存在著難以精準模擬復雜物理場景等各種各樣的問題,一切都還任重道遠。
至于AI技術落到現實應用層,被卷入其中的電影圈人士也曾表達過憂慮。早在去年上海國際電影節,科幻大導、賽博妲己郭帆就曾感嘆,自己和團隊都有認真研究多種人工智能的應用,目前從前端的劇本創作到后期特效呈現,比如人物面部的增減齡,比如聲音的處理,都能用人工智做到。可能過去做這些事情時,技術應用還沒有非常便利,但新技術的快速更迭、突飛猛進,會讓業內人士不斷見證更理想的成果。
憂慮之外,也有期許和謹慎。郭帆表示:“做《流浪地球》第三集之前,希望拿出更多的時間先去考察、認知人工智能技術,它是在什么樣的層級上,是把它當工具看,還是把它當更深入的物種看。接下來是怎么應用。”
所以,如何擁抱新生生產工具,遠比焦慮是否會被技術革新替代要重要得多。因為歷史上還沒有某種生產工具的誕生,真正取代了人類。
茶館君往期精選
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.