網易首頁 > 網易號 > 正文申請入駐

一場Open AI式的二次勝利背后，有人膜拜有人緊張

2024-03-11 21:05:49　來源: 科技茶館

北京舉報

分享至

摩登女郎漫步東京街頭、人潮涌動歡慶龍年春節、第四紀大冰期猛犸象踏過白雪皚皚的草地……

甲辰龍年的第一個工作周，大家有沒有被這幾支由視頻生成模型Sora產出的短視頻給震驚住。

輸入關鍵詞即可生成1分鐘視頻，且視頻可實現多角度鏡頭切換——這是Sora的實力與魅力所在，也是Open AI再次掀起的震撼時刻。

上一次，還是去年春節檔。彼時Open AI 攜Chat GPT概念橫空出世，快速引爆資本、科技圈，至此拉開AI大航海序幕。不曾想，恰好時隔一年，相似的故事再次發生。Open AI在毫無任何預兆的情況下發布Sora，將生成式AI的“魔法”以驚人的速度從文本延伸到視頻。

一場Open AI式的二次勝利背后，是資本市場上AI應用方向再次全線大漲，社交媒體上AIGC再次持續刷屏，“數百萬××人或將被取代”的失業警報再次被拉響。

視頻生成“GPT-3”時刻降臨

去年，Pika聯合創始人兼CTO Chenlin Meng在接受采訪時表示：“我覺得目前視頻生成處于類似GPT-2的時刻。”

她詳細解釋過：“視頻的每一幀都是一張圖片，但處理起來比圖片困難很多。視頻的每一幀的生成質量都要高，相鄰幀之前還要有關聯性。此外，控制視頻生成更難，因為模型需要生成每一幀發生的事情，但用戶則不會希望為每一幀都提供詳細的描述。”為此，3-4秒的有限時長、掉幀明顯得像PPT的畫質、生成內容不合理，一直是掣肘文生視頻模型發展的核心痛點。

而現在， Sora所呈現的效果，對應行業痛點均有突破，以幾乎碾壓的優勢成果甩開去年還處于大熱的選手Runway、Pika等。

究其原因，這再一次驗證了Open AI技術路徑的優越性。萬興科技AI創新中心總經理齊鏜泉評價Sora “依然遵循Open AI的Scaling Law，靠大量數據，大模型和大量算力”。思謀科技創始人賈佳亞評價“Sora是大力出奇跡，在學術界連VIT的256*256的分辨率都沒法改的情況下，Sora直接用上高清以及更大的分辨率。”

據紐約大學數據科學中心的助理教授謝賽寧推算，Sora參數量約30億。該數量級遠超一眾AI視頻生成模型，稱得上是降維打擊。

另一方面，為優化生成效果，解決掉幀問題，Sora首次使用混合模型架構，完成擴散模型與大模型能力的融合。

Open AI在技術報告中提及用patch（視覺補丁）統一圖像與視頻的方法，通過將視頻畫面的每一幀都編碼轉化為一個視覺補丁，可方便將這些視頻、圖像的最小單位簡單、靈活地打破、重組。作為統一數據的方式，該方法是打通擴散模型和大模型的橋梁。這樣，在Sora文生視頻的訓練過程中，Open AI就能把之前沉淀的技術積累運用到視覺模型上，引入GPT的語言理解能力，讓Sora按照用戶簡短提示，自己推演預測，進而填補每一幀畫面的詳細描述，生成流暢度高、質量上乘的長視頻。

AGI的實現將縮短至2年

16日，360創始人周鴻祎在微博上提到自己對Sora的看法。他表示，Sora的誕生意味著AGI（通用人工智能）實現可能從10年縮短至兩三年。

秉持大力出奇跡原則，以大模型技術作為基礎，“一旦人工智能接上攝像頭，把所有的電影都看一遍，它對世界的理解將遠遠超過文字學習，一幅圖勝過千言萬語，這就離AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現。”周鴻祎感慨道。

這里，周鴻祎提及“對世界的理解”，其實與Open AI自己在技術報告中闡述的“世界模擬器”概念不謀而合。

用Open AI自己的話說，Sora不是單純的視頻生成模型，它能更深刻地理解運動中的物理世界，未來有可能模擬生成物理世界的一切視頻。

用電影《山海奇境》制作人、星賢文化陳坤的話說：“Open AI在向我們展示它在視頻方面的能力，但真正的目的在于獲取人們的反饋數據，去探索、預測人們想要生成的視頻是什么樣的。”當Sora對真實的物理世界完成建模，當它像人類一樣，對世界形成一個全面而準確的認知后，其視頻生成會更流暢、更符合邏輯。同時，這也為生成式AI真正進入自動駕駛等更多行業打下堅實基礎。

太快了，

但還沒有生產工具取代人類

懷抱“世界模擬器”夢想的Sora，從來都未曾想顛覆視頻影視行業，也不應該成為影視從業者的“噩夢”。

雖然Sora開始理解部分物理世界，但它生產的“翻車”視頻也在這一周里被廣泛討論，小破站也有21萬播放量的Sora翻車視頻集錦，細數著它的常見錯誤，包括模擬人時會生成身體上難以置信的動作，比如：摩登女郎漫步東京街頭的視頻里，女郎走路時右腿連續兩次先行邁向前方……模擬物體時會因不準確的物理建模導致非自然物體“變形”，比如投籃視頻里，籃球穿過未能形成閉環的籃筐……總結起來，文生視頻依舊存在著難以精準模擬復雜物理場景等各種各樣的問題，一切都還任重道遠。

至于AI技術落到現實應用層，被卷入其中的電影圈人士也曾表達過憂慮。早在去年上海國際電影節，科幻大導、賽博妲己郭帆就曾感嘆，自己和團隊都有認真研究多種人工智能的應用，目前從前端的劇本創作到后期特效呈現，比如人物面部的增減齡，比如聲音的處理，都能用人工智做到。可能過去做這些事情時，技術應用還沒有非常便利，但新技術的快速更迭、突飛猛進，會讓業內人士不斷見證更理想的成果。

憂慮之外，也有期許和謹慎。郭帆表示：“做《流浪地球》第三集之前，希望拿出更多的時間先去考察、認知人工智能技術，它是在什么樣的層級上，是把它當工具看，還是把它當更深入的物種看。接下來是怎么應用。”

所以，如何擁抱新生生產工具，遠比焦慮是否會被技術革新替代要重要得多。因為歷史上還沒有某種生產工具的誕生，真正取代了人類。

茶館君往期精選

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.