近日,OpenAI發布了一個名為Sora的視頻生成模型,引起了廣泛的關注和討論,OpenAl推出ChatGPT才過去一年多,就再度扔出一枚重磅炸彈。
從2016年發布的chatgpt,一個可以與人類進行自然對話的AI模型,到2020年發布的GPT-3,一個可以生成任意文本的AI模型,再到2021年發布的DALL-E,一個可以根據文本生成任意圖像的AI模型,以及Codex,一個可以根據文本生成任意代碼的AI模型,OpenAI不斷刷新了人工智能的界限和記錄。
我們不禁想象,SORA作為Open AI的新產品,能夠在哪些領域和場景中發揮什么作用?能量幾何呢?
01
OpenAI的新王炸
一錘降維
OpenAI,這個以人工智能為使命的非營利組織,近年來頻繁出現在科技界的頭條。從GPT-3到DALL-E,從Codex到Jukebox,OpenAI不斷推出讓人驚嘆的AI模型和工具,展示了人工智能的無限可能。
在2月16日OpenAI 又推出了其最新的視頻生成大模型 SORA,Sora的原理是基于OpenAI的先進的自然語言處理和計算機視覺技術,結合了大量的視頻數據和知識圖譜,通過神經網絡生成高質量的視頻畫面和音效,目標是讓視頻創作變得更加簡單、快速和有趣,讓每個人都能成為視頻大師。
雖然文生視頻大模型并不是一條全新的賽道。但SORA生成的視頻不僅擁有精致的背景和多角度的鏡頭切換,還能展現出多個角色的豐富的情感表現。這一成就遠遠超越了目前的 AI 視頻工具,如 Runway Gen 2、Pika 等,當它們仍然在努力實現短時間內的視頻連貫性,OpenAI 無疑已經用 SORA 創造了一個史無前例的里程碑。
使用了擴散Transformer作為底層模型,SORA可以更好地捕捉視頻中的時空關系和邏輯,而其他工具通常使用了循環網絡、生成對抗網絡或自回歸Transformer等模型。SORA的優勢在于它可以同時處理視頻的內容和樣式,從而生成更自然和多樣的視頻。SORA的核心是一個擴散過程,它將視頻分解為一系列的隱變量,然后逐步地重建視頻。在重建過程中,SORA利用了一個基于Transformer的編碼器-解碼器結構,以及一個基于注意力機制的時空對齊模塊,來學習視頻的高層語義和低層細節。
SORA的另一個特點是它可以靈活地適應不同的視頻任務,如視頻生成、視頻編輯、視頻風格遷移等,只需改變輸入和輸出的條件。SORA的實驗結果表明,它在多個視頻數據集上都取得了優于現有方法的性能和視覺效果。
SORA的出現,無疑是對人工智能領域的一錘降維,它打破了自然語言和代碼之間的隔閡。SORA的應用場景是無限的,從教育,到娛樂,再到商業,都能夠發揮它的作用和價值。視頻革命新紀元已然到來。
02
到底有多強?
馬斯克:人類GG
Sora的技術報告更加直觀的顯示了它的強大實力:
* 一個時尚的女人走在充滿溫暖霓虹燈和動畫城市標志的東京街道上。她穿著黑色皮夾克,長紅裙,黑靴子,手拎黑色手提包。她戴著墨鏡和紅唇。她自信而隨意地走著。街道潮濕而有反光,營造出色彩斑斕的燈光的鏡像效果。許多行人走來走去。
* 幾只巨大的毛茸茸的猛犸象在一個雪地草原上接近,它們的長毛茸茸的皮毛在風中輕輕搖曳,遠處是覆蓋著積雪的樹木和雄偉的雪山。午后的陽光和飄渺的云彩營造出一種溫暖的光芒,低角度的攝像機視角令人驚嘆地捕捉到了這種大型毛茸茸的哺乳動物的美麗攝影,景深。
* 一個電影預告片,展示了一個30歲的太空人的冒險,他戴著一頂紅色羊毛編織的摩托車頭盔,藍天,鹽沼,電影風格,用35毫米膠片拍攝,色彩鮮艷。
Sora的驚人能力不僅能夠生成現實中的場景,還能夠生成虛構的場景,甚至是從未存在過的場景。Sora的視頻具有高度的真實性和創造性,它能夠根據文本指令的細節和風格,生成符合用戶期望的視頻。在Sora,你能夠生成不同的視角、光照、顏色、紋理、運動等視頻元素,增加視頻的豐富性和趣味性。
我們可以想象到Sora的出現為視頻創作和消費帶來了全新的可能性。視頻制作人、藝術家、教育者、娛樂者……他們無需復雜的設備、技術或成本,就能夠用簡單的文本描述來創造出驚人的視頻。
Sora的強大引起了很多人的關注和討論,不少網友表示:“手中的飯碗保不住了。”包括OpenAI的聯合創始人之一,特斯拉和SpaceX的CEO馬斯克也在推特上發表了一條評論:“humans gg”。
這些評論的出現也不意外,也許Sora的未來將如何發展,還有待觀察。但有一點是肯定的,Sora已經改變了視頻領域的格局,也許還會改變更多的領域。人工智能預計未來帶來的震感會更加強烈,各行各業都需要系好安全帶。
03
從chatgpt到Sora
Open AI何以大招頻出?
能打敗Open AI的也只有Open AI了。
2015年門洛帕克的一頓晚飯上,在基于“構建安全的人工智能以造福人類”的愿景下,一些大佬們決定創建一個非營利性機構,這個機構最終獲得了包括Greg Brockman和Sam Altman在內的馬斯克、Jessica Livingston(Y C創始合伙人)、Peter Thiel(PayPal聯合創始人)、Reid Hoffman(LinkedIn聯合創始人)等企業家,以及亞馬遜的AWS等知名企業和機構的十億美元投資。
一個由世界一流的工程師和設計師組成的隊伍產品團隊誕生了,他們將OpenAI的研究成果轉化為實用的產品和服務,為廣大的用戶和開發者提供便利和價值。憑借著這個世界頂尖的產品團隊,一直以來OpenAI的成果是有目共睹的。
另外,從chatgpt到SORA,OpenAI沿襲了過往大語言模型訓練的許多成功經驗。和gpt一樣使用Transformer框架和LLM路線,可以說,對于目前all in AGI的OpenAI來說,從文本生成模型 GPT、文生圖模型 DALL·E,到文生視頻模型 Sora,OpenAI或許已經打造出了一條自己的AGI通用技術路線。在未來,chatgpt或許還會依賴這條路徑創作出更多模型。
科技君想 Sora能量幾何的答案是無窮無盡的,最終Sora的潛力只取決于用戶和市場的想象力和創造力。
總的來說,Sora的出現再次證明了OpenAI的實力和野心,我們正目睹一場視頻革命新紀元拉開帷幕。
茶館君往期精選
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.