99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT與Adobe聯(lián)手開發(fā)AI視頻生成工具,畫質(zhì)不輸Sora,還能實(shí)時(shí)修改

0
分享至


(來源:MIT News)

如果有機(jī)會(huì)讓你一窺人工智能模型生成視頻的幕后過程,你會(huì)聯(lián)想到什么?或許你以為這類似于定格動(dòng)畫的制作方式——先生成大量圖像再拼接起來。但對于 OpenAI 的 SORA 和谷歌的 VEO 2 這類“擴(kuò)散模型”而言,事實(shí)并非如此。

這些系統(tǒng)并非逐幀(或稱“自回歸”)生成視頻,而是對整個(gè)序列進(jìn)行同步處理。雖然最終生成的片段往往具有照片級真實(shí)感,但處理過程緩慢且無法實(shí)時(shí)修改。

近日,來自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和 Adobe Research 的科學(xué)家們開發(fā)出了一種名為“CausVid”的混合方法,該模型能夠以每秒 9.4 幀的速度實(shí)時(shí)生成高質(zhì)量視頻,首幀延遲僅為 1.3 秒

這個(gè)系統(tǒng)通過全序列擴(kuò)散模型來訓(xùn)練自回歸系統(tǒng),使其既能快速預(yù)測下一幀畫面,又能確保畫質(zhì)與連貫性?;诤唵挝谋咎崾?,CausVid 便可實(shí)現(xiàn)多種創(chuàng)作:將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)場景、延長視頻時(shí)長,甚至在生成過程中根據(jù)新指令實(shí)時(shí)修改內(nèi)容。

該技術(shù)將原本需要 50 個(gè)步驟的流程精簡為幾個(gè)動(dòng)作,實(shí)現(xiàn)了快速交互式內(nèi)容創(chuàng)作。它能打造諸多充滿想象力的藝術(shù)場景:紙飛機(jī)變成天鵝、長毛猛犸象穿越雪原、孩童在水坑中蹦跳。用戶還能進(jìn)行漸進(jìn)式創(chuàng)作:先輸入“生成男子過馬路”的初始指令,待人物到達(dá)對面人行道時(shí),再追加“他從口袋里掏出筆記本寫字”的新元素。

CSAIL 的研究人員表示,該模型可以用于不同的視頻編輯任務(wù),例如通過生成與音頻翻譯同步的視頻來幫助觀眾理解不同語言的直播;還可以幫助在視頻游戲中渲染新內(nèi)容,或快速生成訓(xùn)練模擬來教機(jī)器人完成新任務(wù)。



CausVid 可以被視為一種“師生模型”。其中,全序列擴(kuò)散模型充當(dāng)“老師”。其與驅(qū)動(dòng) SORA 或 VEO 的強(qiáng)大模型類似,擅長理解視頻的整個(gè)時(shí)間流。它們可以同時(shí)預(yù)想一個(gè)序列的開頭、中間和結(jié)尾,掌握運(yùn)動(dòng)的細(xì)微差別、物體的永久性以及場景整體隨時(shí)間變化的穩(wěn)定性。這種全面的理解使它們能夠生成極其穩(wěn)定且高分辨率的視頻,但一次性處理整個(gè)序列需要耗費(fèi)大量的計(jì)算資源,并且速度本身就很慢。

“學(xué)生”則是一個(gè)更簡單的自回歸模型。自回歸模型根據(jù)序列中前一個(gè)元素預(yù)測下一個(gè)元素。在視頻環(huán)境中,這意味著根據(jù)當(dāng)前幀和前一幀預(yù)測下一幀。這種順序處理本質(zhì)上比試圖一次性弄清楚所有內(nèi)容要快得多。然而,純自回歸視頻生成的嘗試經(jīng)常會(huì)失敗,最大的陷阱是“錯(cuò)誤累積”。想象一下,一個(gè)模型在預(yù)測每個(gè)后續(xù)幀時(shí)都會(huì)犯一些微小的錯(cuò)誤。隨著時(shí)間的推移,這些小錯(cuò)誤會(huì)累積起來,導(dǎo)致視覺不一致、抖動(dòng),以及視頻播放過程中質(zhì)量明顯下降。輸出可能開始很流暢,但很快就會(huì)變得視覺混亂。

CausVid 巧妙地利用了教師模型的預(yù)見性,從而避免了這個(gè)問題。全序列擴(kuò)散教師模型能夠理解整個(gè)視頻軌跡,并在訓(xùn)練階段將其專業(yè)知識傳授給自回歸學(xué)生模型。它不僅僅是告訴學(xué)生“下一幀是什么樣子”,而是訓(xùn)練學(xué)生模型理解穩(wěn)定視頻生成所需的底層動(dòng)態(tài)和一致性。本質(zhì)上,教師模型教會(huì)學(xué)生如何不僅快速地預(yù)測未來幀,而且能夠始終如一地預(yù)測,并與對整個(gè)序列的高級理解保持一致。這與之前缺乏這種總體指導(dǎo)的因果方法有著至關(guān)重要的區(qū)別。通過對教師模型的高質(zhì)量輸出進(jìn)行訓(xùn)練,并受益于其全局理解,學(xué)生模型可以學(xué)會(huì)快速預(yù)測后續(xù)幀,而不會(huì)像之前的模型那樣陷入累積誤差。



當(dāng)研究人員測試 CausVid 生成 10 秒高清視頻的能力時(shí),這款模型展現(xiàn)出卓越的視頻制作天賦。其表現(xiàn)遠(yuǎn)超“OpenSORA”和“MovieGen”等基線模型,生成速度比競品快達(dá) 100 倍,同時(shí)能輸出最穩(wěn)定、最高質(zhì)的視頻片段。

團(tuán)隊(duì)進(jìn)一步測試了 CausVid 生成 30秒長視頻的穩(wěn)定性,在畫質(zhì)連貫性方面同樣碾壓同類模型。這些結(jié)果表明,該技術(shù)有望實(shí)現(xiàn)數(shù)小時(shí)甚至無限時(shí)長的穩(wěn)定視頻生成。有趣的是,作為研究一部分進(jìn)行的用戶調(diào)研,為了解 CausVid 性能的實(shí)際體驗(yàn)提供了寶貴的見解。相比基于擴(kuò)散技術(shù)的教師模型,用戶絕大多數(shù)更喜歡學(xué)生模型生成的視頻。

“自回歸模型的速度優(yōu)勢具有決定性意義,”論文作者 Tianwei Yin 指出,“其視頻質(zhì)量可與教師模型媲美,雖然生成耗時(shí)更短,但代價(jià)是視覺多樣性稍遜一籌?!?/p>

在使用文本-視頻數(shù)據(jù)集進(jìn)行的 900 多次提示測試中,CausVid 以 84.27 的綜合評分拔得頭籌。其在成像質(zhì)量和擬人動(dòng)作等指標(biāo)上表現(xiàn)尤為突出,超越了“Vchitect”和“Gen-3”等頂尖視頻生成模型。

盡管 CausVid 已是 AI 視頻生成領(lǐng)域的高效突破,但通過精簡因果架構(gòu),其生成速度有望進(jìn)一步提升,甚至實(shí)現(xiàn)即時(shí)生成。Tianwei Yin 表示,若采用特定領(lǐng)域數(shù)據(jù)集訓(xùn)練,該模型將為機(jī)器人和游戲產(chǎn)業(yè)產(chǎn)出更優(yōu)質(zhì)的視頻內(nèi)容。

專家認(rèn)為,這種混合系統(tǒng)是對當(dāng)前受處理速度拖累的擴(kuò)散模型的重要升級。“現(xiàn)有視頻模型的速度遠(yuǎn)遜于大語言模型或圖像生成模型,”未參與該研究的卡內(nèi)基梅隆大學(xué)助理教授 Jun Yan Zhu 評價(jià)道,“這項(xiàng)突破性工作顯著提升了生成效率,意味著更流暢的串流速度、更強(qiáng)的交互應(yīng)用潛力,以及更低的碳足跡?!?/p>

該研究獲得了亞馬遜科學(xué)中心、光州科學(xué)技術(shù)院、Adobe、谷歌、美國空軍研究實(shí)驗(yàn)室及美國空軍人工智能加速器的支持。CausVid 技術(shù)將于 6 月在國際計(jì)算機(jī)視覺與模式識別會(huì)議(CVPR)正式亮相。

https://news.mit.edu/2025/causevid-hybrid-ai-model-crafts-smooth-high-quality-videos-in-seconds-0506

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港行記:廟街水面之下的性交易

香港行記:廟街水面之下的性交易

悠閑葡萄
2025-06-12 11:39:07
袁立小號發(fā)文緬懷羅帥宇,連發(fā)兩條動(dòng)態(tài),看新聞難過到吃不下飯

袁立小號發(fā)文緬懷羅帥宇,連發(fā)兩條動(dòng)態(tài),看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
創(chuàng)造歷史,穆西亞拉成為世俱杯歷史上首位替補(bǔ)出場戴帽的球員

創(chuàng)造歷史,穆西亞拉成為世俱杯歷史上首位替補(bǔ)出場戴帽的球員

懂球帝
2025-06-16 02:09:13
大量移動(dòng)定制臺燈涌入閑魚,自帶攝像頭監(jiān)控功能,全新37元

大量移動(dòng)定制臺燈涌入閑魚,自帶攝像頭監(jiān)控功能,全新37元

閑搞機(jī)
2025-06-15 10:58:42
又是誤判?大連英博唯一進(jìn)球遭到質(zhì)疑,必須嚴(yán)查!

又是誤判?大連英博唯一進(jìn)球遭到質(zhì)疑,必須嚴(yán)查!

冷桂零落
2025-06-15 15:50:02
伊朗迎來最強(qiáng)援助,巴基斯坦國防部長:將盡一切可能支援伊朗!

伊朗迎來最強(qiáng)援助,巴基斯坦國防部長:將盡一切可能支援伊朗!

二凱訓(xùn)猛犬
2025-06-16 03:51:00
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
越南難以啟齒的特殊行業(yè)——破光師

越南難以啟齒的特殊行業(yè)——破光師

金哥說新能源車
2025-06-15 07:20:26
6年前,那個(gè)713分考上清華的“搬磚男孩”,如今卻選擇了這條路

6年前,那個(gè)713分考上清華的“搬磚男孩”,如今卻選擇了這條路

比利
2025-06-15 12:09:16
山東高速男籃換帥內(nèi)幕,鞠維松有何過人之處?

山東高速男籃換帥內(nèi)幕,鞠維松有何過人之處?

魯源侃球
2025-06-15 11:05:03
正兵團(tuán)職的他要求轉(zhuǎn)業(yè),被安排省委書記處書記,為行政6級待遇

正兵團(tuán)職的他要求轉(zhuǎn)業(yè),被安排省委書記處書記,為行政6級待遇

平祥生活日志
2025-06-15 17:06:12
為啥黃圣依和楊子分開后變化這么大?

為啥黃圣依和楊子分開后變化這么大?

情感大頭說說
2025-06-16 04:25:22
印度開始全盤否定重要人物,這不是一個(gè)好征兆,歷史或?qū)⒅匮?>
    </a>
        <h3>
      <a href=智慧生活筆記
2025-06-13 18:40:17
還做夢呢?聯(lián)賽未過半前7球隊(duì)輸了個(gè)遍,魯媒仍幻想山東泰山爭冠

還做夢呢?聯(lián)賽未過半前7球隊(duì)輸了個(gè)遍,魯媒仍幻想山東泰山爭冠

老慃尾聲體育解說
2025-06-16 01:26:02
天哪!龔琳娜離婚后變化巨大,不細(xì)看根本認(rèn)不出來!

天哪!龔琳娜離婚后變化巨大,不細(xì)看根本認(rèn)不出來!

手工制作阿殲
2025-06-15 17:11:22
2025年養(yǎng)老金調(diào)整即將開始,調(diào)整細(xì)則,工齡30年的人能漲100元嗎

2025年養(yǎng)老金調(diào)整即將開始,調(diào)整細(xì)則,工齡30年的人能漲100元嗎

社保小達(dá)人
2025-06-15 09:50:04
美記:KCP會(huì)回春 科安能頂莫蘭特 選秀權(quán)用來換球員 應(yīng)該都是好事

美記:KCP會(huì)回春 科安能頂莫蘭特 選秀權(quán)用來換球員 應(yīng)該都是好事

直播吧
2025-06-16 02:41:22
活得很爭氣,也很有骨氣的三個(gè)星座

活得很爭氣,也很有骨氣的三個(gè)星座

星座葉大仙
2025-06-15 23:16:03
3億英鎊的瘋狂!先簽4人,再搶2人,利物浦咋這么有錢了?

3億英鎊的瘋狂!先簽4人,再搶2人,利物浦咋這么有錢了?

風(fēng)風(fēng)拒絕焦慮
2025-06-16 04:28:46
央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

史紀(jì)文譚
2025-06-14 13:23:51
2025-06-16 05:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15297文章數(shù) 513784關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

以伊導(dǎo)彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導(dǎo)彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網(wǎng)友

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態(tài)度原創(chuàng)

教育
游戲
數(shù)碼
時(shí)尚
旅游

教育要聞

又是一道經(jīng)典的應(yīng)用題,經(jīng)常出現(xiàn)在試卷上,但還有許多同學(xué)做錯(cuò)

革命性的起點(diǎn):外媒稱這7款PS游戲徹底改變游戲行業(yè)

數(shù)碼要聞

消息稱蘋果 AirPods Pro 3 明年發(fā)布

林徽因嫁給梁思成,一半原因在他?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 湖口县| 广南县| 峨边| 明溪县| 高密市| 揭东县| 忻城县| 焉耆| 衡山县| 灌云县| 武鸣县| 云龙县| 鹿泉市| 封丘县| 称多县| 盐山县| 侯马市| 中牟县| 清水河县| 滦南县| 闸北区| 光山县| 浙江省| 安陆市| 巨野县| 吉林省| 乐业县| 云阳县| 林芝县| 九龙城区| 岢岚县| 乐亭县| 隆林| 保定市| 关岭| 陇川县| 阿拉尔市| 玉屏| 英德市| 新田县| 河池市|