99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克AI女友直播「一秒變身」,Karpathy看完立刻投錢

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】世界首個(gè)實(shí)時(shí)AI擴(kuò)散視頻模型炸場(chǎng),Karpathy親自站臺(tái),顛覆AI視頻交互,0延遲+無限時(shí)長(zhǎng),每秒24幀不卡頓,MirageLSD首次實(shí)現(xiàn)AI直播級(jí)生成。

剛剛,世界上首個(gè)支持直播推流的「實(shí)時(shí)」擴(kuò)散AI視頻誕生

大神Karpathy親自站臺(tái)宣傳這個(gè)最新技術(shù)MirageLSD


最火的「馬斯克AI女友」可以直接秒變哥特風(fēng)格、卡哇伊風(fēng)格——注意是實(shí)時(shí),而不是后期生成。


這就是DecartAI最新推出的MirageLSD:首個(gè)支持直播推流的實(shí)時(shí)擴(kuò)散AI視頻模型。

大神Karpathy說他是這個(gè)項(xiàng)目的天使投資人,看到團(tuán)隊(duì)能取得突破非常激動(dòng)。

Karpathy還簡(jiǎn)單講解了下什么是「實(shí)時(shí)擴(kuò)散AI視頻模型」。


比如我們熟悉的濾鏡,就是一種實(shí)時(shí)視頻效果。


簡(jiǎn)單的濾鏡效果雖然是「實(shí)時(shí)」的,但也只能進(jìn)行基本的重新著色和樣式設(shè)置,本質(zhì)上濾鏡是「無法理解」視頻內(nèi)容的。

現(xiàn)在AI生成視頻常用的擴(kuò)散模型,比如谷歌的Veo3,已經(jīng)很神奇了,它是能夠「理解」想要生成的視頻內(nèi)容的。

但是唯一的缺點(diǎn)是生成過程比較慢需要好幾分鐘,效果好的視頻需要時(shí)間更多。


MirageLSD則是一種完全不同的模型,它不是簡(jiǎn)單的疊加濾鏡,而是理解真實(shí)視頻后同步生成無限想象力的AI視頻。

比如可以給你的狗穿上蜘蛛俠的衣服,或者將打斗場(chǎng)面直接變成星球大戰(zhàn)。


也可以把廚房的風(fēng)格變換為卡通,或者直接將手里的筆變成光劍。


這些畫面都可以任意通過提示進(jìn)行操控。

這給未來的視頻娛樂、直播互動(dòng)帶來了豐富的想象力。

Karpathy本人就想了幾個(gè)點(diǎn)子:

  • 科幻片導(dǎo)演現(xiàn)場(chǎng)拍攝時(shí),就可以直接測(cè)試成片的效果;

  • 實(shí)時(shí)虛擬替換不同風(fēng)格、不同背景下的衣服,比如直接穿著婚紗出現(xiàn)在禮堂;

  • 例如情侶間通話時(shí),將對(duì)話直接卡通化;

  • 游戲畫面直接切換,比如直接將黑神話悟空切換到老頭環(huán)的交界地。

DecartAI給出幾個(gè)官方演示視頻,可以感受下這個(gè)「魔法般」的效果。

由于MirageLSD是實(shí)時(shí)運(yùn)行,可以將游戲畫面實(shí)時(shí)設(shè)置為你最喜歡的場(chǎng)景。

另外一個(gè)最有趣的應(yīng)用就是,不用再擔(dān)心直播設(shè)備不好,你可以直接將直播畫面轉(zhuǎn)化為全新場(chǎng)景,即使你的設(shè)備再差,也可以進(jìn)行「完美直播」。

同時(shí),Decart還提供了一個(gè)官方的體驗(yàn)網(wǎng)站,不過現(xiàn)在估計(jì)熱度太高了,服務(wù)器一直無法連接。

畢竟是Karpathy親自宣傳,粉絲太多啦!


本周上線的是網(wǎng)頁(yè)版,下周將上線iOS和安卓版本。


AI實(shí)時(shí)想象畫面

MirageLSD是首個(gè)實(shí)現(xiàn)無限、實(shí)時(shí)視頻生成且零延遲的系統(tǒng)。

它基于Decart自研的模型Live Stream Diffusion(LSD),能夠在保持時(shí)間連貫性的同時(shí)逐幀生成視頻。

與之前的方法不同,LSD支持完全交互式的視頻合成——在視頻生成的同時(shí)實(shí)現(xiàn)持續(xù)提示、變換和編輯。

當(dāng)前的視頻模型在生成超過20-30秒的視頻時(shí),會(huì)因誤差累積而出現(xiàn)嚴(yán)重質(zhì)量下降。

它們往往需要數(shù)分鐘的處理時(shí)間才能生成短短幾秒鐘的輸出內(nèi)容。

即便是當(dāng)下接近實(shí)時(shí)性能的最快系統(tǒng),通常也只能分塊生成視頻,這會(huì)引入不可避免的延遲,從而無法滿足交互式使用的需求。


誤差積累導(dǎo)致質(zhì)量迅速下降,從而有效限制了先前自回歸視頻模型的輸出長(zhǎng)度。

為了實(shí)時(shí)生成視頻,LSD必須以「因果方式」運(yùn)行——每一幀的生成僅基于之前已有的幀。

這種自回歸結(jié)構(gòu)雖然保證了連續(xù)性,卻也引入了一個(gè)嚴(yán)重缺陷:誤差累積。

每一幀都會(huì)繼承前一幀的瑕疵,微小的誤差不斷積累,導(dǎo)致質(zhì)量迅速下降,直至幀內(nèi)容變得不連貫。

以往的視頻模型要么生成固定且較短長(zhǎng)度的視頻,要么采用自回歸生成,但會(huì)損失質(zhì)量,因此僅限于生成較短的輸出。

想要實(shí)時(shí)生成,LSD需要解決兩個(gè)此前在單一系統(tǒng)中尚未被共同解決的挑戰(zhàn)。

無限生成

MirageLSD是首個(gè)能夠生成無限長(zhǎng)度視頻的視頻生成模型。

模型的自回歸特性使其容易累積誤差,從而限制了輸出的長(zhǎng)度。為了實(shí)現(xiàn)無限自回歸生成:

  • 基于DiffusionForcing技術(shù)進(jìn)行構(gòu)建,該技術(shù)支持逐幀去噪。

  • 引入了歷史增強(qiáng)技術(shù),其中模型在經(jīng)過損壞的歷史幀輸入上進(jìn)行微調(diào)。這使其能夠預(yù)測(cè)并修正輸入中的偽影,從而增強(qiáng)其對(duì)自回歸生成中常見漂移的魯棒性。

這些特點(diǎn)使LSD成為首個(gè)能夠無限生成視頻。


實(shí)現(xiàn)「實(shí)時(shí)」性能

實(shí)時(shí)生成要求每一幀的生成時(shí)間不超過40毫秒,以避免被肉眼察覺。通過以下方式實(shí)現(xiàn)這一目標(biāo):

  • 設(shè)計(jì)自定義的CUDA超大內(nèi)核,以最大限度地減少開銷并提高吞吐量。

  • 在快捷蒸餾和模型剪枝的基礎(chǔ)上,減少了每幀所需的計(jì)算量。

  • 優(yōu)化模型架構(gòu)以與GPU硬件對(duì)齊,實(shí)現(xiàn)最高效率。

這些技術(shù)共同作用,使響應(yīng)速度比之前的模型提高了16倍,從而實(shí)現(xiàn)了每秒24幀的實(shí)時(shí)視頻生成。


AI視頻仍然缺少交互性

像MovieGen、WAN和Veo這樣的定長(zhǎng)模型可以生成高質(zhì)量的視頻片段,但它們的非因果設(shè)計(jì)和全片段推理會(huì)引入延遲,并且無法實(shí)現(xiàn)實(shí)時(shí)交互或超出預(yù)定義長(zhǎng)度的擴(kuò)展。

這意味著AI視頻缺少交互性。

諸如CausVid、LTX和Seeweed-APT之類的自回歸模型通過將每個(gè)塊的生成依賴于先前的輸出來生成更長(zhǎng)的序列。

雖然這種方法提高了可擴(kuò)展性,但分塊推理仍然限制了響應(yīng)速度,并存在誤差累積的問題,限制了生成長(zhǎng)度,排除了真正的交互可能性。

可控生成方法,包括ControlNet和基于LoRA的適配器,能夠?qū)崿F(xiàn)目標(biāo)編輯和風(fēng)格遷移,但需要離線微調(diào),不適合實(shí)時(shí)逐幀提示。

Decart之前的系統(tǒng)Oasis展示了在受限領(lǐng)域內(nèi)首個(gè)實(shí)時(shí)因果生成。

實(shí)時(shí)擴(kuò)散模型MirageLSD將其擴(kuò)展到開放領(lǐng)域、可提示的視頻,實(shí)現(xiàn)零延遲、實(shí)時(shí)速度和無限穩(wěn)定性——這是之前的工作未能同時(shí)實(shí)現(xiàn)的組合。

MirageLSD可以將現(xiàn)實(shí)世界中的實(shí)物轉(zhuǎn)化為流媒體中的神話物品——將棍棒打斗變成光劍表演。


擴(kuò)散模型通過逐步去除隨機(jī)噪聲來生成圖像或視頻。

在視頻生成過程中,這通常意味著一次性生成固定長(zhǎng)度的片段,這種方法有助于保持時(shí)間一致性,但會(huì)引入延遲。

一些系統(tǒng)試圖通過按順序生成幀塊來提高靈活性,這種技術(shù)被稱為自回歸生成。

然而,每個(gè)幀塊仍需完全生成后,模型才能響應(yīng)新的輸入,從而限制了交互性和實(shí)時(shí)應(yīng)用。


LSD采用了一種不同的方法。

它一次生成一幀畫面,使用因果關(guān)系的自回歸結(jié)構(gòu),其中每一幀都依賴于先前生成的幀和用戶提示。

這種方式實(shí)現(xiàn)了即時(shí)反饋、零延遲交互,并且視頻生成可以持續(xù)進(jìn)行而無需預(yù)定義終點(diǎn)。


這種因果反饋循環(huán)使LSD能夠保持時(shí)間一致性,持續(xù)適應(yīng)運(yùn)動(dòng)和內(nèi)容,并在實(shí)時(shí)響應(yīng)用戶提示的同時(shí)生成無限視頻序列。

此外,它還能讓LSD即時(shí)響應(yīng)輸入內(nèi)容——無論是文本提示還是視頻內(nèi)容的變化——且實(shí)現(xiàn)零延遲。

這使得實(shí)時(shí)編輯和轉(zhuǎn)換成為可能。

為了實(shí)現(xiàn)這一點(diǎn),Decart使用了擴(kuò)散強(qiáng)制(Diffusion Forcing)——一種預(yù)訓(xùn)練方法,其中訓(xùn)練視頻的每一幀都獨(dú)立添加噪聲。

這教會(huì)了模型在不依賴完整視頻上下文的情況下對(duì)單幀進(jìn)行去噪,從而實(shí)現(xiàn)了逐幀生成。

打開LSD的「發(fā)動(dòng)機(jī)艙蓋」

LSD的神奇之處在于:能夠在嚴(yán)格的延遲預(yù)算(低于40毫秒)內(nèi)獨(dú)立生成每一幀,以支持持續(xù)的24FPS生成。

這在模型設(shè)計(jì)和系統(tǒng)執(zhí)行方面都帶來了重大挑戰(zhàn)。

首先,高質(zhì)量的擴(kuò)散模型在計(jì)算上非常密集。

它們通常需要大量的參數(shù)數(shù)量,以及每幀需要多次迭代的去噪步驟。

每一步都需要通過模型進(jìn)行一次完整的前向傳播,從而導(dǎo)致每幀產(chǎn)生大量的浮點(diǎn)運(yùn)算(FLOPs)。

其次,與離線生成流水線不同,LSD必須滿足嚴(yán)格的每幀延遲約束。

這些約束與現(xiàn)代GPU的架構(gòu)方式根本相悖:它們優(yōu)先考慮高吞吐量和大規(guī)模批處理執(zhí)行,而非低延遲的單樣本推理。

挑戰(zhàn)包括內(nèi)核啟動(dòng)開銷、在連續(xù)層之間重疊計(jì)算的機(jī)會(huì)有限,以及對(duì)內(nèi)存?zhèn)鬏斞舆t的敏感性增加,尤其是在多設(shè)備設(shè)置中。

為了解決這些問題,Decart采用了一個(gè)三管齊下的優(yōu)化策略:

Hopper優(yōu)化的超大內(nèi)核:通過利用類似于MegaKernels的若干新興技術(shù),針對(duì)NVIDIA Hopper GPU架構(gòu)優(yōu)化了模型執(zhí)行,以在小批量尺寸限制下最小化每層模型的延遲。進(jìn)一步在這些內(nèi)核中集成了GPU-GPU通信,以保證設(shè)備之間無縫通信,并通過計(jì)算操作進(jìn)行掩蔽。

架構(gòu)感知剪枝:將模型架構(gòu)與系統(tǒng)級(jí)優(yōu)化緊密集成,可以在每次模型執(zhí)行時(shí)減少所需的FLOPs數(shù)量,同時(shí)通過高級(jí)技術(shù)更好地利用張量核心。這些技術(shù)將參數(shù)大小調(diào)整為特定GPU常量,并使用專用硬件支持進(jìn)一步挖掘模型權(quán)重中的稀疏性。這些剪枝方法旨在根據(jù)底層GPU架構(gòu)調(diào)整模型架構(gòu),以最大化GPU的利用率,同時(shí)通過微調(diào)模型使其對(duì)移除各種參數(shù)具有魯棒性,從而減少整體所需的FLOPs數(shù)量。

快捷蒸餾:為了減少生成所需的擴(kuò)散步驟數(shù)量,應(yīng)用了快捷蒸餾方法,訓(xùn)練較小的模型以匹配較大教師模型的去噪軌跡。該方法顯著減少了每幀所需的模型評(píng)估次數(shù),同時(shí)保持了輸出質(zhì)量與時(shí)間一致性。更重要的是,它避免了在長(zhǎng)序列中引入新的偽影或漂移。

這些技術(shù)共同使LSD能夠?qū)⒏弑U嬉曨l擴(kuò)散的延遲從每個(gè)片段幾秒降低到每幀不到40毫秒,從而實(shí)現(xiàn)真正實(shí)時(shí)、可交互的生成。

參考資料:

https://about.decart.ai/publications/mirage

https://x.com/karpathy/status/1945979830740435186


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曝宗馥莉在美國(guó)生下龍鳳胎,孩子6歲已離婚,前夫身份不一般

曝宗馥莉在美國(guó)生下龍鳳胎,孩子6歲已離婚,前夫身份不一般

特特農(nóng)村生活
2025-07-17 10:10:33
史上最大合同+球隊(duì)股份!再見了字母哥!

史上最大合同+球隊(duì)股份!再見了字母哥!

左右為籃
2025-07-18 12:51:53
突發(fā)!印度全國(guó)憤怒了!英媒確認(rèn)“陣風(fēng)”戰(zhàn)機(jī)損失不是3架,是5架

突發(fā)!印度全國(guó)憤怒了!英媒確認(rèn)“陣風(fēng)”戰(zhàn)機(jī)損失不是3架,是5架

掌青說歷史
2025-07-18 16:48:41
官宣!想和快船簽長(zhǎng)約,比爾經(jīng)紀(jì)人透露目標(biāo),哈登下了一盤大棋

官宣!想和快船簽長(zhǎng)約,比爾經(jīng)紀(jì)人透露目標(biāo),哈登下了一盤大棋

巴叔GO聊體育
2025-07-19 13:22:51
江蘇后天起桑拿天卷土重來 四輪高溫夾擊電費(fèi)要瘋

江蘇后天起桑拿天卷土重來 四輪高溫夾擊電費(fèi)要瘋

甜甜月亮包
2025-07-19 07:15:06
費(fèi)舍爾慶祝結(jié)婚周年,和巴恩斯前妻相愛10年,轉(zhuǎn)型成功,老了不少

費(fèi)舍爾慶祝結(jié)婚周年,和巴恩斯前妻相愛10年,轉(zhuǎn)型成功,老了不少

大西體育
2025-07-18 10:29:18
懸念不大!NBA下賽季“東部冠軍”,將是這4隊(duì)之一!

懸念不大!NBA下賽季“東部冠軍”,將是這4隊(duì)之一!

運(yùn)籌帷幄的籃球
2025-07-19 14:52:14
沖上熱搜!韋世豪紅牌引熱議,賽后多人發(fā)聲力挺,津門虎恐遭重罰

沖上熱搜!韋世豪紅牌引熱議,賽后多人發(fā)聲力挺,津門虎恐遭重罰

小嵩
2025-07-19 10:57:40
吸金14.85億!落魄的膠卷之王,2024年居然賣斷貨,重回世界第三

吸金14.85億!落魄的膠卷之王,2024年居然賣斷貨,重回世界第三

毒sir財(cái)經(jīng)
2025-07-13 23:19:18
幸存的戴笠專機(jī)飛行員回憶:飛機(jī)沒問題,墜機(jī)原因當(dāng)時(shí)不允許說

幸存的戴笠專機(jī)飛行員回憶:飛機(jī)沒問題,墜機(jī)原因當(dāng)時(shí)不允許說

悅悅侃歷史
2025-06-24 13:52:12
建國(guó)后周恩來數(shù)次邀請(qǐng)張發(fā)奎回國(guó),張發(fā)奎婉拒:我兩頭都不會(huì)去的

建國(guó)后周恩來數(shù)次邀請(qǐng)張發(fā)奎回國(guó),張發(fā)奎婉拒:我兩頭都不會(huì)去的

南書房
2025-07-17 20:00:03
《奔跑吧》爭(zhēng)議不斷的嘉賓,又懶又自以為是,沙溢宋雨琦都討厭他

《奔跑吧》爭(zhēng)議不斷的嘉賓,又懶又自以為是,沙溢宋雨琦都討厭他

一娛三分地
2025-07-19 13:33:19
特朗普一聲令下,19國(guó)已派兵,菲防長(zhǎng)掀桌子,逼中國(guó)后退3步

特朗普一聲令下,19國(guó)已派兵,菲防長(zhǎng)掀桌子,逼中國(guó)后退3步

阿芒娛樂說
2025-07-19 13:27:10
明日入伏,今年三伏天不一般!1個(gè)好消息,2個(gè)壞消息,3個(gè)要注意

明日入伏,今年三伏天不一般!1個(gè)好消息,2個(gè)壞消息,3個(gè)要注意

娛樂看阿敞
2025-07-19 08:51:15
金毛被判安樂死,臨走給主人最后一個(gè)擁抱,獸醫(yī)一句話眾人愣住

金毛被判安樂死,臨走給主人最后一個(gè)擁抱,獸醫(yī)一句話眾人愣住

城事錄主
2025-07-16 09:15:24
殲16飛行員、院士、明星、無人機(jī)……大學(xué)錄取通知書刮起“硬核”派送風(fēng)

殲16飛行員、院士、明星、無人機(jī)……大學(xué)錄取通知書刮起“硬核”派送風(fēng)

上游新聞
2025-07-19 14:27:14
高溫天氣大量蚊子被熱死?醫(yī)生辟謠:蚊子只是躲起來避暑了

高溫天氣大量蚊子被熱死?醫(yī)生辟謠:蚊子只是躲起來避暑了

閃電新聞
2025-07-18 18:47:54
柬埔寨掃蕩電詐園區(qū)大批人員轉(zhuǎn)移,當(dāng)?shù)厝A人:有人跳車逃跑,警方設(shè)卡嚴(yán)查

柬埔寨掃蕩電詐園區(qū)大批人員轉(zhuǎn)移,當(dāng)?shù)厝A人:有人跳車逃跑,警方設(shè)卡嚴(yán)查

極目新聞
2025-07-18 18:44:28
中國(guó)光刻機(jī)殺出重圍,美日慌得一批,全球芯片格局要變天?

中國(guó)光刻機(jī)殺出重圍,美日慌得一批,全球芯片格局要變天?

現(xiàn)代小青青慕慕
2025-07-19 08:55:32
嘴炮裸照變社死現(xiàn)場(chǎng),UFC選手紛紛惡搞樂不停!

嘴炮裸照變社死現(xiàn)場(chǎng),UFC選手紛紛惡搞樂不停!

格斗迷
2025-07-19 10:34:38
2025-07-19 15:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13097文章數(shù) 66098關(guān)注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競(jìng)爭(zhēng)劃新紅線

頭條要聞

杭州自來水異味來源查明:藻類厭氧降解產(chǎn)生硫醚類物質(zhì)

頭條要聞

杭州自來水異味來源查明:藻類厭氧降解產(chǎn)生硫醚類物質(zhì)

體育要聞

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

娛樂要聞

肖戰(zhàn)微博改名爆!保留了三部代表作

財(cái)經(jīng)要聞

娃哈哈爭(zhēng)產(chǎn)大戰(zhàn):杜建英的進(jìn)擊

汽車要聞

中汽中心新能源檢驗(yàn)中心煥新發(fā)布"汽車行車控制安全技術(shù)驗(yàn)證VCTA"

態(tài)度原創(chuàng)

教育
本地
旅游
藝術(shù)
公開課

教育要聞

這個(gè)暑假,與孩子一起把海量的書“吞進(jìn)去”

本地新聞

換個(gè)城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 罗定市| 翁源县| 彰化市| 台南县| 巴林右旗| 集安市| 梅河口市| 贞丰县| 宣城市| 县级市| 霞浦县| 漳平市| 东山县| 郧西县| 襄城县| 平潭县| 灵寿县| 子长县| 师宗县| 安新县| 苏州市| 麟游县| 商南县| 大埔区| 正阳县| 寻甸| 寿光市| 托克逊县| 诏安县| 修武县| 桂东县| 永康市| 礼泉县| 双辽市| 合江县| 安国市| 淄博市| 监利县| 灵宝市| 成安县| 宁波市|