99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 版《貓和老鼠》刷爆外網(wǎng)!零剪輯自動(dòng)生成,60 秒神作刷新 AI 視頻天花板

0
分享至

如果在短視頻或者社交媒體上,刷到這條視頻,我大概會(huì)津津有味看完,然后回想這是《貓和老鼠》哪一集。

哪一集都不是,這不僅完全是 AI 生成的,而且是一次性完成。

視頻生成一直以來(lái)都有一道「天塹」:時(shí)長(zhǎng)。市面上主流的生成式視頻產(chǎn)品,都是以秒為單位,能超過(guò) 10 秒就相當(dāng)不錯(cuò)了,還暫且不談這十秒里畫(huà)面崩不崩。

這使得在實(shí)際使用中,還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術(shù)上限所致,沒(méi)辦法。

伯克利、斯坦福聯(lián)合英偉達(dá)的最新研究,驚人地把一次性生成時(shí)長(zhǎng)推到了 1 分鐘,無(wú)剪輯,卻仍然保持逆天的一致性。



通過(guò)引入測(cè)試時(shí)訓(xùn)練(Test-Time Training, TTT)層,顯著提升了擴(kuò)散 Transformer 模型生成長(zhǎng)視頻的能力,使其能夠生成長(zhǎng)達(dá)一分鐘、具有復(fù)雜多場(chǎng)景故事的連貫視頻。


傳統(tǒng) RNN 層(如 Mamba、DeltaNet)的隱藏狀態(tài)為固定大小的矩陣(例如線性投影),rank 限制了壓縮長(zhǎng)序列信息的能力。當(dāng)處理包含數(shù)十萬(wàn)視頻令牌的上下文時(shí),矩陣的線性表達(dá)能力不足以捕捉復(fù)雜的時(shí)空依賴關(guān)系。

聚焦在 TTT 層的創(chuàng)新之處有于,以隱藏狀態(tài)作為神經(jīng)網(wǎng)絡(luò)。在傳統(tǒng)的 RNN 中,隱藏狀態(tài)是用來(lái)存儲(chǔ)過(guò)去信息的,比如之前的輸入如何影響當(dāng)前輸出。


通常,這個(gè)記憶是一個(gè)固定大小的表格(比如數(shù)字矩陣),只能簡(jiǎn)單記錄過(guò)去的信息,可能不夠靈活。但在這項(xiàng)研究中,作者將隱藏狀態(tài)設(shè)計(jì)成了一個(gè)神經(jīng)網(wǎng)絡(luò),這意味著這個(gè)「存儲(chǔ)空間」本身具有學(xué)習(xí)能力。

每當(dāng)處理新的視頻片段時(shí),這個(gè)程序會(huì)通過(guò)練習(xí)來(lái)調(diào)整自己。比如,它會(huì)嘗試修復(fù)模糊的畫(huà)面(自監(jiān)督任務(wù)),根據(jù)修復(fù)的效果修改自己的內(nèi)部參數(shù)(用梯度下降法)。

同時(shí),處理每一段視頻時(shí),神經(jīng)網(wǎng)絡(luò)都會(huì)根據(jù)當(dāng)前內(nèi)容調(diào)整參數(shù)。就像人在做數(shù)學(xué)題時(shí),每做一題都會(huì)總結(jié)方法,下一題用改進(jìn)后的方法一樣。

這樣,模型就能記住更復(fù)雜的場(chǎng)景變化(比如貓追老鼠的連貫動(dòng)作),生成長(zhǎng)達(dá)一分鐘的流暢視頻。


為了檢驗(yàn)成果,研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間,發(fā)布的 81 集原版動(dòng)畫(huà),總共超過(guò) 400 分鐘。掃描原膠片,保留手繪動(dòng)畫(huà)的線條和抖動(dòng)特征。

人工標(biāo)注團(tuán)隊(duì)依據(jù)鏡頭連續(xù)性,將平均每 5 分鐘的劇集,分割為 8-12 個(gè)場(chǎng)景。并且在這個(gè)環(huán)節(jié),通過(guò)切割和標(biāo)注的方式,模擬人類編劇從分鏡到劇本的創(chuàng)作過(guò)程,使模型學(xué)習(xí)敘事層次結(jié)構(gòu)。


效果有多好呢?

整整一分鐘的視頻,基本完成了劇本中所要求的情節(jié),除了一些轉(zhuǎn)折處有不自然,整個(gè)故事的完整性沒(méi)有問(wèn)題。



場(chǎng)景一致性、運(yùn)動(dòng)自然性都有驚人的表現(xiàn)。如追逐的場(chǎng)景,各個(gè)物體的屬性、顏色、形狀,以及和空間布局一致性都沒(méi)有崩壞,證明了模型長(zhǎng)期記憶的能力。



想象一下動(dòng)畫(huà)片里湯姆追逐杰瑞的經(jīng)典場(chǎng)面:湯姆可不是簡(jiǎn)單地直線跑,他會(huì)急剎車、猛轉(zhuǎn)彎、跳起來(lái)躲避障礙,甚至被砸扁后像彈簧一樣恢復(fù)。

這些看似夸張混亂的動(dòng)作,其實(shí)也包含物理邏輯。但要讓 AI 理解這種復(fù)雜的動(dòng)態(tài)場(chǎng)景并不容易。


過(guò)去 AI 模型(比如用到MLP技術(shù)的)需要學(xué)會(huì)描繪這種「不走直線」的運(yùn)動(dòng)軌跡。

現(xiàn)在 AI 有了一支靈活的「畫(huà)筆」(MLP的隱藏狀態(tài)),讓它能捕捉湯姆突然加速、變向、摔倒?jié)L成球等各種非線性的、但又符合物理規(guī)律的運(yùn)動(dòng)變化,而不是只能畫(huà)直線。

前面提到的 TTT 層,核心創(chuàng)新就像給湯姆加了一個(gè)「外掛」,讓他 擁有超強(qiáng)的「 臨場(chǎng)反應(yīng) 」 能力, 能根據(jù)實(shí)時(shí)路況(新數(shù)據(jù))微調(diào)自己的動(dòng)作。

比如 湯姆能看到香蕉皮的那個(gè)瞬間(測(cè)試時(shí)),立刻調(diào)整自己的腳步和姿勢(shì)(動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)),試圖躲開(kāi)或者以一種夸張的方式滑倒(上下文自適應(yīng))。


他不再靠以前摔倒的經(jīng)驗(yàn)(靜態(tài)訓(xùn)練好的模型),而是當(dāng)場(chǎng)學(xué)習(xí)和反應(yīng)(測(cè)試時(shí)自監(jiān)督學(xué)習(xí))

不過(guò),基礎(chǔ)模型,本身對(duì)復(fù)雜動(dòng)作的學(xué)習(xí)不夠完美,即使加了 TTT 層,有些錯(cuò)誤還是會(huì)出現(xiàn)。

對(duì)于模型能力而言,如何提高視覺(jué)處理能力,始終是一個(gè)「長(zhǎng)期主義」任務(wù)。

Kimi 新開(kāi)源的 Kimi-VL,就是在模型的視覺(jué)能力上繼續(xù)鉆研提高。在這次開(kāi)源的論文中可以看到,Kimi 用原生高分辨率視覺(jué)編碼器 MoonViT,來(lái)突破傳統(tǒng)視覺(jué)編碼的限制。


傳統(tǒng)方法(如 LLaVA-OneVision)需將高分辨率圖像分割為子圖再拼接,導(dǎo)致信息丟失和計(jì)算冗余。

MoonViT 基于 NaViT 的打包策略,將不同分辨率的圖像拆分為塊并展平為序列,結(jié)合 2D 旋轉(zhuǎn)位置編碼(RoPE),直接處理原生分辨率圖像,保留細(xì)粒度視覺(jué)信息。


用人話來(lái)說(shuō), 湯姆過(guò)去想抓住杰瑞,只能通過(guò)好幾個(gè)小窗戶去看一個(gè)大房間( LLa VA-OneVision)。

MoonViT 就像給湯姆換上了一副超高清、廣角、還能自動(dòng)變焦的「超級(jí)眼鏡」。

他可以直接看到整個(gè)房間(處理原生高分辨率圖像),無(wú)論是墻上的小洞還是桌上的面包屑都一清二楚(保留細(xì)粒度信息),而且看得又快又好。


同時(shí),Kimi 首次將 MoE 深度整合到視覺(jué)語(yǔ)言模型,跨模態(tài)的專家協(xié)作,能讓語(yǔ)言模型在保留純文本能力(如代碼生成)的同時(shí),激活視覺(jué)專家處理圖像、視頻等多模態(tài)輸入。


對(duì)于視覺(jué)-語(yǔ)言的多模態(tài)任務(wù)而言,模型架構(gòu)層的研究至關(guān)重要,因?yàn)槎嗄B(tài)數(shù)據(jù)的異質(zhì)性、交互復(fù)雜性以及任務(wù)多樣性對(duì)模型的表示能力、計(jì)算效率和泛化性提出了獨(dú)特挑戰(zhàn)。

想讓 AI 能看、能聽(tīng)、能跑、能思考 ,它的內(nèi)部 模型架構(gòu) 就至關(guān)重要。

你不能簡(jiǎn)單地把眼睛(視覺(jué)模塊)和耳朵(音頻模塊)、大腦(語(yǔ)言處理)零件堆在一起。

必須精心設(shè)計(jì)它們?nèi)绾芜B接、如何協(xié)同工作(融合異構(gòu)數(shù)據(jù)、跨模態(tài)關(guān)聯(lián)),才能讓 AI 流暢地根據(jù)看到的畫(huà)面和聽(tīng)到的聲音做出反應(yīng),甚至理解一個(gè)包含畫(huà)面和對(duì)話的故事。

更復(fù)雜的是,當(dāng)我們要讓 AI 生成長(zhǎng)視頻時(shí),它不僅要保證畫(huà)面好看,還得讓整個(gè)故事情節(jié)前后連貫,講一個(gè)完整的故事而不是隨意堆砌場(chǎng)景,一分鐘的 AI版《貓和老鼠》還是一個(gè)雛形。

未來(lái),隨著 3D 視覺(jué)、音頻等多模態(tài)擴(kuò)展,架構(gòu)研究需進(jìn)一步探索,跨模態(tài)動(dòng)態(tài)路由,結(jié)合 TTT 思想設(shè)計(jì)跨模態(tài)交互層,或進(jìn)一步優(yōu)化隱藏狀態(tài)的表達(dá)能力(如引入 Transformer 作為隱藏網(wǎng)絡(luò)),或許是多模態(tài)模型架構(gòu)研究的重要方向。

當(dāng)大模型擁有了這全套「感官」,那些能幫我們干活但稍顯愚蠢的通用 AI Agent ,可用性也將大大提升。

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
婆婆分家產(chǎn)沒(méi)我份,我沒(méi)鬧,婆婆生病,婆婆全家給我打100個(gè)電話

婆婆分家產(chǎn)沒(méi)我份,我沒(méi)鬧,婆婆生病,婆婆全家給我打100個(gè)電話

故事秘棧
2025-06-03 16:26:53
毀天滅地!烏對(duì)俄發(fā)起驚天一擊,從戰(zhàn)略轟炸機(jī)到核潛艇基地

毀天滅地!烏對(duì)俄發(fā)起驚天一擊,從戰(zhàn)略轟炸機(jī)到核潛艇基地

史政先鋒
2025-06-02 10:49:45
徐云涌任江西省委副秘書(shū)長(zhǎng)、辦公廳主任

徐云涌任江西省委副秘書(shū)長(zhǎng)、辦公廳主任

中國(guó)經(jīng)濟(jì)網(wǎng)
2025-06-05 16:30:02
國(guó)足無(wú)緣2026世界杯 王大雷:有些東西沒(méi)法控制,非常遺憾

國(guó)足無(wú)緣2026世界杯 王大雷:有些東西沒(méi)法控制,非常遺憾

閃電新聞
2025-06-06 00:17:07
證監(jiān)會(huì)的努力成果!6月6日,深夜爆出的三大重要消息沖擊來(lái)襲

證監(jiān)會(huì)的努力成果!6月6日,深夜爆出的三大重要消息沖擊來(lái)襲

風(fēng)口招財(cái)豬
2025-06-06 01:01:38
英媒:尋鋒計(jì)劃多次遇挫,曼聯(lián)再次接觸葡體前鋒哲凱賴什

英媒:尋鋒計(jì)劃多次遇挫,曼聯(lián)再次接觸葡體前鋒哲凱賴什

雷速體育
2025-06-05 18:16:02
鬧大了!發(fā)文硬剛網(wǎng)友后,官媒下場(chǎng)3問(wèn)蔣雨融,個(gè)個(gè)問(wèn)題切中要害

鬧大了!發(fā)文硬剛網(wǎng)友后,官媒下場(chǎng)3問(wèn)蔣雨融,個(gè)個(gè)問(wèn)題切中要害

頭號(hào)劇委會(huì)
2025-06-04 21:56:42
外媒揭秘鄭欽文:常年居住安道爾,年收入高達(dá)2.2億,是國(guó)際團(tuán)寵

外媒揭秘鄭欽文:常年居住安道爾,年收入高達(dá)2.2億,是國(guó)際團(tuán)寵

聚合大娛
2025-02-25 11:56:48
證監(jiān)會(huì)停止降溫股市?6月5日,凌晨的三大重要消息全面來(lái)襲!

證監(jiān)會(huì)停止降溫股市?6月5日,凌晨的三大重要消息全面來(lái)襲!

風(fēng)口招財(cái)豬
2025-06-05 01:05:04
6月起,中國(guó)或?qū)⒂瓉?lái)“4大降價(jià)潮”!你想買(mǎi)的機(jī)會(huì),是不是來(lái)了?

6月起,中國(guó)或?qū)⒂瓉?lái)“4大降價(jià)潮”!你想買(mǎi)的機(jī)會(huì),是不是來(lái)了?

小談食刻美食
2025-06-05 17:06:37
國(guó)產(chǎn)“路虎攬勝”來(lái)了,車長(zhǎng)5米4,配三激光雷達(dá),擁有1197馬力!

國(guó)產(chǎn)“路虎攬勝”來(lái)了,車長(zhǎng)5米4,配三激光雷達(dá),擁有1197馬力!

小怪吃美食
2025-06-06 02:21:54
1948年大決戰(zhàn)在即,毛主席突然下令處決一將領(lǐng):誰(shuí)求情都不行!

1948年大決戰(zhàn)在即,毛主席突然下令處決一將領(lǐng):誰(shuí)求情都不行!

野蠻不失女人心
2024-10-08 09:19:52
我每月花8000反對(duì)兒媳辭職,3個(gè)月后全家都哭了

我每月花8000反對(duì)兒媳辭職,3個(gè)月后全家都哭了

青竹情感悅讀
2025-06-04 19:49:13
白峰美羽:島國(guó)最強(qiáng)御姐!9頭身長(zhǎng)腿身材,藏不住

白峰美羽:島國(guó)最強(qiáng)御姐!9頭身長(zhǎng)腿身材,藏不住

云端小院
2025-06-05 09:31:02
2-1,感謝,高芙!鄭欽文雙喜臨門(mén),輸?shù)貌辉?>
    </a>
        <h3>
      <a href=漣漪讀史
2025-06-05 11:33:31
王鷗這個(gè)顏值下滑的也太厲害了,生完孩子后,簡(jiǎn)直老了十歲

王鷗這個(gè)顏值下滑的也太厲害了,生完孩子后,簡(jiǎn)直老了十歲

情感大頭說(shuō)說(shuō)
2025-05-30 15:27:33
四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經(jīng)考證,他是失蹤40多年的……

四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經(jīng)考證,他是失蹤40多年的……

財(cái)經(jīng)三分鐘pro
2024-12-19 22:21:42
降價(jià)也賣不動(dòng)?寶馬X3降到26萬(wàn)多,配2.0T+8AT+四驅(qū),月銷2742輛

降價(jià)也賣不動(dòng)?寶馬X3降到26萬(wàn)多,配2.0T+8AT+四驅(qū),月銷2742輛

西莫的藝術(shù)宮殿
2025-06-06 02:10:07
別再為孫穎莎被罵打抱不平了!張繼科:她本就不只靠天賦贏的

別再為孫穎莎被罵打抱不平了!張繼科:她本就不只靠天賦贏的

行舟問(wèn)茶
2025-06-06 01:54:48
國(guó)足未來(lái)10號(hào)?19歲蒯紀(jì)聞全運(yùn)原地?cái)[腿轟世界波!網(wǎng)友:快補(bǔ)招他

國(guó)足未來(lái)10號(hào)?19歲蒯紀(jì)聞全運(yùn)原地?cái)[腿轟世界波!網(wǎng)友:快補(bǔ)招他

我愛(ài)英超
2025-06-05 16:57:10
2025-06-06 03:35:00
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
5362文章數(shù) 26570關(guān)注度
往期回顧 全部

科技要聞

對(duì)話盛景網(wǎng)聯(lián)彭志強(qiáng):跳出SaaS虧損黑洞!從“賣工具”到“賣結(jié)果”的AI RaaS轉(zhuǎn)型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報(bào)搶救全過(guò)程

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報(bào)搶救全過(guò)程

體育要聞

提前無(wú)緣美加墨世界杯 國(guó)足眾將賽后落淚

娛樂(lè)要聞

陳赫宴請(qǐng)好友,李乃文攜妻子罕見(jiàn)亮相

財(cái)經(jīng)要聞

習(xí)近平同美國(guó)總統(tǒng)特朗普通電話

汽車要聞

旗艦+大六座+百萬(wàn)級(jí) 阿維塔全新SUV預(yù)計(jì)明年量產(chǎn)

態(tài)度原創(chuàng)

數(shù)碼
教育
親子
藝術(shù)
公開(kāi)課

數(shù)碼要聞

研究人員稱 Apple Watch 的一個(gè)關(guān)鍵健身指標(biāo)有誤

教育要聞

通知!高考期間部分學(xué)校周邊部分路段采取交通管控

親子要聞

保護(hù)孩子防侵犯,寶媽首先要改掉刻板印象!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 蒲江县| 苏尼特右旗| 教育| 宁化县| 庆阳市| 道真| 措美县| 仙居县| 博野县| 四会市| 闵行区| 澎湖县| 东至县| 铁力市| 上栗县| 双牌县| 诸暨市| 闸北区| 汶上县| 罗田县| 通州市| 海丰县| 郧西县| 措美县| 色达县| 武邑县| 汨罗市| 金乡县| 紫金县| 上饶市| 河津市| 德州市| 亳州市| 大埔区| 临夏市| 墨脱县| 云霄县| 平远县| 西平县| 夏邑县| 平江县|