99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI封神了!無剪輯一次直出60秒《貓和老鼠》片段,全網百萬人圍觀

0
分享至



機器之心報道

編輯:杜偉、蛋醬

AI 圈永遠不缺「新活」。

這兩天,加州大學伯克利分校、斯坦福大學、英偉達等機構聯合制作的《貓和老鼠》AI短片火了。



論文共同一作 Karan Dalal 的帖子收獲百萬觀看。

我們先來欣賞下面兩段視頻,重溫兒時的快樂。

故事梗概:In an underwater adventure, Jerry locates a treasure map and searches for the treasure while evading Tom in a chase through coral reefs and kelp forests. Jerry triumphantly discovers treasure inside a shipwreck, blissfully celebrating while Tom's pursuit leads him into trouble with a hungry shark. (在一次水下探險中,Jerry 找到了藏寶圖,并在躲避 Tom 追捕的同時尋找寶藏,途中穿過珊瑚礁和海藻森林。Jerry 在一艘沉船中發現了寶藏,欣喜若狂地慶祝著,而 Tom 的追捕卻讓他陷入了饑餓鯊魚的困境。)

故事梗概:Tom is happily eating an apple pie at the kitchen table. Jerry looks longingly wishing he had some. Jerry goes outside the front door of the house and rings the doorbell. While Tom comes to open the door, Jerry runs around the back to the kitchen. Jerry steals Tom's apple pie. Jerry runs to his mousehole carrying the pie, while Tom is chasing him. Just as Tom is about to catch Jerry, he makes it through the mouse hole and Tom slams into the wall.(Tom 在廚房餐桌上開心地吃著蘋果派。Jerry 看起來渴望地想要吃一些。Jerry 走到屋前門外按門鈴。Tom 來開門時,Jerry 繞到后面的廚房。Jerry 偷走了 Tom 的蘋果派。Jerry 拿著蘋果派跑到他的老鼠洞里,而 Tom 正在追趕他。就在 Tom 即將抓住 Jerry 時,他從老鼠洞里逃了出來,Tom 撞到了墻上。)

類似的《貓和老鼠》短片共五集,每集都是全新的故事。大家可以在項目主頁查看對應的故事梗概和完整的提示詞。



項目主頁:https://test-time-training.github.io/video-dit/

效果怎么樣?如果不提前告知,你能分辨出它們是 AI 生成的嗎?

據論文另一位共同一作 Gashon Hussein 介紹,為了實現逼真的動畫效果,他們利用 TTT(Test-time Training,測試時訓練)層來增強預訓練 Transformer,并進行了微調,從而生成了時間和空間上連貫性很強的《貓和老鼠》一分鐘短片。

尤其值得注意的是,所有視頻都是由模型一次性直接生成,沒有進行任何二次編輯、拼接或后期處理。



Gashon Hussein 進一步解釋了背后的技術原理。

TTT 層是專門的 RNN 層,其中每個隱藏狀態代表了一個機器學習模型。此外,這些層內的更新使用梯度下降來完成。本文將 TTT 層集成到一個預訓練的 Diffusion Transformer 中,隨后使用文本標注對長時間視頻進行微調。并且,為了管理計算復雜度,自注意力被限制在局部片段,而 TTT 層以線性復雜度來高效地處理全局上下文。

此外,為了高效地實現 TTT-MLP 內核,本文開發了一種「片上張量并行」(On-chip Tensor Parallel)算法,具體包括以下兩個步驟:

  • 在 GPU 流多處理器(Sreaming Multiprocessor,SM)之間劃分隱藏狀態模型的權重;
  • 利用 Hopper GPU 的 DSMEM 功能在 SM 之間執行高效的 AllReduce 操作,顯著降低全局內存(HBM)和共享內存(SMEM)之間的數據傳輸,確保大量隱藏狀態在 SMEM 內可以有效訪問。

下圖 3 為方法概覽,其中(左)為本文修改后的架構在每個注意力層后添加一個帶有可學習門的 TTT 層,(右)為整體 pipeline 創建了由 3 秒片段組成的輸入序列,這種結構允許在片段上局部應用自注意力層,在整個序列上全局應用 TTT 層。



具體實現過程是這樣的:

本文研究者從一個預訓練好的 DiT(CogVideo-X 5B)開始,它只能以 16 幀 / 秒的速度生成 3 秒鐘的短片(或以 8 幀 / 秒的速度生成 6 秒鐘的短片)。然后添加了從零開始初始化的 TTT 層,并對該模型進行微調,以便從文本故事板生成一分鐘的視頻。研究者將自注意力層限制在 3 秒鐘的片段內,使其成本保持在可控范圍內。僅通過初步的系統優化,訓練運行就相當于在 256 臺 H100 上花費了 50 個小時

這項研究博得了評論區一眾網友的驚呼與贊許。



研究細節

在論文《One-Minute Video Generation with Test-Time Training》中,英偉達、斯坦福等機構的研究者介紹了《貓和老鼠》短片背后的更多生成技術細節。



  • 論文標題:One-Minute Video Generation with Test-Time Training
  • 論文地址:https://arxiv.org/pdf/2504.05298

此前視頻生成技術限制背后的根本挑戰是長上下文,因為 Transformers 中自注意力層的成本隨著上下文長度的增加而呈二次曲線增加。這一挑戰在生成動態視頻時尤為突出,因為動態視頻的上下文不容易被 tokenizer 壓縮。使用標準 tokenizer,每段一分鐘的視頻都需要 30 多萬個上下文 token。基于自注意力,生成一分鐘視頻所需的時間要比生成 20 段每段 3 秒鐘的視頻增加 11 倍,而訓練所需的時間也要增加 12 倍。

為了應對這一挑戰,最近有關視頻生成的研究將 RNN 層作為自注意力的有效替代方法,因為 RNN 層的成本隨上下文長度呈線性增長。現代 RNN 層,尤其是線性注意力的變體(如 Mamba 和 DeltaNet),在自然語言任務中取得了令人印象深刻的成果。然而,我們還沒有看到由 RNN 生成的具有復雜故事或動態動作的長視頻。

本文研究者認為,這些 RNN 層生成的視頻復雜度較低,因為它們的隱藏狀態表現力較差。RNN 層只能將過去的 token 存儲到固定大小的隱藏狀態中,而對于 Mamba 和 DeltaNet 等線性注意力變體來說,隱藏狀態只能是一個矩陣。要將成百上千個向量壓縮到一個只有數千級的矩陣中,這本身就是一項挑戰。因此,這些 RNN 層很難記住遠處 token 之間的深層關系。

因此研究者嘗試使用另一種 RNN 層,其隱藏狀態本身也可以是神經網絡。具體來說,研究者使用兩層 MLP,其隱藏單元比線性注意力變體中的線性(矩陣)隱藏狀態多 2 倍,非線性也更豐富。即使在測試序列上,神經網絡的隱藏狀態也會通過訓練進行更新,這些新層被稱為測試時間訓練層(TTT)。



局部注意力機制在湯姆的顏色、杰瑞的鼠洞之間保持了一致性,并且扭曲了湯姆的身體。



TTT-MLP 在整個視頻時長中表現出強大的特性和時間一致性。

研究者策劃了一個文本到視頻的數據集,該數據集基于大約 7 小時的《貓和老鼠》動畫片,并附有人類注釋的故事板。他們有意將范圍限制在這一特定領域,以便快速進行研究迭代。作為概念驗證,該數據集強調復雜、多場景和具有動態運動的長篇故事,此前的模型在這些方面仍需取得進展;而對視覺和物理逼真度的強調較少,因為此前的模型在這些方面已經取得了顯著進展。研究者認為,盡管本文是面向這一特定領域的長上下文能力改進,但也會轉移到通用視頻生成上。

生成質量評估

在測評中,與 Mamba 2、Gated DeltaNet 和滑動窗口注意力層等強大的基線相比,TTT 層生成的視頻更連貫,能講述復雜的動態故事。



在 LMSys Chatbot Arena 中,GPT-4o 比 GPT-4 Turbo 高出 29 個 Elo 分數。



具體對比參考下列 demo:

當湯姆咆哮并追逐杰瑞時,Mamba 2 扭曲了湯姆的外貌。

Gated DeltaNet 在湯姆的不同角度上缺乏時間一致性。

滑動窗口注意力改變了廚房環境并重復了杰瑞偷餡餅的場景。

不過,在生成內容中,我們也能發現 TTT-MLP 一些明顯的瑕疵。

1、時間一致性:盒子在同一場景的 3 秒片段之間變形。



2、運動自然性:奶酪懸停在半空中,而不是自然地落到地上。



3、美學:當湯姆轉身時,廚房里的燈光變得更加明亮。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
追平丁俊暉破百紀錄!趙心童單屆世錦賽18桿單桿破百,6-1領先

追平丁俊暉破百紀錄!趙心童單屆世錦賽18桿單桿破百,6-1領先

直播吧
2025-05-04 23:11:16
湖南腫瘤醫院劉侃醫生離世,年僅39歲,死因曝光太惋惜兒子才9歲

湖南腫瘤醫院劉侃醫生離世,年僅39歲,死因曝光太惋惜兒子才9歲

趣文說娛
2025-05-04 15:21:42
國羽蘇迪曼杯奪冠后,陳雨菲發文:我永遠都愿意為中國羽毛球隊而戰

國羽蘇迪曼杯奪冠后,陳雨菲發文:我永遠都愿意為中國羽毛球隊而戰

現代快報
2025-05-05 09:09:09
黃曉明青島拍戲被全家探班,豪華房車變廚房,47歲仍被寵成寶!

黃曉明青島拍戲被全家探班,豪華房車變廚房,47歲仍被寵成寶!

娛樂x冰淇淋
2025-05-04 22:55:36
女生輸頭孢過敏自行拔針后仍離世,老護士評論區科普,獲網友高贊

女生輸頭孢過敏自行拔針后仍離世,老護士評論區科普,獲網友高贊

丫頭舫
2025-05-04 13:49:55
馬筱梅的照片門!!!

馬筱梅的照片門!!!

八卦瘋叔
2025-05-05 10:43:22
揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

小人物看盡人間百態
2025-05-04 20:49:11
協和醫學院現任領導團隊一覽表

協和醫學院現任領導團隊一覽表

鬼菜生活
2025-05-02 20:14:37
網友控訴被華萊士強制降崗降薪!被踢出工作群,店長才5000元

網友控訴被華萊士強制降崗降薪!被踢出工作群,店長才5000元

古希臘掌管松餅的神
2025-05-05 13:48:39
態度強硬?王勵勤做新調整,放棄劉國梁做法,王楚欽孫穎莎受影響

態度強硬?王勵勤做新調整,放棄劉國梁做法,王楚欽孫穎莎受影響

忠橙家族
2025-05-05 13:35:40
杰倫-格林僅得8分!追夢:他有潛力 但我們動搖了他的信心

杰倫-格林僅得8分!追夢:他有潛力 但我們動搖了他的信心

直播吧
2025-05-05 14:51:17
賈乃亮李小璐合體出游,男方仍態度卑微,“做頭門”事件余波猶在

賈乃亮李小璐合體出游,男方仍態度卑微,“做頭門”事件余波猶在

史行途
2025-05-04 13:40:09
真炸裂!李晨和baby的瓜爆了,大家都等著看戲

真炸裂!李晨和baby的瓜爆了,大家都等著看戲

豬小果的泡泡糖
2025-03-20 13:22:34
貴州黔西游船傾覆事故造成4艘船傾覆,其中2艘停靠岸邊

貴州黔西游船傾覆事故造成4艘船傾覆,其中2艘停靠岸邊

環球網資訊
2025-05-05 10:29:58
女人出軌一次,還會有第二次嗎?我的經歷說出實話

女人出軌一次,還會有第二次嗎?我的經歷說出實話

楊木林
2024-02-29 15:27:14
準備開搶,字母哥太搶手!美媒曬3筆方案:火箭7換1+快船6換1梭哈

準備開搶,字母哥太搶手!美媒曬3筆方案:火箭7換1+快船6換1梭哈

鍋子籃球
2025-05-04 16:56:20
杭州靈隱寺門口8.5平小賣部年租金260萬,景區:公開招標,年稅收要求60萬

杭州靈隱寺門口8.5平小賣部年租金260萬,景區:公開招標,年稅收要求60萬

瀟湘晨報
2025-05-04 19:05:07
挺進次輪!勇士官方制作海報:三巨頭眺望森林狼 火箭被干翻在地

挺進次輪!勇士官方制作海報:三巨頭眺望森林狼 火箭被干翻在地

直播吧
2025-05-05 12:09:09
NBA改制后黑七最好的成績是:詹姆斯在2023年帶隊西決!

NBA改制后黑七最好的成績是:詹姆斯在2023年帶隊西決!

歷史第一人梅西
2025-05-05 14:40:43
女人會不會讓你“搞”,問這3個問題,立馬知道答案

女人會不會讓你“搞”,問這3個問題,立馬知道答案

故衣談歷史
2025-04-20 10:50:45
2025-05-05 15:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

媒體:武契奇訪美見不到特朗普半途而返 目前決心訪俄

頭條要聞

媒體:武契奇訪美見不到特朗普半途而返 目前決心訪俄

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

林心如霍建華一家三口手牽手散步好有愛

財經要聞

巴菲特老矣,價值投資尚能飯否?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

數碼
旅游
本地
時尚
公開課

數碼要聞

20年前的8MB顯存老顯卡 成功運行《我的世界》

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

今夏超火的“瘦瘦裙”,比仙女裙顯瘦洋氣!這么穿太美了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海伦市| 安西县| 永康市| 梁山县| 托里县| 渑池县| 潼南县| 玛曲县| 卓资县| 兴安盟| 云林县| 商洛市| 平凉市| 辽中县| 西城区| 新竹市| 玛曲县| 万源市| 上蔡县| 三门县| 吕梁市| 根河市| 彩票| 兴义市| 天峨县| 上饶县| 大安市| 同心县| 桂平市| 永嘉县| 宝鸡市| 东乡县| 沧州市| 潮州市| 淮安市| 鹤庆县| 鄱阳县| 仁寿县| 西乌珠穆沁旗| 邓州市| 西吉县|