99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MIT團(tuán)隊(duì)打造新模型架構(gòu),渲染質(zhì)量?jī)?yōu)于3D高斯?jié)姙R

0
分享至

僅需幾十行 PyTorch 代碼即可大幅提高 GPU 利用率,在英偉達(dá) A100 上的 GPU 利用率高達(dá) 70%。這一能力由一款名為 LaCT 的新模型架構(gòu)實(shí)現(xiàn),它由北京大學(xué)本科校友、美國(guó)麻省理工學(xué)院博士生張?zhí)爝h(yuǎn)和所在團(tuán)隊(duì)打造。


圖丨張?zhí)爝h(yuǎn)(來(lái)源:https://tianyuanzhang.com/)

研究團(tuán)隊(duì)通過(guò)在不同模態(tài)的任務(wù)中采用范圍從 2000 到 100 萬(wàn) tokens 的大塊更新打造了這種新模型架構(gòu)。該架構(gòu)集成了用于捕捉長(zhǎng)上下文的大塊測(cè)試時(shí)訓(xùn)練,并集成了用于針對(duì)局部結(jié)構(gòu)進(jìn)行建模的窗口注意力機(jī)制。

由于每個(gè)大塊內(nèi)的 tokens 都被視為一個(gè)無(wú)序集,因此研究團(tuán)隊(duì)將窗口注意力集成到 LaCT 中,以便捕獲塊內(nèi)的局部依賴關(guān)系,這讓 LaCT 能夠顯著提高并行性。

這能夠擴(kuò)展非線性快速權(quán)重,從而能夠提高存儲(chǔ)容量。而且,這種簡(jiǎn)單的實(shí)現(xiàn)方式能夠輕松地集成更有效的測(cè)試時(shí)優(yōu)化器(比如 Muon)。

此外,LaCT 的大塊設(shè)計(jì)也能夠很自然地用于針對(duì)各種 N 維數(shù)據(jù)進(jìn)行建模,原因在于它可以將塊大小與數(shù)據(jù)的內(nèi)部結(jié)構(gòu)對(duì)齊,例如將圖像或連續(xù)視頻幀內(nèi)的 tokens 分組為一個(gè)塊。

為了驗(yàn)證本次方法的有效性,研究團(tuán)隊(duì)在不同數(shù)據(jù)模態(tài)和任務(wù)中,包括從圖像集、語(yǔ)言模型和自回歸視頻擴(kuò)散模型中進(jìn)行了新視圖合成。

實(shí)驗(yàn)結(jié)果顯示:研究團(tuán)隊(duì)的模型能夠處理多達(dá) 128 張分辨率為 960×536 的輸入圖像,形成最多 100 萬(wàn) tokens 的序列,并且在此輸入規(guī)模下,在渲染質(zhì)量方面優(yōu)于 3D 高斯?jié)姙R(3D Gaussian Splatting)技術(shù)。

盡管語(yǔ)言數(shù)據(jù)本身并不顯式包含塊狀結(jié)構(gòu),但是與 DeltaNet 等 SOTA 方法相比,研究團(tuán)隊(duì)的模型實(shí)現(xiàn)了大致相當(dāng)?shù)男阅鼙憩F(xiàn)。

研究團(tuán)隊(duì)還通過(guò)將 LaCT 與滑動(dòng)窗口注意力相結(jié)合,將一個(gè) 140 億參數(shù)的雙向視頻擴(kuò)散 Transformer 適配為自回歸模型。這種適配后的模型可以生成包含多達(dá) 56000 個(gè)視覺(jué) tokens 的連貫視頻。

與此同時(shí),在最長(zhǎng)的序列實(shí)驗(yàn)中,他們進(jìn)行了超過(guò) 100 萬(wàn)個(gè)上下文長(zhǎng)度的新視圖合成。

目前,研究團(tuán)隊(duì)已經(jīng)開(kāi)源了代碼和權(quán)重,預(yù)計(jì) LaCT 將能推動(dòng)人們對(duì)于更高效長(zhǎng)上下文建模架構(gòu)的探索(https://tianyuanzhang.com/projects/ttt-done-right/)。



吞吐量開(kāi)銷小至 1%-3%

當(dāng)前,處理長(zhǎng)上下文的需求正在迅速增長(zhǎng)。雖然 softmax 注意力已成為建模各類數(shù)據(jù)的解決方案,但其計(jì)算成本隨序列長(zhǎng)度呈二次方增長(zhǎng),這推動(dòng)了人們對(duì)更高效長(zhǎng)上下文建模的廣泛研究。

最近,測(cè)試時(shí)間訓(xùn)練(TTT,Test-Time Training)已成為一種富有前景的高效二次序列建模方法。測(cè)試時(shí)間訓(xùn)練能將循環(huán)神經(jīng)網(wǎng)絡(luò)中的循環(huán)狀態(tài)概念擴(kuò)展到一個(gè)小型的、在線自適應(yīng)的子網(wǎng)絡(luò)。這個(gè)子網(wǎng)絡(luò)的參數(shù)也被稱為快速權(quán)重,它們通過(guò)自監(jiān)督目標(biāo)在線快速適配,以便記憶上下文中的信息。

近期,多個(gè)團(tuán)隊(duì)均探索了快速權(quán)重網(wǎng)絡(luò)的各種在線目標(biāo)、優(yōu)化器和架構(gòu)。盡管如此,已有的測(cè)試時(shí)訓(xùn)練方法仍然難以有效擴(kuò)展到長(zhǎng)上下文場(chǎng)景,根本原因在于測(cè)試時(shí)訓(xùn)練層的硬件利用率極低,在當(dāng)前 GPU 上硬件利用率通常低于峰值算力的 5%。

這種低效性是由于使用了小批量規(guī)模,即每隔一個(gè) token 或每 16 個(gè)到 64 個(gè) tokens 更新一次快速權(quán)重,之所以這樣做是因?yàn)閭鹘y(tǒng)觀點(diǎn)認(rèn)為這種方式對(duì)于上下文學(xué)習(xí)更加有效。

但是,這種小批量處理方式會(huì)導(dǎo)致并行效率低下以及計(jì)算密度不足,尤其在使用大型非線性快速權(quán)重時(shí),會(huì)給硬件高效實(shí)現(xiàn)帶來(lái)重大挑戰(zhàn),以至于實(shí)際算力利用率難以突破 10% 的有效閾值。基于此,本次研究團(tuán)隊(duì)采用相反的策略并引入了 LaCT。

如下圖所示,LaCT 塊由三種類型的層組成:窗口注意力層、大塊測(cè)試時(shí)訓(xùn)練層和前饋層。


(來(lái)源:arXiv)

每一層都配備了殘差連接,這一設(shè)計(jì)也遵循了 Transformer 架構(gòu)中的標(biāo)準(zhǔn)做法。窗口注意力層通過(guò)執(zhí)行局部自注意力,來(lái)捕捉局部依賴關(guān)系。而在測(cè)試時(shí)訓(xùn)練層,研究團(tuán)隊(duì)則將序列分割成了大塊。

研究團(tuán)隊(duì)表示,歷史上下文通過(guò)“更新”操作逐漸被壓縮到快速權(quán)重中,最新的權(quán)重被“應(yīng)用”到當(dāng)前的查詢向量(Q)上,以便計(jì)算其對(duì)應(yīng)的輸出。前饋層則執(zhí)行與 Transformer 中類似的通道混合操作。

由于測(cè)試時(shí)訓(xùn)練的“更新”操作和“應(yīng)用”操作是解耦的,因此可以自適應(yīng)地設(shè)置塊大小,并以不同的順序應(yīng)用這些操作,進(jìn)而能夠模擬不同類型的數(shù)據(jù)依賴關(guān)系。

當(dāng)分塊大小等于完整序列長(zhǎng)度時(shí),會(huì)先執(zhí)行“應(yīng)用”操作再執(zhí)行“更新”操作,這在概念上與全注意力機(jī)制相似。通過(guò)交替使用“更新”操作和“應(yīng)用”操作,能夠形成分塊因果掩碼,其中分塊大小與塊大小互相對(duì)應(yīng)。在兩個(gè)操作之間切換順序會(huì)導(dǎo)致掩碼發(fā)生偏移,偏移掩碼不會(huì)在塊內(nèi)泄露未來(lái)信息,這在語(yǔ)言建模中構(gòu)建完整因果掩碼時(shí)非常重要。


(來(lái)源:arXiv)

大塊測(cè)試時(shí)訓(xùn)練層會(huì)將數(shù)據(jù)視為集合序列,因?yàn)槠淇焖俚臋?quán)重更新會(huì)忽略每個(gè)塊內(nèi)的 tokens 順序和空間局部性。然而,許多數(shù)據(jù)模態(tài)比如視頻、圖像集合或文本,并不完全符合這種基于集合的視角。對(duì)于這些模態(tài)而言,塊內(nèi)結(jié)構(gòu)和局部性對(duì)于捕獲整體數(shù)據(jù)結(jié)構(gòu)至關(guān)重要。

因此,研究團(tuán)隊(duì)將局部窗口注意力層與測(cè)試時(shí)訓(xùn)練層集成在一起,以便處理塊內(nèi)的數(shù)據(jù)結(jié)構(gòu)。此外,窗口注意力機(jī)制能有效捕捉數(shù)據(jù)中的局部特征。對(duì)于測(cè)試時(shí)訓(xùn)練層來(lái)說(shuō),這讓它能夠?qū)⑵涔潭ù笮〉目焖贆?quán)重容量集中用于建模非局部依賴關(guān)系。

總的來(lái)說(shuō),LaCT 是一種混合架構(gòu),它采用二次計(jì)算注意力機(jī)制來(lái)處理局部結(jié)構(gòu),針對(duì)非局部上下文采用線性計(jì)算的測(cè)試時(shí)訓(xùn)練機(jī)制。上下文并行(CP,Context Parallelism)沿著上下文長(zhǎng)度維度針對(duì)序列進(jìn)行分區(qū),并將分片分布在多個(gè)設(shè)備上來(lái)進(jìn)行并行計(jì)算。

前饋層和窗口注意力均屬于局部操作算子,因此天然地支持上下文并行。對(duì)于測(cè)試時(shí)訓(xùn)練層,小塊難以支持上下文并行,因此更傾向于使用張量并行。

研究團(tuán)隊(duì)的大塊測(cè)試時(shí)訓(xùn)練層通過(guò)在塊內(nèi)分片 tokens 來(lái)實(shí)現(xiàn)上下文并行。在訓(xùn)練新視圖合成時(shí),他們采用了這種并行方法,并觀察到 1% 至 3% 的極小吞吐量開(kāi)銷。與此同時(shí),LaCT 架構(gòu)可以與數(shù)據(jù)并行、流水線并行和張量并行等其他并行策略兼容。



實(shí)驗(yàn)涵蓋:新視圖合成、語(yǔ)言建模和自回歸視頻生成

如前所述,研究團(tuán)隊(duì)開(kāi)展了關(guān)于新視圖合成、語(yǔ)言建模和自回歸視頻生成的實(shí)驗(yàn)。在與線性成本基線方法的對(duì)比實(shí)驗(yàn)中,研究團(tuán)隊(duì)為其增加了相同的窗口注意力模塊,以便確保能夠進(jìn)行公平的比較。


表丨對(duì)每個(gè)實(shí)驗(yàn)中關(guān)鍵因素的總結(jié)(來(lái)源:arXiv)

在新視圖合成上,研究團(tuán)隊(duì)在場(chǎng)景級(jí)和物體級(jí)數(shù)據(jù)集上對(duì)本次方法進(jìn)行評(píng)估。他們使用 Objaverse 數(shù)據(jù)集進(jìn)行物體級(jí)訓(xùn)練,并遵循 LVSM 和 GS - LRM 的設(shè)置。

訓(xùn)練完成之后,研究團(tuán)隊(duì)在 Google Scanned Objects(GSO)數(shù)據(jù)集上進(jìn)行評(píng)估,該數(shù)據(jù)集的分辨率分別為 256×256 和 512×512。每次評(píng)估涉及 4 到 48 個(gè)輸入視圖,且每個(gè)物體有 8 個(gè)新視圖。

對(duì)于場(chǎng)景級(jí)評(píng)估,研究團(tuán)隊(duì)采用挑戰(zhàn)性較高的 DL3DV 場(chǎng)景數(shù)據(jù)集,其中包含超過(guò) 11000 個(gè)訓(xùn)練場(chǎng)景和 140 個(gè)測(cè)試場(chǎng)景,每個(gè)場(chǎng)景大約有 300 個(gè)視圖,評(píng)估的分辨率為 960 × 536。

對(duì)于物體級(jí)評(píng)估,研究團(tuán)隊(duì)使用了如下兩個(gè)基線模型:全注意力模型和寄存器注意力模型。

全注意力基線模型將測(cè)試時(shí)訓(xùn)練層替換為逐塊因果注意力層,實(shí)現(xiàn)了輸入 tokens 之間的雙向交互和來(lái)自新視圖的交叉注意力。

寄存器注意力模型將輸入 tokens 壓縮到 4096 個(gè)寄存器中,并通過(guò)與這些寄存器的交叉注意力解碼新視圖。

在場(chǎng)景級(jí)評(píng)估中,研究團(tuán)隊(duì)與 LongLRM 進(jìn)行對(duì)比,LongLRM 是一種結(jié)合了 Mamba 和全注意力機(jī)制的模型,可用于 3D 高斯濺射(3D Gaussian splat)預(yù)測(cè)。此外,他們還與純基于優(yōu)化的 3D 高斯濺射方法進(jìn)行了對(duì)比。


表丨對(duì)所有模型計(jì)算復(fù)雜性的總結(jié)(來(lái)源:arXiv)

在性能評(píng)估上,研究團(tuán)隊(duì)采用每 tokens 損失度量來(lái)評(píng)估模型有效使用完整上下文的能力。出現(xiàn)單調(diào)遞減的損失表示上下文利用成功,而處于平穩(wěn)狀態(tài)則表示上下文使用有限。

另?yè)?jù)悉,他們從原始 LaCT 塊中移除了窗口注意力層,將滑動(dòng)窗口注意力(SWA,sliding window-attention)層直接集成到大塊測(cè)試時(shí)訓(xùn)練層中,并將模型與全注意力模型、門控線性注意力(GLA,Gated Linear Attention)和 DeltaNet 進(jìn)行了比較。

為了確保公平性,他們?yōu)?GLA 和 DeltaNet 都增強(qiáng)了相同的滑動(dòng)窗口注意力層,并采用 100 萬(wàn)的 RoPE 庫(kù)進(jìn)行 32K tokens 上下文的培訓(xùn)。


表丨對(duì)所有方法機(jī)制和訓(xùn)練吞吐量的總結(jié)(來(lái)源:arXiv)

為了比較塊遞歸和逐 tokens 遞歸,在條件受控的實(shí)驗(yàn)中,研究團(tuán)隊(duì)的線性大塊遞歸策略在相同狀態(tài)大小下優(yōu)于線性逐 tokens 遞歸策略在。

由于語(yǔ)言本身并不天然存在塊狀結(jié)構(gòu),研究團(tuán)隊(duì)提出的線性大塊遞歸變體在初始階段性能不如 GLA 和 DeltaNet 等逐 token 方法。然而,當(dāng)將其與大規(guī)模非線性狀態(tài)以及 Muon 優(yōu)化器相結(jié)合時(shí),該變體的表現(xiàn)將超越這些逐 token 方法。

總的來(lái)說(shuō),本次成果凸顯了大塊測(cè)試時(shí)訓(xùn)練在計(jì)算效率和性能上的優(yōu)勢(shì),為更高效且可擴(kuò)展的長(zhǎng)上下文序列建模鋪平了道路。

通過(guò)消除對(duì)于低級(jí)硬件特定實(shí)現(xiàn)的依賴,LaCT 使人們能夠更廣泛地探索架構(gòu)設(shè)計(jì)空間。未來(lái),研究團(tuán)隊(duì)希望這項(xiàng)工作能夠啟發(fā)并加速長(zhǎng)上下文建模和測(cè)試時(shí)訓(xùn)練領(lǐng)域的新研究。

參考資料:

https://arxiv.org/abs/2505.23884

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不要小看那些小恩小惠,關(guān)鍵時(shí)刻頂大用,網(wǎng)友經(jīng)驗(yàn)分享,相當(dāng)實(shí)用

不要小看那些小恩小惠,關(guān)鍵時(shí)刻頂大用,網(wǎng)友經(jīng)驗(yàn)分享,相當(dāng)實(shí)用

特約前排觀眾
2025-06-13 00:15:03
獨(dú)庫(kù)公路大堵車源頭找到了!原來(lái)是這一車人,云A的,而且是故意

獨(dú)庫(kù)公路大堵車源頭找到了!原來(lái)是這一車人,云A的,而且是故意

深析古今
2025-06-11 16:10:38
高考結(jié)束了,網(wǎng)絡(luò)又開(kāi)始了一片罵戰(zhàn):北京考生300分上清華?

高考結(jié)束了,網(wǎng)絡(luò)又開(kāi)始了一片罵戰(zhàn):北京考生300分上清華?

深析古今
2025-06-11 22:50:14
新華社消息|印度失事客機(jī)上所有人員全部遇難

新華社消息|印度失事客機(jī)上所有人員全部遇難

新華社
2025-06-12 20:23:11
以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

回京歷史夢(mèng)
2025-05-23 16:06:37
比亞迪凌晨宣布!對(duì)供應(yīng)商支付賬期統(tǒng)一至60天內(nèi)

比亞迪凌晨宣布!對(duì)供應(yīng)商支付賬期統(tǒng)一至60天內(nèi)

新京報(bào)
2025-06-11 02:01:31
兩年前的今天:掘金擊敗熱火奪得NBA總冠軍 約基奇榮膺FMVP

兩年前的今天:掘金擊敗熱火奪得NBA總冠軍 約基奇榮膺FMVP

直播吧
2025-06-13 11:20:27
安徽一診所懸掛橫幅引爭(zhēng)議 工作人員:主要針對(duì)常規(guī)感冒咳嗽等病癥

安徽一診所懸掛橫幅引爭(zhēng)議 工作人員:主要針對(duì)常規(guī)感冒咳嗽等病癥

板扎在線NEWS
2025-06-13 07:32:41
A股:明天,6月13日,股市尾聲將至?

A股:明天,6月13日,股市尾聲將至?

虎哥閑聊
2025-06-13 00:00:03
涉嫌嚴(yán)重違紀(jì)違法!廣東一市政府原副秘書(shū)長(zhǎng)被查

涉嫌嚴(yán)重違紀(jì)違法!廣東一市政府原副秘書(shū)長(zhǎng)被查

花young的生活
2025-06-12 23:01:55
李顯龍:美國(guó)試圖用熬死蘇聯(lián)的方式來(lái)熬中國(guó),結(jié)果注定會(huì)失敗!

李顯龍:美國(guó)試圖用熬死蘇聯(lián)的方式來(lái)熬中國(guó),結(jié)果注定會(huì)失敗!

大道無(wú)形我有型
2025-06-06 21:07:59
曾經(jīng)過(guò)度吹捧,現(xiàn)在淪為笑柄的幾樣?xùn)|西,你買了幾樣?

曾經(jīng)過(guò)度吹捧,現(xiàn)在淪為笑柄的幾樣?xùn)|西,你買了幾樣?

跳跳歷史
2025-06-12 14:12:24
真的要走?巴薩即將開(kāi)啟購(gòu)買邊鋒談判,紅軍要價(jià)被迫降低2000萬(wàn)

真的要走?巴薩即將開(kāi)啟購(gòu)買邊鋒談判,紅軍要價(jià)被迫降低2000萬(wàn)

里芃芃體育
2025-06-13 08:12:04
41歲韓女星曬上海新家!180平上疊別墅,夸中國(guó)小區(qū)美得像度假村

41歲韓女星曬上海新家!180平上疊別墅,夸中國(guó)小區(qū)美得像度假村

涵豆說(shuō)娛
2025-06-12 21:08:56
國(guó)際油價(jià)漲勢(shì)難止,美油、布油雙雙漲超12%

國(guó)際油價(jià)漲勢(shì)難止,美油、布油雙雙漲超12%

澎湃新聞
2025-06-13 11:00:04
深圳富婆回國(guó)邀20名同學(xué)聚餐,一頓狂吃8萬(wàn)8,不料結(jié)賬時(shí)面面相覷

深圳富婆回國(guó)邀20名同學(xué)聚餐,一頓狂吃8萬(wàn)8,不料結(jié)賬時(shí)面面相覷

刀刃故事
2025-02-16 15:12:36
上海警方最新明確:這類事故抓源頭!涉事商家逃不掉

上海警方最新明確:這類事故抓源頭!涉事商家逃不掉

上海市閔行區(qū)司法局
2025-06-12 17:03:10
“超薄”到這個(gè)樣子, 三星 Ultra 級(jí)新機(jī)要玩“破圈”?

“超薄”到這個(gè)樣子, 三星 Ultra 級(jí)新機(jī)要玩“破圈”?

小柱解說(shuō)游戲
2025-06-13 10:04:44
我們都是普通家庭,真的不要給孩子投資太多(深度好文)

我們都是普通家庭,真的不要給孩子投資太多(深度好文)

第一心理
2025-06-12 17:23:14
知名男星突傳去世,年僅60歲,死因曝光,最后露面暴瘦還光頭!

知名男星突傳去世,年僅60歲,死因曝光,最后露面暴瘦還光頭!

西瓜愛(ài)娛娛
2025-06-13 10:14:54
2025-06-13 11:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15286文章數(shù) 513777關(guān)注度
往期回顧 全部

科技要聞

AMD發(fā)下一代AI芯片,OpenAI掌門人當(dāng)場(chǎng)驚呼

頭條要聞

乘客曾拍下墜機(jī)前異常畫面 資深機(jī)長(zhǎng):空難有兩點(diǎn)反常

頭條要聞

乘客曾拍下墜機(jī)前異常畫面 資深機(jī)長(zhǎng):空難有兩點(diǎn)反常

體育要聞

世界第一和他背后的智囊

娛樂(lè)要聞

那爾那茜母女訂制位 疑用親爹權(quán)力鋪路

財(cái)經(jīng)要聞

投資家深陷在泡泡瑪特的"情緒迷局"中

汽車要聞

車色煥新/智能升級(jí) 2025款歐拉好貓預(yù)售8.98萬(wàn)起

態(tài)度原創(chuàng)

家居
本地
親子
藝術(shù)
軍事航空

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

親子要聞

屏幕時(shí)間和問(wèn)題兒童:存在惡性循環(huán)嗎?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

日方:山東艦艦載機(jī)"異常接近"日本軍機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 文山县| 育儿| 三明市| 延安市| 深水埗区| 德昌县| 永泰县| 玉龙| 铜山县| 兴和县| 进贤县| 黑山县| 凤台县| 贵溪市| 隆回县| 阿瓦提县| 沁源县| 翁牛特旗| 上林县| 蓬安县| 雷州市| 湘乡市| 湘潭市| 昆明市| 重庆市| 九江县| 桑日县| 循化| 收藏| 阿巴嘎旗| 永昌县| 合江县| 乡城县| 郧西县| 永昌县| 鄯善县| 平乐县| 安新县| 逊克县| 伊宁县| 金坛市|