新智元報道
編輯:犀牛 桃子
【新智元導(dǎo)讀】3D生成模型高光時刻來臨!DreamTech聯(lián)手南大、復(fù)旦、牛津發(fā)布的Direct3D-S2登頂HuggingFace熱榜。僅用8塊GPU訓(xùn)練,效果超閉源模型,直指影視級精細度。
HuggingFace是全球最大的開源大模型社區(qū),匯集了來自世界各地的上百個開源大模型。
其趨勢榜(HuggingFace Trending)展示了各類開源大模型在全球開發(fā)者中的受歡迎程度,DeepSeek、Qwen等大模型就因曾登頂HuggingFace榜單而獲得了全球開發(fā)者的關(guān)注與熱議。可以說,這是當(dāng)前最具權(quán)威性的榜單之一。
最近一周,由DreamTech推出的Direct3D-S2 3D大模型登頂HuggingFace 3D modeling應(yīng)用趨勢榜,并在涵蓋文本、圖像和視頻的綜合榜單上躍居至第4位。
這個大模型不僅贏得了海外知名AI精選博主AK (@_akhaliq) 的推薦,還在全球3D及AI領(lǐng)域的開發(fā)者和愛好者中引起了廣泛關(guān)注。
Direct3D-S2僅需8張GPU訓(xùn)練,生成效果遠超數(shù)百張GPU訓(xùn)練的閉源商用模型,訓(xùn)練效率提升近20倍,相比現(xiàn)有的大模型,token吞吐量從4K提升到256K,直接提高64倍,目標直指影視級別高精細度3D模型生成。
許多開發(fā)者表示Direct3D-S2就是「最強開源3D大模型」,直呼「3D生成的概念神」。
為什么一個3D大模型能在AI行業(yè)引起如此高的關(guān)注度呢?
從DreamTech團隊發(fā)布的論文中,我們或許能找到答案。Direct3D-S2所實現(xiàn)的突破性進展,不僅提升了3D模型的精度與效率,也開啟了新的應(yīng)用場景和技術(shù)可能性。
這不僅是對技術(shù)邊界的探索,也是其在AI領(lǐng)域創(chuàng)新能力的一次重要展示。
論文地址:https://arxiv.org/pdf/2505.17412
從游戲角色、電影特效,到VR體驗和3D打印產(chǎn)品,背后都離不開一個關(guān)鍵技術(shù)——3D建模。它就是數(shù)字世界的基礎(chǔ)手藝,但傳統(tǒng)建模過程復(fù)雜又耗時。
AI正在改變這一切。近年來,越來越多的公司開始用來替代人工建模,AI不僅更快,效果也越來越逼真。微軟、Meta、騰訊、字節(jié)跳動等行業(yè)巨頭,以及眾多創(chuàng)新企業(yè)紛紛發(fā)力,推出了各種AI 3D生成工具,掀起了一場技術(shù)熱潮。
而在所有探索中,如何讓AI生成的3D模型更清晰、更精細,已經(jīng)成為大家最關(guān)心的問題之一。
為什么高分辨率的3D生成
如此具有挑戰(zhàn)性?
現(xiàn)在AI已經(jīng)能輕松生成高清的圖片和視頻了,但為什么利用AI進行高質(zhì)量的3D建模卻仍舊這么難?這背后有兩個關(guān)鍵原因。
3D數(shù)據(jù)比2D復(fù)雜得多。圖像和視頻只是平面信息,而3D模型要完整地表達一個物體在空間中的形狀,它的細節(jié)是「立方級」的復(fù)雜度。也就是說,分辨率越高,需要處理的token數(shù)量會呈立方倍增長。比如,把分辨率從128提升到256,token數(shù)量的差別不是2倍,而是23=8倍。
AI模型本身的計算壓力也很大。目前主流的AI架構(gòu)Transformer在處理大量細節(jié)時會變得特別吃力,Transoform核心的Attention(注意力)機制的運算復(fù)雜度是隨著數(shù)據(jù)token數(shù)量呈平方增長的。這意味著,當(dāng)你想要更精細的模型時,算力需求幾乎是指數(shù)爆炸式上升。
舉個例子:即使是分辨率為256級的3D生成任務(wù),通常也需要動用32至64塊高端GPU進行訓(xùn)練。
而如果要生成1024級分辨率甚至影視級別超高精細度的3D任務(wù),則需要幾千甚至上萬塊GPU訓(xùn)練。這種訓(xùn)練方式成本高昂,技術(shù)挑戰(zhàn)也非常大。
如何在有限的資源下實現(xiàn)高質(zhì)量的3D生成,已經(jīng)成為整個行業(yè)都在攻克的核心難題。
DreamTech聯(lián)合南京大學(xué)、牛津大學(xué)提出了Direct3D-S2,解決了高分辨率3D生成的瓶頸問題。
空間稀疏注意力機制
在Direct3D-S2中,DreamTech團隊提出了一項核心創(chuàng)新——空間稀疏注意力機制(Spatial Sparse Attention, SSA)。
這一機制專為解決當(dāng)前Diffusion Transformer(DiT)在處理高分辨率3D生成時效率低、精細度差的問題而設(shè)計,堪稱3D生成領(lǐng)域的效率引擎。
優(yōu)點一:支持超大規(guī)模體素生成
通過自適應(yīng)3D空間分塊策略,SSA可以讓模型只關(guān)注真正重要的體素區(qū)域,避免大量冗余計算。
即使面對10243的超高分辨率,模型也能輕松處理數(shù)十萬級tokens,token吞吐量提高64倍!
優(yōu)點二:保留幾何一致性
在大幅提高效率的同時,SSA并沒有犧牲質(zhì)量。
它基于空間幾何連續(xù)性概率分布對tokens進行智能分塊,確保局部結(jié)構(gòu)完整、表面平滑自然,避免了傳統(tǒng)方法中常見的「斷裂」或「扭曲」現(xiàn)象。
稀疏SDF VAE以及稀疏DiT
除了SSA注意力機制的創(chuàng)新,Direct3D-S2還引入了適配SSA的全新架構(gòu),包括稀疏SDF VAE和稀疏DiT,實現(xiàn)了從輸入到輸出的全流程效率提升。
端到端稀疏SDF自編碼器
Direct3D-S2首次將3D生成表征統(tǒng)一到SDF(符號距離函數(shù))體素場中,無需依賴傳統(tǒng)的點云、多視角圖像或隱式空間等復(fù)雜轉(zhuǎn)換過程。
簡化了訓(xùn)練流程,將模型訓(xùn)練的穩(wěn)定性和訓(xùn)練速度提升到極致。
多分辨率支持+稀疏條件機制
Direct3D-S2支持基于3D幾何空間的multi-scale訓(xùn)練與推理,僅用8塊A100 GPU,2天即可完成訓(xùn)練,整體效率提升4倍以上。
同時,借助稀疏條件機制,模型能聚焦于前景物體的關(guān)鍵區(qū)域,實現(xiàn)更高效的交叉注意力計算,從而顯著增強細節(jié)生成能力。
細節(jié)更豐富、結(jié)構(gòu)更精準
在3D生成領(lǐng)域,細節(jié)決定成敗。
Direct3D-S2在生成質(zhì)量上的突破,正是體現(xiàn)在它對復(fù)雜幾何結(jié)構(gòu)和精細紋理的出色還原能力上。
在多項關(guān)鍵指標對比中,Direct3D-S2全面超越當(dāng)前主流開源3D生成模型,在所有數(shù)值評測中全部領(lǐng)先。
無論是細節(jié)豐富程度、幾何精度、表面光滑度,還是整體結(jié)構(gòu)的一致性,Direct3D-S2都展現(xiàn)出顯著優(yōu)勢。
不僅如此,在由數(shù)十位藝術(shù)家與開發(fā)者參與的盲測評估中,Direct3D-S2也在「圖像一致性」與「幾何質(zhì)量」兩個核心維度上獲得最高評分。
這意味著,不僅數(shù)據(jù)亮眼,實際效果也真正能打動專業(yè)人士。
與當(dāng)前流行的開源3D生成大模型對比,Direct3D-S2在細節(jié)和精細度表現(xiàn)上超越了全部的開源3D大模型。
盡管只使用8張A100顯卡和公開數(shù)據(jù)集訓(xùn)練,Direct3D-S2在生成的模型細節(jié)上甚至超過了目前市面上幾乎全部的閉源商用模型。
換句話說,Direct3D-S2不僅是目前最強的開源3D生成大模型之一,更是首個在質(zhì)量和實用性上真正接近工業(yè)級應(yīng)用的開源方案。
擁抱開源,賦能全球開發(fā)者
DreamTech始終秉持「技術(shù)共享」的理念,已將Direct3D-S2全面開源,并采用最寬松的 MIT License協(xié)議,允許自由用于商業(yè)用途,堪稱業(yè)界良心,這一舉措贏得了行業(yè)的廣泛贊譽。
為了讓全球開發(fā)者更方便地體驗與使用Direct3D-S2,DreamTech提供了多個開放入口:
·GitHub項目地址(開源代碼):
https://github.com/DreamTechAI/Direct3D-S2
·技術(shù)詳情與論文訪問:
https://www.neural4d.com/research/direct3d-s2/
·HuggingFace在線體驗Demo:
https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo
此外,DreamTech官網(wǎng)還提供更強版本模型及一系列實用功能,供用戶免費使用,助力開發(fā)者、藝術(shù)家和企業(yè)快速上手與落地應(yīng)用。
·DreamTech官網(wǎng)入口:
www.neural4d.com
創(chuàng)新無邊界,Direct3D-S2不僅是一次技術(shù)突破,更是推動3D生成普及化的重要一步。
團隊介紹
DreamTech深耕于3D及4D AI技術(shù)領(lǐng)域,致力于用創(chuàng)新的產(chǎn)品和服務(wù)提升全球AIGC創(chuàng)作者及消費者的使用體驗,公司的愿景是利用先進的AI技術(shù)打造與真實世界無縫對接、實時互動的時空智能體驗,并通過模擬真實世界的復(fù)雜性和多樣性實現(xiàn)通用人工智能(AGI)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.