99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

干貨超標!騰訊混元3D負責人郭春超:真正的3D AIGC革命,還沒開始!

0
分享至


分享嘉賓 | 郭春超

責編 | 夢依丹

出品丨AI 科技大本營(ID:rgznai100)

現在這個時代,我們玩的游戲、看的電影、甚至未來的虛擬世界,都離不開精細逼真的三維(3D)模型。然而,制作這些 3D 內容,過去常常意味著耗時數周甚至數月的人工建模,成本高昂且效率低下。就像平面設計曾被 Photoshop 改變一樣,人工智能正在瞄準 3D 領域,試圖徹底革新數字內容的生產方式。

在這場由 AI 驅動的 3D 生成浪潮中,騰訊混元團隊推出的開源項目 Hunyuan 3D 成為了全球開發者社區的焦點。它不僅在 GitHub 上迅速積累了超過 9.6k 的 Star,躋身 3D 生成開源項目的第一梯隊,更憑借其出色的模型生成效果,贏得了“幾乎沒有變形的 Image to 3D,恐怖如斯”這樣的用戶評價。



AI 生成 3D 的能力發展到什么階段了?它離真正改變游戲、影視、數字人等行業還有多遠? 在 4 月 18-19 日舉行的 2025 全球機器學習技術大會(ML-Summit)上,騰訊混元 3D 負責人郭春超對此進行了詳盡解讀,并在會后接受了 CSDN 專訪。

令人意外的是,盡管當前 3D AIGC 技術已取得顯著進展,郭春超卻拋出了一個引人深思的觀點:“真正的 3D AIGC 革命,還沒開始!”


為什么他會這么說?在這次干貨滿滿的對話中,郭春超分享了多個核心洞察:

  • 3D 生成仍處前半程:相比成熟的文本和圖像生成,3D 生成的工業應用才剛剛起步,可用度仍有較大提升空間。

  • 從“可見”到“可用”的挑戰:當前技術在生成靜態 3D 模型上已能滿足部分需求,但要融入專業的工業級 CG 管線(如自動拓撲、骨骼綁定等),還有很長的路要走。

  • 數據稀缺與利用率:3D 數據獲取難度遠高于圖片,未來的突破在于如何提高現有數據的利用效率和表達能力。

  • 技術路線的演進:自回歸(AR)模型正與擴散(Diffusion)模型結合,有望提升 3D 生成的可控性和記憶能力,甚至向構建具備物理規律的“世界模型”邁進。

  • 開源與護城河:持續快速的模型迭代是當前最大的護城河,開源是加速技術發展和生態繁榮的關鍵催化劑。

  • 對專業人士的影響:AI 不是替代 3D 設計師,而是成為強大的生產力工具,幫助他們更快地將創意變為現實。

這篇專訪將帶你深入了解 3D AIGC 領域的現狀、挑戰與未來圖景,無論你是否是技術專家,都能從中窺見這場即將到來的數字內容革命的冰山一角。


騰訊混元大模型家族:從語言模型走向全模態演進

騰訊混元大模型自 2023 年 2 月啟動研發以來,經歷了從大語言模型向多模態模型的全面演進。早期階段,混元聚焦于大語言模型方向,并于 2023 年 9 月正式發布,基于此前推出的萬億參數級 NLP 稀疏大模型構建生成式能力。

隨著多模態生成需求的快速增長,混元持續拓展模型邊界。2024 年 5 月,混元開源了業界首個中文 DIT 架構的圖像生成模型,實現了中文圖像生成領域的開源突破。同年 11 月,混元推出 3D 生成 1.0 模型,成為業內首個同時支持文生 3D 和圖生 3D 的開源大模型。緊接著在 12 月,混元文生視頻模型也加入開源行列,憑借優異的生成效果在開發者社區廣受好評。

正如騰訊混元負責人郭春超所言,混元始終堅持“多模態協同”與“持續開源”的策略布局,未來還將持續推進圖像、3D、視頻等方向的模型開源。經過兩年多的發展,騰訊混元大模型已從單一的大語言模型,成長為覆蓋文本、語音、圖像、3D、視頻等多模態能力的全面生成式 AI 基座。



從多模態到三維:打造全鏈路的 3D AIGC 引擎

騰訊混元負責人郭春超指出,3D 模型作為數字世界的重要資產,已廣泛應用于游戲、數字人、玩具、工業設計等多個領域。它具有可交互、可全景展示、高可控性等特征,但在生產端卻長期面臨成本高、周期長、數據稀缺等現實難題。

相較于圖像可由手機輕松采集,3D 數據往往依賴專業藝術家建模或昂貴的 3D 掃描設備,這使得其創作門檻高、難以大規模生產。上述建模困難正亟需 3D AIGC 技術來打破瓶頸,從根本上提升 3D 資產制作效率、降低內容生產門檻。

正如郭春超在大會上展示的對比數據為例,當前在廣告、游戲等典型 3D 應用場景中,傳統人工建模的成本與效率極不匹配:


針對這些難點,騰訊混元構建了“3D 創動引擎”架構,圍繞草圖生 3D、紋理生3D、動作融合建模和低多邊形優化,打造從稀疏輸入到高質量可用資產的完整模型矩陣:

  • 草圖生 3D(Sketch-to-3D):可通過手繪草圖快速生成三維模型,并支持通過 2D 圖像作為橋接增強泛化能力,適用于初學者、設計師等低門檻創作場景;

  • 紋理換膚生成:基于已有 3D 白膜實現任意紋理映射,使一個幾何模型可支持多種形象外觀,大幅提升資產復用率,適用于數字人、虛擬角色等個性化需求場景;

  • 動作融合建模:支持角色的動作生成與驅動,服務于動畫、虛擬數字人等動態內容需求;

  • 低多邊形建模與布線控制:通過自研 PolyGen 技術,生成布線規整、適配工業動畫與實時渲染需求的輕量化模型,推動 3D 資產在終端設備上的落地能力。相關技術論文已于 CVPR 2025 收錄。

郭春超強調,混元的目標并非一次性“接管”整個 CG 管線,而是希望通過生成式 AI 技術逐步滲透、替代關鍵環節,哪怕最初只解決 30%-40% 的任務,也能帶來可觀的提效。這種“局部重塑+逐步演進”的路徑,正在讓 3D 大模型真正從實驗室走向產業端。


在模型能力之外,騰訊混元同步推出了 3D 創作管線工作流,為設計師提供可視化的調整界面。目前,騰訊混元的 3D 模型已獲得 ComfyUI 官方支持,用戶可在 ComfyUI 最新版本中直接調用混元能力,實現從草圖到完整 3D 模型的一鍵式生成體驗。


從 World Model 到三維世界重構:混元 3D 的應用與未來展望

從“重建一個物體”到“生成一個場景”,再到“理解一個世界”,混元 3D 的發展目標,是構建服務于智能體的三維世界模型(World Model)。 例如未來某天,用戶無需親臨盧浮宮,也能進入一個沉浸式、可編輯、可漫游的線上展館。

構建 World Model 的過程,意味著不僅要解決三維重建和多模態理解的問題,還需應對物理一致性建模、生成內容的空間語義連貫性等系統級挑戰。正如郭春超所言,單一模態難以生成復雜的 3D 場景,團隊將通過跨模態融合,先從局部實現空間合理性,再逐步擴展至更大規模、結構更完整的三維世界。

目前騰訊混元的 3D 生成技術已在多個實際場景中落地,包括人物 UGC、地圖車標、虛擬道具等創作。在騰訊地圖上,用戶可生成個性化導航車標;在游戲領域,混元也正與開發商合作,將生成能力嵌入角色、道具與場景生產流程,提升內容效率。

在開源生態方面,騰訊混元已開源多個版本的 3D 模型,最小參數僅 0.6B,支持在本地運行。目前 GitHub Star 數超 1.2 萬,Hugging Face 下載量超 100 萬。團隊還計劃在年內開放更多模型與數據集,降低行業門檻,推動能力普及。

郭春超表示,到 2025 年底,他們希望實現物體級生成接近人工建模水平,場景類生成具備初步雛形。他指出,3D 屬于視覺生成分支,未來也將吸收大語言模型的演進經驗,逐步走向原生多模態的統一架構。他認為,包括 AR 與 diffusion 結合的方向,將在視覺生成領域迎來更多突破。

演講結束后,為了更深入地了解騰訊混元在 3D 生成領域的實踐與思考,CSDN對騰訊混元 3D 大模型負責人郭春超先生進行了現場專訪,圍繞 3D 生成的技術現狀、應用前景以及行業發展趨勢等話題展開了深入探討。

CSDN:感謝郭老師接受我們的采訪,除了作為分享嘉賓,今天在會場有聽到哪些你特別感興趣的演講和分享嗎?

郭春超:我在來之前聽了階躍段楠老師的分享。今天我對視覺類的生成,還有多模態類的生成非常感興趣。剛才也在聽,感覺收獲非常大。感覺視覺生成還處于一個繼續向上爬坡的階段。應該在 25 年會有一個更大的進展。

CSDN: 今天整個 B 會場都是關于多模態視覺生成的內容。我們進入第一個話題:3D 生成現在進行到什么狀態?

郭春超:在這一波生成式 AI 大模型的浪潮中,語言模態無疑是起步最早、發展最成熟的。大眾真正開始接觸這類技術,大多是從 ChatGPT 開始的,也正是以大語言模型為代表的技術最先實現了較高的可用性。

相比之下,3D 生成算是一個相對年輕的方向。學術界大約在 2022 年 9 月左右,才開始出現像 DreamFusion 這樣的早期工作。2023 這一年,學術界的研究熱度迅速上升,而真正進入工業界的落地探索,基本是在 2024 年才開始。如果從工業界大規模投入的時間來看,到現在也只有一年出頭。

所以整體來看,3D 生成目前仍處在發展的早期階段。如果我們把當前大語言模型的任務處理可用度視作 90%,那么 3D 生成這個模態可能還處于 50% 甚至更低的水平。但它的發展速度非常快,整個領域正在迅速爬坡中。

CSDN: 現在 3D 生成跟早期 AI 生成一樣,有一種開盲盒的感覺。像今天的GPT-4o,還有后面 Gemini 3 出來之后,它生成的內容,雖然圖像生成已經進化到多模態階段了,還是要試很多次,反復試錯才能得到滿意的圖片。在 3D 生成方面,用戶想要精準控制,但有時也想要 AI 帶來意外驚喜,偶爾生成一個高質量的 3D 模型。你們是怎么平衡生成結果的可控性和隨機性的?

郭春超:對于可控性而言,有很多種途徑,例如把 2D 的結果和 3D 相結合。我們在做文本生成 3D 的時候,可控性相對會弱一些,因為普通用戶很難描述得詳細、專業。此外它也考驗模型的理解能力,也就是指令跟隨的能力。對于圖像生成 3D,它的跟隨度和可控性會更高一些。

對于專業人士,他用圖片生成 3D 的情況會更多。普通的小白或者只是過來體驗一下,大家可能用的文本生成多一些。文本生成的多樣性和驚喜會更多一些。圖像生成更多的是要求跟原圖的指令遵循度,也就是圖像作為 Prompt 輸入時,要有更高的還原度。

專業人士可能圖像生成 3D 更適合。除了單圖生成,我們在可控性方面也做了多圖生成。例如很多設計師會自己先有三視圖,基于三視圖再去生成三維資產,可控性會得到進一步提升。

CSDN: 對于比較專業的用戶,包括我看網友評論,他們在體驗 3D 生成模型過程中,模型生成出來只是第一步,他們更關心 AI 如何融入現有的工作流程,比如現有管線。未來有沒有可能實現更深度的融合,比如現在已有 3D 編輯功能,想要進一步深入到流程自動化,例如 AI 可以輔助拓撲或展 UV,實現這個的瓶頸在哪?

郭春超:這個問題比較專業了。三維資產可以理解為兩大類用途:

  • 靜態資產,比如 3D 打印、擺放類場景。生成后可以直接用,不會考慮很強的布線、拓撲以及下游的骨骼綁定、蒙皮、驅動等動畫需求。對這類靜態資產,目前 3D 生成的可用度比較高。

  • 動態/專業資產,對 CG 管線要求更高。圍繞整個 CG 管線,我們也做了很多 AI 模型。比如主持人剛問的拓撲生成,我們就發布了一個基于自回歸架構的拓撲大模型(CVPR 2025 論文)。后續的骨骼綁定、驅動等動畫環節,也都有對應的 AI 技術在研發。

所以,從“可見”到“可用”,雖然還不像大語言模型那么成熟,但我們已經解決了一部分 CG 管線問題,后續的 AI 化濃度會越來越高。

CSDN: 所以現在想要落地到工業級生產,還是有很長一段路。比如一說到 3D 生成,我們可能就想到游戲或電影,今年比較典型的就是《黑神話:悟空》,這種非常精細的建模,可能距離完全靠 AI 難以實現。但對于完全沒有 3D 基礎的用戶,比如只想給自己社交媒體做個 3D 頭像,或者做個簡單 AR 濾鏡,現在的體驗是否足夠傻瓜化?它最大的障礙是什么呢?

郭春超:在海外,3D 用戶群體是很大的,國內正處于一個普及階段。對于普通用戶而言,現在的 3D AI 能力很大程度上能滿足需求。大家有時會做一個虛擬個人形象、虛擬手辦或虛擬寵物等等。對于這類靜態資產的生成,它的成熟度在很多場合能滿足。

更大的挑戰在于對于專業人士,如設計師、建模師、動畫師,或者用在影視級、 3A 大作里面,挑戰比較大。你可以認為目前的發展階段,對于普通用戶而言,很多場合已經能滿足,我們正在努力解決的是專業場景下需要解決的問題,因為那一部分背后有非常大的工業價值、商業價值。

CSDN: 3D 生成可以應用的場景很多,除了游戲娛樂,還有自動駕駛、元宇宙、具身智能都可以用到。混元有沒有設想過未來美術的成本結構會有什么樣的改變?通過 AI 融入進來,比如像游戲,不同類型的游戲(休閑游戲或3A寫實大作),AI 生成的 3D 資產可用性會有什么差異?

郭春超:差異非常大。一個 3D 資產的市場價差從幾百到幾萬不等,取決于精細程度和 CG 管線復雜度。

  • 輕量小游戲:AI 最先滿足道具、基礎角色等需求,已“踮腳可及”。

  • 腰部游戲:AI 可做道具輔助生成。

  • 大制作:角色、場景地圖等資產需要多輪原型迭代,AI 在原型階段能極大提升效率、節省成本。

CSDN: 我覺得現在對獨立游戲是很幸運的時代,美術素材更好做了。像混元是一個開放體驗的引擎。想問一下混元在 3D AIGC 領域的商業模式打算怎么做?一直做開源嗎?還是提供工具服務平臺授權?或者未來會結合騰訊的生態?當年元寶的發布會,最深的感覺是它把騰訊的全生態接起來了,很厲害。混元 3D 會朝這種方向發展嗎?

郭春超:我們會多條腿走路這樣布局。首先作為騰訊的官方大模型團隊,它要服務公司內的很多需求,因為騰訊是一個業務非常廣泛的互聯網公司,公司內的很多需求混元要去比較好地支持。此外,我們作為一個基礎大模型的研發團隊,也要積極回饋社區。

整個混元的各個模態,我們一直在持續開源。開源和商業價值之間并不是矛盾,而是互相促進。舉個例子,我們開源了 3D 生成模型之后(目前已開源兩代模型),開源完第二代之后,效果非常好。業界社區給我們反饋很多問題,甚至有人去部署發現了一些待解決的問題,以前我們自己都沒發現。在社區里,這些問題反饋回來到我們這里,會成為我們的研發點。業界會搭建很多工作流、做很多配套插件,這些插件有時我們自己做研發時也會復用。開源對于商業價值是賦能的,它既促進了我們的提升,同時也幫著把生態建設得更加完善。我覺得開源和商業之間是相互促進的作用。

CSDN: 3D AIGC 是比較新的領域。您認為對比相對成熟的文本和 2D 圖像生成領域,開源在早期對 3D AIGC 發展更重要,還是技術更成熟后開源更好?

郭春超:開源肯定是持續性的。像現在大家接觸到最成熟的模態是文本,其次是圖像。但是,這些都是站在前人肩膀上一步步發展起來的。如果沒人先去做社區開源以及把社區繁榮起來,后面就比較難再發展壯大。每一個基建、每一個配套都要自己從零去搭,社區就基本不太可能繁榮起來。所以可以看到,越是成熟度高的領域,開源模型反而越多。

大家可以看到文本和圖像的開源模型是非常多的。視頻類目前也有這個趨勢,前兩年視頻生成還不太成熟,但前兩年陸陸續續學術界、工業界都有一些視頻生成模型在開源。我覺得開源是這個領域能夠繁榮的很重要的催化劑,不是要等到非常成熟才開源。相反,如果前面沒有開源,有一家突然做出來非常成熟的,很可能會選擇閉源,直接走商業化路線。

CSDN: 這會遇到一個跟前幾個領域殊途同歸的問題:數據怎么來?開源項目通常如何解決數據來源問題?尤其是 3D 比較特殊,像以前有 LAION 做圖像數據集,還有 AlexNet,都是社區驅動的數據貢獻。但在 3D 領域,懂的人相對少一點,這是否可行?

郭春超:3D 最開始是在愛好者和設計師群體,或是游戲、動漫等行業的從業者這里需要用到。3D 資產,它不能通過攝像頭(像我們用的手機)直接拍出來,更多需要藝術家手工建模。可以理解為它是一個勞動的結晶,不像圖片拍一張就唾手可得。3D 是一個復雜勞動的結晶,所以必然存在數據量相對比較稀缺、比較少的問題。目前工業界往往可用的在千萬量級。3D 資產,對于圖片這個領域往往可以達到百億級別以上。大家可以看到有三個數量級的差異。

但雖然數據稀缺,可以從兩方面去進一步做探索。一方面是如何提高數據利用率。現在絕大多數的 3D 模型,還有 3D 的表達方式(3D的encoding方式),并沒有把 3D 數據發揮到極致。哪怕只有幾百萬模型,只要數據用得好,也能訓練出很好的模型。但目前三維數據的表達、模型對數據的利用率都還沒做到很好,這是可以探索的第一條路。

第二條可以探索的路是提升現在模型的復用率。舉個例子,現在模型很多時候大家是把它整體拿過去,但對于3D模型而言,它就像我們演播間一樣。三維的東西都是可拆卸的,例如這個桌子可以搬走。如果把這些元素都能充分用起來,例如充分拆解、組合,數據又會大好幾個量級。這是可以探索的第二條路。

CSDN: 開源相關的話題會延伸到當前很多公司都在討論的一個問題:它的護城河在哪?特別是對于 3D 生成,你剛才說它比較早,有沒有思考過未來護城河會在哪?

郭春超:開源模型既是對社區的回饋,也是對每個技術研發團隊的一種鞭策。業界有了一個開源模型,它會成為業界的一個標尺。大家站在這個標尺之上,一定會更進一步,而不是往回退。這種一代代的更新,必然會促使這個領域、也促使自己團隊往前走得更快。大家可以看到硅谷的很多開源,或是他們自己模型的發布,例如谷歌發了一個,OpenAI 就會繼續加快研發節奏,很快也會再發一個版本。再后面可能Meta也會再發新版本。整個AI大模型領域都是你追我趕的狀態。有開源放出來,就是在加速技術的發展,讓這種你追我趕的狀態速度更快一些。

至于護城河,我覺得在現階段對各模態而言,只有持續迭代模型,讓模型進化速度更快,這才是真正的護城河。

CSDN: 現階段可能是共識。您覺得開源模型會成為 3D AIGC 的主流嗎?(因為開源方面,感覺騰訊更新比較勤,只了解騰訊)。還是會像文本模型一樣,與高質量的閉源模型長期并存?

郭春超:很可能是并存的方式,這在各模態目前都是這樣。今年肯定會是 3D AIGC 發展很快的一年,很可能接近可用性的臨界點。目前我們內部已經在用了。只不過,大家可能看到對于專業人士而言,從專業人士的評價來看,它的可用度還不夠。但它其實是一個農村包圍城市的路線,逐步滲透。在很多需要用 3D 的領域,實際上已經用起了我們的 API 或開源模型。

我們也在像爬山一樣,往更高的半山腰甚至山頂去爬。在這個過程中,一定是一個技術和業務雙向匹配、雙向驅動的階段。開源模型或閉源模型,只要能讓3D領域繼續往山頂爬,我覺得對整個行業都是有利的。

CSDN: 剛剛在講的過程中提到騰訊最新拓撲大模型用的是自回歸架構。我覺得今年特別驚喜的一件事,特別是在多模態領域,大家發現自回歸模型居然也能做圖像,甚至可能做 3D。以前有個刻板印象:語言是離散的,token 是離散的,適合用自回歸;圖像是連續的,適合用擴散模型生成。在生成式 AI 發展早期,很多研究者覺得這是刻板印象。最近 GPT-4o 出來,它在圖像生成上的進步,比如對文字渲染能力(英文基本達到完美,中文也在跟上)的提升很顯著。未來您怎么看擴散 VS 自回歸?這個技術路線在 3D 生成上的根本差異和未來潛力是什么?是否存在一個最優架構,還是會像現在這樣并存?

郭春超:實際上各模態之間技術可以借鑒。自回歸模型在語言模型上用得最早。語言模型也是所有模態里在生成式 AI 中起步最早的,它踩了最多的坑,也取得了現在最高的成熟可用度。

對于視覺類生成,后面自回歸(Autoregressive, AR模型)在里面扮演的比重會越來越大。對于視覺,目前一個比較大的趨勢會把 AR 和 Diffusion 做結合使用,會有更高的可控性、更好的記憶能力。因為大語言模型這種架構天然具備較好的記憶窗口。通往 AGI 的路上,像人類一樣,記憶是做推理的基礎,是能夠具備智能的基礎。所以,視覺模型如果想變得更智能,離不開非常強的記憶能力。否則如果只是硬去擬合數據分布,對數據的需求量是無窮的,且對數據的利用率比較低。因此我個人非常看好自回歸(AR模型)和 Diffusion 相結合,甚至 AR 起到大腦的作用。

CSDN: 現在形容文本模型有個很典型的用戶體驗:如果 AI 生成結果不是我想要的,我就會像甲方一樣一直提需求,一直問,直到得到想要的結果。這是推理模型出來后特有的用戶體驗。如果多模態模型(圖像和3D模型)引入自回歸模型后,就會有多模態推理。這方面怎么發展?未來是不是也可以像甲方一直提需求?就像今年《哪吒2》電影花絮里,一群特效師在那摳特別久的細節快瘋掉了。未來是不是瘋掉的變成 AI?我們一直提需求,讓它一直改 3D 模型,實現精細化?

郭春超:這種產品和技術肯定會出現。因為您剛才提到的實際上就是大語言模型的多輪對話,這也是為什么大家這么強調其記憶能力的原因,只有在多輪磨合中才能一步步達到人真正想要的結果。在大語言模型里實際已經走通這條路,對于其他模態而言,走這樣的路線也是必經之路。只有這樣才能解決您最開始問的問題:怎么樣提升抽卡成功率?怎么樣讓結果更符合我的需求?實際上就是要在一輪輪描述中,把我想要的保留,把不想要的部分修改掉。這類技術一定會成為各個廠商努力研發的點。

CSDN: 這也很讓人好奇一點,它對現有技術棧的影響會怎么樣?未來如果真的走向 AR 主導(自回歸主導),對我們目前大部分公司基于 Diffusion 積累的技術、工具鏈還有經驗意味著什么?是需要徹底革新,還是可以在現有技術上平滑過渡?

郭春超:實際上對于算法模型團隊而言,我覺得相對還好。更多是借鑒 LM 踩過的坑,然后把這兩類技術做結合。但是對于一些硬件廠商而言,可能影響會大一些,因為它配套的生態、配套的庫,就需要做很大的改變,因為上層模型其實轉身比較快。越往基層、越往 Infra 層級走,轉身會越慢一些。我覺得這類技術一直在快速變革,對于最上層的模型團隊而言,相對成本反而沒那么高。可能對于 Infra 這一層,挑戰會更大一些。

CSDN: 主要是對基礎設施的挑戰。具體來說,通常認為 Diffusion 采樣比較慢,AR 訓練比較難(長期練一代)。在 3D 生成這個復雜任務上,這兩種路線在訓練和推理的成本效率各自表現如何?未來哪種路線可能會在效率上取得突破?

郭春超:目前看,在推理速度上肯定是 Diffusion 更快,因為它相當于一次就生成了。而自回歸路線是要一個一個 token 去生成。面片數多的話,時耗肯定會比較長。這類也是需要業界繼續突破的點。至少如果對速度要求比較高,目前還會是 Diffusion 占據最主要的應用范式。

王啟隆: 未來我們想做,比如 3D 生成有很多應用場景,甚至包括具身智能、世界模型。您看到 AR 在哪方面潛力,它與大語言模型、世界模型的結合更有前景?要實現這一轉變需要哪些關鍵技術突破?

郭春超:實際上現在多模態模型,最開始是基于文本和語音,統一這樣一維信號。目前已經能把圖像結合得非常好,就像這次 GPT-4o 出來,把生圖從原來的“可以看”提升到“高可控地使用”。這是一個非常大的里程碑,相當于把二維信號也統一進來了。再往后,視頻可以理解為像 2.5 維。3D 可能是三維。我們真實世界,就像您提到的世界模型,到真實世界可能是 4D,因為它既有空間又有時間。

所以,多模態模型其實也像爬山一樣,爬到半山腰的狀態。接下來一定是各模態分別在各領域有貢獻,最終形成多模態各模態的融合合力,才能達到我們預期的世界模型的智能。因為世界模型目前還沒有非常嚴格的統一定義。但它最終很可能是需要各模態都達到非常高的可用度,才能做成完全符合世界規律并具備智能的世界模型。現在雖然各家都在提世界模型,但其實都處于比較早期階段,可能能在局部做到符合規律,但要做到完全智能,可能還有比較長的路要走。

CSDN: 要生成符合物理規律、時空連續的 3D 場景交互,AI 就需要具備對物理世界的理解。目前 AI 在這方面的能力如何?這也是具身智能前沿領域的一個思考:AI 要怎么實現對物理世界的理解?是通過學習大量數據模擬出來,還是通過底層研究?比如楊立昆喜歡提,通過大模型那條路行不通,要通過 JPA。

郭春超:關于這個,其實業界還沒有特別強的共識。現在業界也有挺多世界模型的 paper,或有一些創業公司在研究世界模型。目前在我看來,更多現階段世界模型的概念是:先能在局部、部分場合做到符合世界物理規律,就已是一個比較大的進步。它就像生成式 AI 最開始發展時,大家會認為它比較傻瓜,有時甚至會答錯簡單的算術題,或者容易被誤導。它非常不成熟。但是可以看到經過各方面努力、整個產業協同投入,它的成熟度獲得了非常大的提升。

類比于大語言模型的發展,其實世界模型也是類似的。很可能自動駕駛會做一個,純視頻模型也會做一個,再后來可能語言模型推理也會有一個。慢慢地各模態都是百花齊放的狀態,最后大家站在前人肩膀上,把各模態統一,也許在某一個垂類場合,它就突然可用了,這類場合可用再復制到其他。例如現在很多提的自動駕駛領域,他們做的世界模型,很多時候也是基于文本推理、視頻生成,再結合 3D 物體的生成與擺放等。我覺得世界模型的發展,一定也是農村包圍城市、逐步滲透的過程。它會先做局部可用,先做部分行業垂域可用的狀態。

CSDN: 能不能做一個總結:您認為制約 3D 生成效果和成熟度的關鍵因素,除了數據量不足,還有哪些技術難點等待突破?

郭春超:數據量是一個點,但可能并非最主要理由。因為即使只有幾百萬數據,前面說到,只要提升信息密度也能訓出比較好的模型。我覺得現在一個很大的問題是:對于 3D 模型、3D 資產,如何提升利用率、提升密度?這一點做得還不夠好。也就是說,能不能有更 Compact 的 3D 表達?能不能讓模型訓練更有效率?能不能基于大語言模型或圖像生成的范式,真正無損地遷移到 3D 生成上?我覺得這些點,相比較數據而言,都更有可能在短期被解決。

CSDN: 請您建議一下未來開發者關注的內容。另外我很好奇一點:做 3D 生成、3D AIGC 算法工程師,是不是本身要對 3D 建模有了解,或有過 3D 業界工作經驗?

郭春超:實際上原來的 3D 屬于傳統圖形學領域,的確對 3D 類有比較多的技術棧要求。但隨著生成式 AI 大模型興起,反而對傳統圖形學要求在降低,對生成式 AI 模型的要求在提升,可以認為是東升西降的狀態。所以,倒不一定要求有非常多的 3D 建模經驗,但要求對生成式 AI 非常熟悉。可以把它理解為計算機圖形學和計算機視覺的交叉學科。

CSDN: 最后請您建議:對于開發者來說,您有哪些建議?以及現在需要具備哪些核心知識儲備和核心能力?

郭春超:如果是一些像咱們 CSDN 很多用戶,是前端、后臺這種開發的程序猿,對于這類開發者而言,我覺得例如他是一個獨立的游戲開發者,熟練使用這些 API 能用就可以了,更多還是專注于自身業務。但如果他是做這方面 research 的,例如在讀的博士生等,他需要多去 follow 業界前沿的 paper。因為這個領域在學術界目前非常火。他們如果想進一步發表更優質的 paper,做出業界更有影響力的工作,一定需要持續 follow 業界的 SOTA 進展。因此對于研究者,還是對于產業從業者,需要關注的點是不一樣的。

CSDN: 從文生圖到文生視頻再到 3D 生成,AIGC 在不斷降低內容創作門檻。漸漸會有一種哲學上的思考,也是對我們CSDN“人人都是開發者”的一個叩問:未來普通人進行 3D 內容創作可能會像今天用美圖秀秀 P 圖一樣簡單。那這對專業 3D 設計師意味著什么?第二,真的需要每個人都是開發者,人人都是 3D 生成的開發者嗎?

郭春超:實際上,剛才主持人問對 3D 從業者什么影響?大家可以類比 2D 生圖。即使現在無論是 Midjourney、混元生圖還是一些其他的(如剛才提到的GPT-4o)生圖接口,業界可用的已經非常多了。但是,平面設計師也沒有被替代掉,仍然很多。更多是大家把它作為一個生產力工具。對于 3D 而言也是這樣,它能幫助大家更快把創意落地呈現。有了 AI 工具,別的設計師用了,你沒有用,生產效率可能就會差十倍。

所以大家可能更多地把它理解為:3D 設計師或 2D 平面設計師,更多是轉型為最擅長用 AI,并能結合自身業務、自身 idea 的復合型人才。我覺得這可能是對設計師的影響。就像開車一樣,以前都是開火車,到后來有汽車,再到后來有自動擋,再到后來有智能電動汽車,其實大家也都是在不斷學習。那對于設計師而言,我覺得用好 AI,絕對對他們有助力的。

CSDN:非常感謝騰訊混元3D大模型負責人郭春超老師的精彩對話。


2025 全球機器學習技術大會上海站已圓滿結束, 本次大會圍繞 AI 最前沿的發展趨勢與落地實踐,聚焦大語言模型技術演進、AI 智能體、具身智能、DeepSeek 技術解析與行業實踐等 12 大專題,邀請了超 60 位來自全球頂尖科技企業與學術機構的重磅嘉賓齊聚一堂,全面呈現 AI 領域的技術風向與應用前沿。

掃碼下方二維碼免費領取「2025 全球機器學習技術大會上海站」大會 PPT。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
軍校招生有新變化!4所軍校不再直接招生

軍校招生有新變化!4所軍校不再直接招生

大象新聞
2025-06-14 06:54:07
楊冪背Labubu粉色雙肩包很俏皮,她還背著隱藏款,她的漫畫腿好看

楊冪背Labubu粉色雙肩包很俏皮,她還背著隱藏款,她的漫畫腿好看

楊哥歷史
2025-06-13 17:14:13
力挽狂瀾,亞歷山大24中12砍35分3板3斷1帽,10罰10中&末節15分

力挽狂瀾,亞歷山大24中12砍35分3板3斷1帽,10罰10中&末節15分

懂球帝
2025-06-14 11:44:07
你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

娛樂圈人物大賞
2025-04-10 00:30:23
伊朗五年內第四次升起復仇旗!以色列復制“蛛網”行動

伊朗五年內第四次升起復仇旗!以色列復制“蛛網”行動

項鵬飛
2025-06-13 22:09:03
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
【感動全國人物】羅帥宇頒獎詞

【感動全國人物】羅帥宇頒獎詞

立德讀書
2025-06-13 10:42:52
土改中的訴苦:窮人苦是因為富人惡

土改中的訴苦:窮人苦是因為富人惡

尚曦讀史
2025-06-12 20:35:03
戰鷹轟鳴,烏軍3條戰線同時反擊,伊朗7員大將遭斬首

戰鷹轟鳴,烏軍3條戰線同時反擊,伊朗7員大將遭斬首

史政先鋒
2025-06-13 15:34:56
伊朗:導彈報復以色列150多個目標;伊媒:伊首次殲滅以隱形戰機

伊朗:導彈報復以色列150多個目標;伊媒:伊首次殲滅以隱形戰機

鳳凰衛視
2025-06-14 10:38:21
小米YU7已進入全國317家門店 7月上市 預計售25萬+

小米YU7已進入全國317家門店 7月上市 預計售25萬+

手機中國
2025-06-13 12:45:17
發現了沒有,凡是選擇燃油車的人,他們基本都有這三種情況

發現了沒有,凡是選擇燃油車的人,他們基本都有這三種情況

小嵩
2025-06-11 10:04:46
大連有一次較強降雨主要降水時段:15日、16日白天

大連有一次較強降雨主要降水時段:15日、16日白天

半島晨報
2025-06-14 09:45:54
爆冷奪2026年世界杯?安切洛蒂讓五星巴西重生,創造95年歷史紀錄

爆冷奪2026年世界杯?安切洛蒂讓五星巴西重生,創造95年歷史紀錄

體壇知道分子
2025-06-14 08:13:11
北控3換1報價胡明軒,新疆換外教,廣廈核心打野球,吳前續約1年

北控3換1報價胡明軒,新疆換外教,廣廈核心打野球,吳前續約1年

懂球社
2025-06-14 09:09:30
官方:英超針對“村超”裁判開設培訓課程,派出5名專業講師

官方:英超針對“村超”裁判開設培訓課程,派出5名專業講師

懂球帝
2025-06-13 16:36:15
自然資源部解答:一戶多宅、超面積、非集體成員取得宅基地等問題

自然資源部解答:一戶多宅、超面積、非集體成員取得宅基地等問題

愛看劇的阿峰
2025-06-01 06:56:34
土倫杯!4-3,沙特U23掀翻歐洲勁旅,昂首殺入決賽,或與法國爭冠

土倫杯!4-3,沙特U23掀翻歐洲勁旅,昂首殺入決賽,或與法國爭冠

側身凌空斬
2025-06-13 22:05:20
豐田又來“搞雙胞胎”?這次玩得有點狠,大漢蘭達都要慌了

豐田又來“搞雙胞胎”?這次玩得有點狠,大漢蘭達都要慌了

橙心說車
2025-06-12 08:24:17
以色列又動手了!伊朗進退兩難

以色列又動手了!伊朗進退兩難

明叔雜談
2025-06-13 11:52:28
2025-06-14 12:36:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

體育要聞

恭喜鄭欽文!世界排名升第4創新高

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

旅游
本地
房產
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 榆社县| 宁蒗| 苍山县| 尼木县| 新巴尔虎左旗| 广元市| 卓资县| 盐源县| 杭州市| 阿荣旗| 清苑县| 保山市| 波密县| 刚察县| 祁连县| 剑阁县| 漳州市| 亳州市| 桐乡市| 辽源市| 通辽市| 紫云| 四会市| 民县| 浮梁县| 常熟市| 古交市| 屯门区| 华蓥市| 通城县| 昆山市| 八宿县| 启东市| 波密县| 南陵县| 柏乡县| 兴海县| 桐城市| 兴义市| 福州市| 手游|