機器之心報道
機器之心編輯部
AI 不允許有人不會搭樂高。
近日,CMU 助理教授朱俊彥團隊帶來了新研究 —— 基于文本生成 3D 樂高的大模型。
這款大模型有多強呢?比如輸入文本「基本款沙發」,一眨眼的功夫,樂高沙發就拼好了。
如果你覺得樂高沙發太簡單,可以繼續上難度,讓它生成一個復雜點的書架,只見不同大小的積木拼拼湊湊,樂高書架就完工了,整個流程像不像你在拼樂高:
不僅如此,生成的樂高還有紋理和顏色:
為了證明 AI 搭樂高的設計過程在現實生活中可用,研究人員讓機器臂組裝了由 AI 創建的 LEGO 模型,結果很完美。
接下來,我們看文章主要內容。
得益于生成模型和神經渲染技術,3D 生成模型已經取得了顯著進展,并在虛擬現實、游戲、娛樂和科學計算等領域實現了各種應用。比如,一些研究探索了從文本合成 3D 對象、為網格添加紋理以及操控現有 3D 對象和場景的形狀和外觀。
不過,應用現有方法創建現實世界中的對象仍然充滿挑戰。大多數方法側重于生成具有高保真幾何形狀和外觀的多樣化 3D 對象,但受限于兩個關鍵挑戰,這些數字設計往往無法在物理上實現。一是,這些對象可能難以使用標準組件來組裝或制作。二是,即使可以組裝,最終的結構也可能存在物理不穩定。如果沒有適當的支撐,設計的某些部分可能會坍塌、漂浮或保持分離狀態。
因此,朱俊彥團隊探討了生成物理可實現對象的挑戰,并在樂高(LEGO)設計環境中進行研究。樂高廣泛應用于娛樂、教育、藝術創作和制造原型。同時,由于所有標準組件很容易獲得,樂高可以作為可復現的研究基準。由于手動設計需要付出巨大努力,最近一些研究開發了自動化算法來簡化流程并生成了令人信服的結果。
然而,現有方法主要基于給定的 3D 對象創建樂高設計,或者專注于單一對象類別。本文的目標是開發一種方法,直接從自由格式的文本提示生成樂高設計,同時確保其物理穩定性和可搭建性。具體來說,研究者的目標是訓練一個生成模型,使其能夠生成具有以下特點的設計:
- 物理穩定性:構建在具有強大結構完整性的樂高底板上,不會出現積木漂浮或坍塌的情況。
- 可搭建性:與標準樂高積木兼容,并且能夠由人類或機器人逐塊組裝。
研究者提出了 LEGOGPT,其關鍵洞察在于將最初用于下一個 Token 預測的自回歸大型語言模型重新用于下一個積木預測。他們將樂高設計問題表述為一個自回歸文本生成任務,其中下一個積木的尺寸和位置用簡單的文本格式指定。而為了確保生成的結構既穩定又可搭建,研究者在訓練和推理過程中都強制執行物理感知的組裝約束。
在訓練過程中,研究者構建了一個包含物理穩定的樂高設計并配有字幕的大規模數據集。在自回歸推理過程中,研究者通過有效性檢查和物理感知回滾來執行可行性,以確保最終的 Token 符合物理定律和組裝約束。
- 論文標題: Generating Physically Stable and Buildable LEGO? Designs from Text
- 論文主頁:https://avalovelace1.github.io/LegoGPT/
- arXiv 地址:https://arxiv.org/pdf/2505.05469
- GitHub 地址:https://github.com/AvaLovelace1/LegoGPT
- Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo
實驗表明,本文生成的樂高設計穩定、多樣且視覺吸引力強,同時能夠完美契合輸入文本提示。本文方法優于預訓練的 LLM(無論是否包含上下文學習)以及以往基于網格 3D 生成的方法。
朱俊彥表示:LegoGPT 是邁向「物理對象生成制造」這一終極目標的一小步。當前版本仍存在局限:僅支持 20x20x20 的構建尺寸、21 種物體類別和基礎積木類型,但他們也在努力擴展其能力!
面對這么好玩的應用,網友紛紛求教程:
還有網友擔心,復雜的零件能不能完成啊?
方法介紹
數據集
訓練自回歸模型需要大規模數據集,因此,本文推出了 StableText2Lego,這是一個全新的大規模 LEGO 數據集,包含 47,000 多種不同的樂高結構,并涵蓋 ShapeNetCore 數據集中 21 個常見對象類別中的 28,000 多個獨特的 3D 對象。其概覽如圖 2 所示。
LegoGPT Pipeline
在實現方法上,本文提出了 LEGOGPT,這是一種能夠根據文本提示生成物理結構穩定的 LEGO 設計的方法。
該方法通過利用 LLM 的序列建模和文本理解能力,對預訓練 LLM 進行 LEGO 生成任務的微調。為了增強設計成品的結構穩定性和可搭建性,本文在推理過程中采用了逐塊拒絕采樣和物理感知回滾機制。圖 3 展示了本方法的整體框架。
模型微調:本文進一步使用自定義指令數據集對預訓練的 LLM 進行微調,該數據集包含來自 StableText2Lego 的文本提示及其對應的樂高結構。
預訓練基礎模型。本文使用 LLaMA-3.2-1B-Instruct 作為基礎模型,如圖 5 所示,基礎模型可以通過上下文學習生成類似 LEGO 的設計。
然而,生成的設計通常會遺漏某些物體部件,并且包含相交或斷開的積木,這使其在物理上不穩定且無法搭建。為了解決這些問題,本文使用數據集進一步微調了預訓練模型。
物理穩定性:盡管該模型基于物理穩定性數據進行了訓練,但有時生成的設計仍會違反物理和組裝約束。為了解決這個問題,該研究進一步將物理穩定性驗證納入自回歸推理中。
如果樂高結構在底板上搭建時不會倒塌,則該結構被認為是物理穩定的且可搭建的。為此,本文使用穩定性分析方法評估物理結構穩定性。圖 4 (a) 展示了施加在單個積木上的所有可能力。
LEGOGPT 推理算法如下:
樂高紋理和著色:顏色和紋理在創意樂高設計中也起著至關重要的作用。因此,本文提出了一種應用精細 UV 紋理或為單個積木分配統一顏色的方法。
實驗
圖 5 展示了一系列多樣化、高品質的 LEGO 設計,這些設計緊密遵循輸入提示。
本文選取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作為基線方法。如表 1 所示,本方法在所有指標上均超越基線方法。圖 5 直觀展示了本方法生成的樂高結構質量顯著優于基線方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.