網易首頁 > 網易號 > 正文申請入駐

CMU華人團隊研發LegoGPT，打造包含47000個樂高結構數據集

2025-05-10 17:44:13　來源: DeepTech深科技

北京舉報

分享至

被無數人喜愛的樂高（LEGO）也有自己的 GPT AI 模型了，它的名字就叫 LEGOGPT，其由美國卡內基梅隆大學助理教授朱俊彥團隊打造而來。

據了解，這是首個根據文本提示生成物理上穩定的 LEGO 積木模型的成果，也是首次將物理感知約束納入基于文本的 LEGO 生成的成果。

利用 LEGOGPT，研究團隊做出了日式滑動書柜。

也做出了賽博朋克風格的紫色沙發。

以及做出了一把吉他。

LEGOGPT 既能設計出與文本描述相匹配的 LEGO 結構，還能確保這些結構在現實世界中可以通過手工或機器人輔助實現逐塊搭建。

不同于以往人們嘗試的 LEGO 自主建模，LEGOGPT 能夠生成構建 LEGO 作品的詳細步驟說明，并且這些作品不會散架。

LEGOGPT 的工作原理是首先生成一序列位置精確的 LEGO 積木，對于序列中的每一塊新積木，系統都會確保它不會與現有的積木發生碰撞，并且能夠放入搭建空間之內。完成設計之后，LEGOGPT 會使用數學模型來驗證積木能否直立而不倒塌。

如果積木會在現實世界中倒塌，系統會識別出第一塊不穩定的積木并加以回溯，進而將它和所有后續積木移除，然后再嘗試不同的方法。這種“基于物理的回溯”方法至關重要，沒有它的時候只有 24% 的設計能保持站立，而有它的時候保持站立的比例高達 98.8%。

為了證明本次設計在現實生活中的可行性，研究人員讓機器臂組裝了由 AI 創建的 LEGO 模型。他們使用一個帶有力傳感器的雙機器人手臂系統，根據 AI 生成的指令來拾取和放置 LEGO 積木。

參加實驗的真人測試者也以手動方式構建了一些積木，這表明 AI 能夠生成真正可構建的模型。

該團隊在論文中指出：“我們的實驗表明，LEGOGPT 能夠生成穩定、多樣且美觀的 LEGO 設計，這些設計與輸入的文本提示高度一致。”其還證明本次方法優于已有的大模型骨干模型，也優于幾種最新的“文本到 3D”的生成方法。

在打造 LEGOGPT 的過程中，研究團隊構建了一個大規模、物理穩定的 LEGO 設計數據集，并提供了與之相關的說明文字。同時，他們還訓練了一個自回歸大模型，通過預測下一個 token 來預測下一塊要添加的積木。

為了提高設計的穩定性，他們在自回歸推理過程中采用有效性檢查和物理感知回退機制，利用物理定律和拼裝約束來剔除不可行的 token 預測。

目前，該團隊已經公布了數據集 StableText2Lego，其中包含超過 47,000 個 LEGO 結構，這些結構由超過 28,000 個獨特的 3D 對象組成，并附有詳細的說明文字。同時，代碼和模型已在 GitHub 上發布（https://avalovelace1.github.io/LegoGPT/）。

另據悉，除了朱俊彥是論文作者之外，相關論文中也有多位華人作者。

圖 | 朱俊彥（來源：https://www.cs.cmu.edu/~junyanz/）

圖 | 論文作者中包含多名華人作者（來源：arXiv）

能由真人或機器人實現逐塊拼裝

眾所周知，LEGO 已被廣泛用于娛樂、教育和藝術創作。由于所有標準組件均可被隨時獲取，因此它也可以作為一個可復現的研究基準。

由于手動設計需要耗費較大精力，故曾有人通過開發自動化算法來簡化流程并生成了不錯的結果。然而，此前方法主要基于給定的 3D 對象來創建 LEGO 設計，或者僅僅關注于單一的對象類別。

基于此，該團隊希望開發一種能夠直接根據文本提示生成 LEGO 設計、同時在設計上兼具物理穩定性和可搭建性的方法。

因此，他們認為需要訓練一個生成模型，并讓該模型能夠生成以下設計方案：首先，要具備物理穩定性，即基于 LEGO 基板構建出來的結構完整性強、無懸空或坍塌。其次，要具備可搭建性，即可以和標準 LEGO 積木兼容，并能由真人或機器人實現逐塊拼裝。

LEGOGPT 的核心思想是將原本用于下一個 token 預測的自回歸大模型重新用于下一個積木預測。研究團隊將 LEGO 設計問題表述為自回歸文本生成任務，其中下一塊積木的尺寸和擺放位置以簡單的文本格式指定。

為了確保生成的結構既穩定又可構建，他們在訓練過程和推理過程中都施加了考慮物理特性的拼裝約束。

在自回歸推理過程中，研究團隊通過有效性檢查和物理感知回退來確保可行性，以便確保最終的 token 符合物理定律和拼裝約束。

實驗表明，所生成的設計既穩定又多樣，并且具有視覺吸引力，同時符合輸入的文本提示。這種方法同時優于采用和不采用上下文學習的預訓練大模型，也優于此前基于網格 3D 生成的方法。

（來源：arXiv）

大規模 LEGO 數據集：包含 47,000 多種 LEGO 結構

研究人員在論文中表示，一般來說這類工作包含三個步驟：第一步，使用文本到圖像模型生成圖像。第二步，將圖像轉換為體素。第三步，在不考慮物理約束的情況下，使用啟發式方法創建物理 LEGO 積木模型。相比之下，在無需中間圖像或體素表示的情況下，本次方法也能執行文本到 LEGO 積木的任務。

由于訓練現代自回歸模型需要大規模的數據集，為此研究團隊推出了 StableText2Lego，這是一個全新的大規模 LEGO 數據集，包含 47,000 多種 LEGO 結構，涵蓋 ShapeNetCore 數據集中 21 個常見物體類別的 28,000 多個獨特 3D 物體。

研究中，他們選擇具有多樣性和獨特性的 3D 物體類別，同時排除那些類似長方體的物體。每個結構都配有一組文本描述和一個穩定性評分，該評分能夠衡量結構的物理穩定性和可建造性。

圖 | 數據集的構建過程（來源：arXiv）

為了獲取每個結構的說明文字，研究團隊從 24 個不同的視角渲染 LEGO 玩具，并將其組合成一張多視角圖像。然后，他們讓 GPT-4o 為這些渲染圖生成 5 種不同詳細程度的描述。

據了解，預訓練大模型在序列建模和自然語言理解方面表現十分出色，因此他們選擇了這類大模型。利用大模型能夠針對序列進行建模和理解文本的能力，研究團隊針對預訓練大模型進行了微調，以便用于 LEGO 生成任務。

而為了提高設計的穩定性和可構建性，他們在推理過程中采用了逐塊拒絕采樣和物理感知回退的方法。

（來源：arXiv）

與此同時，他們使用 LLaMA-3.2-1BInstruct 作為基礎模型。該模型經過微調之后，能夠針對指令提示給出連貫的答案，因此十分適用于基于文本的 LEGO 設計生成。同時，這一基礎模型還能通過上下文學習生成類似 LEGO 的設計。

雖然本次研究的主要關注點是生成 LEGO 形狀，但是在創意型 LEGO 設計中，顏色和紋理也發揮著至關重要的作用。因此，他們專門提出一種新方法，該方法既能讓單個積木擁有細致 UV 紋理，也能讓單個積木擁有統一的顏色。

兼具 UV 紋理和靚麗顏色

實驗中，研究人員使用 LLaMAMesh、LGM、XCube 和 Hunyuan3D-2 來從每個提示生成網格，然后通過“LEGO 化”將這些網格轉換為 LEGO 格式。

（來源：arXiv）

此外，他們將本次方法與預訓練模型進行比較，并將這些模型以零樣本和少樣本的方式加以評估。對于少樣本評估，研究團隊為模型提供了 5 個穩定的 LEGO 設計示例以及說明文字，并計算了所生成設計方案中的“穩定有效結構”所占的比例。

同時，對于每個有效結構，研究團隊都計算了其平均積木塊穩定性和最小積木塊穩定性得分。如下表所示，本次方法在這些指標上優于此前已有的基線方法。

（來源：arXiv）

在消融研究中，研究團隊展示了拒絕采樣和物理感知回退的重要性。如下圖所示，拒絕采樣消除了無效的積木，比如能夠消除那些發生了碰撞的積木。而回退則有助于確保最終生成的積木具備物理穩定性。

（來源：arXiv）

如前所述，他們還使用機器人組裝了這些由 AI 模型生成的 LEGO 設計。具體來說，機器人利用操縱策略和異步多智能體規劃器來操縱 LEGO 積木并構建結構。而且這些由 AI 模型生成的 LEGO 結構還可以進行人工組裝，因此它們在物理上確實是有效的。

圖 | 使用雙機器人臂系統進行自動組裝的過程（來源：arXiv）

下圖則展示了 LEGO 模型的 UV 紋理化和均勻著色結果，這證明本次方法能夠在保留底層幾何形狀的同時生成多種風格。

（來源：arXiv）

盡管本次方法優于已有方法，但是仍然存在一些局限性。

首先，由于計算資源有限研究團隊尚未探索最大的 3D 數據集，即本次方法僅限于在 21 個類別的 20×20×20 網格內生成設計。未來，他們將在更大、更多樣化的數據集上擴大模型訓練規模，以便提高對于分布外文本提示的泛化能力。

其次，本次成果目前僅僅支持一組固定的常用 LEGO 積木，未來他們計劃擴展積木庫，以便包含更廣泛的尺寸和積木類型，從而實現更復雜更多樣化的 LEGO 設計。

參考資料：

https://arxiv.org/pdf/2505.05469

https://www.cs.cmu.edu/~junyanz/

https://avapun.com/

https://www.linkedin.com/in/avapun/?originalSubdomain=in

https://avalovelace1.github.io/LegoGPT/

排版：初嘉實

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.