新智元報道
編輯:peter東 英智
【新智元導讀】如何將一句簡單的文字描述變成物理穩定的樂高模型?LegoGPT通過物理感知技術,確保98.8%的設計穩如磐石。
輸入一段文字,AI就能設計出可實際搭建的樂高?
來自CMU的研究人員提出的LegoGPT徹底改變了游戲規則。
只需輸入「金屬紫色電吉他」,AI就能生成一個不僅外形逼真,還能在現實中穩穩站立的樂高模型!
不同于傳統3D建模工具生成的,LegoGPT通過微調Meta的LLaMA模型,結合47,000個穩定結構數據集,確保98.8%的設計符合物理定律。
LegoGPT是第一個能夠將文本輸入轉換為物理穩定的樂高設計的AI模型。
目前,數據集、代碼和模型均已開源。
論文地址:https://www.arxiv.org/abs/2505.05469
項目地址:https://avalovelace1.github.io/LegoGPT/
不同于那些會為了迎合你輸入的請求而生成奇怪(且不穩定)設計的 AI 生成器,LegoGPT的設計遵循物理定律,這意味著。
LegoGPT不僅設計了與文本描述(提示詞)相匹配的樂高模型,還確保它們可以在現實世界中逐塊搭建,無論是人類測試者通過手工搭建,還是借助機器人輔助構建。
搭建高背椅子的樂高過程
圖1:生成的樂高模塊,經過帶有力傳感器的雙臂機器人系統,根據 AI 生成的指令來拾取和放置積木,最終組成完成的樂高成品
LegoGPT生成的樂高組件,不止包含了具體的結構,還能按照提示詞,包含噴漆機紋理圖案。
圖2:LegoGPT生成的樂高組件
生成帶有提示詞紋理圖案的樂高組件
LegoGPT根據提示詞金屬紫色電吉他,生成的樂高組件是吉他形狀,并且下部為紫色
LegoGPT相比之前生成3D建模的工具,其最大的優勢在于其生成的結構是穩定的。
許多現有的 3D 生成模型專注于創建具有詳細幾何形狀的多樣化物體,但其生成的設計往往無法物理實現。
沒有適當的支撐,設計的一部分可能會坍塌、漂浮或保持斷開狀態。
而使用LegoGPT生成的設計98%的時間是物理穩定的。
突破傳統3D建模局限
LegoGPT怎么做到給出穩定設計的?
首先,LegoGPT的微調了Meta的一個開源大模型LLaMA-3.2-1B-Instruct,為了訓練模型,團隊構建了一個名為StableText2Lego的新數據集。
其中包含超過47,000個穩定的樂高結構,28000個獨特的3D對象,其中每一個都由OpenAI的GPT-4o生成描述性標題,例如「流線型」「細長的船」或「具有醒目前格柵的經典風格汽車」這樣的描述以及對應的3D樂高組件。
圖3:a)統將 LEGO 設計分割成一系列文本標記,以從下到上的光柵掃描方式排序,b)將磚塊序列與描述配對,以微調 LLaMA-3.2-Instruct-1B。c)在推理時,LegoGPT 通過根據文本提示逐個預測磚塊來增量生成LEGO設計
每個結構都經過了物理分析,以確保它可以在現實世界中建造。
此外,LegoGPT團隊使用了一個獨立的軟件工具來增強積木預測模型,該工具可以使用模擬重力和結構力的數學模型來驗證物理穩定性。
圖4:考慮樂高重力和結構力的物理模型,以預測樂高組件拼接后的穩定性
LegoGPT作為第一個預訓練LLM,該模型不是預測下一個詞,而是逐步預測要添加的下一個積木,從而逐步搭建出一個完整的由樂高組成的世界。
LegoGPT會通過首先生成一系列精確放置的樂高積木來工作。
對于序列中的每個新積木,系統確保它不會與現有積木碰撞,并且能夠適應建筑空間。
完成設計后,它使用上述數學模型來驗證模型能夠直立而不倒塌。
如果LegoGPT生成的模型在實際搭建中部分組件倒塌,系統也會識別出第一個不穩定的積木并回溯,移除它以及所有后續積木,然后嘗試不同的方法。
這種具有物理感知的回滾方法被證明是LegoGPT的要點。沒有它,只有24%的設計能夠站立,而使用完整系統時,成功率則有98.8%。
圖5:LegoGPT生成的不穩定組件,在回滾中被去除
樂高不只是一個玩具,LegoGPT的用途,也遠遠不止加速新一代樂高玩具的設計,把樂高店里的玩具價格打下來。
LegoGPT展示出的技術實力,有著現實用途。
能夠設計出穩定的樂高組件,也就能讓大模型設計出可以3D打印的組件,再由機器人將這些組件拼接成具有現實功能的工具,例如無人機,無人駕駛的船只及模型車,這些在技術上,是一脈相承的。
LegoGPT中對于物理模型,以及不穩定組件的回滾,使其能夠成為第一個具有極高可靠率,能產生穩定3D結構的預訓練模型。
當然,LegoGPT仍存在一些局限性。
當前的LegoGPT版本僅在20×20×20的建筑空間內工作,并且僅使用八種標準積木類型。
LegoGPT目前支持一組固定的常用樂高積木,在未來工作中,LegoGPT的研究團隊計劃擴展積木庫,以包含更廣泛的尺寸和積木類型,例如斜坡和地磚。
研究人員希望擴大他們的訓練數據集,以包含比目前可用的21個類別更多的對象。
作者介紹
Kangle Deng
Kangle Deng是卡內基梅隆大學(CMU)機器人研究所的博士生,由Deva Ramanan和Jun-Yan Zhu的共同指導。 此前,他于2020年獲得北京大學學士學位。
Kangle Deng的研究方向主要為計算機輔助創作,目前的研究工作得到了微軟研究院博士獎 學金的支持。
Ruixuan Liu
Ruixuan Liu卡內基梅隆大學(CMU)計算機學院機器人研究所的博士生,導師是智能控制實驗室的Changliu Liu教授。
他的研究方向為機器人學習/控制、生成式制造以及人機協作。
Ruixuan Liu在卡內基梅隆大學(CMU)獲得了電氣與計算機工程學士學位,輔修機器人技術。
本科期間,他在Sebastian Scherer教授領導的AirLab實驗室工作,工作重點是用于建筑結構檢測的傳感器融合和三維重建。
參考資料:
https://arxiv.org/html/2505.05469v1
https://arstechnica.com/ai/2025/05/new-ai-model-generates-buildable-lego-creations-from-text-descriptions/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.