卡內基梅隆大學發布了開源項目LegoGPT,這是一種能夠基于文本描述自動生成實體樂高模型的新方法。在傳統樂高設計領域,相關研究通常側重于將已有的3D模型轉化為樂高作品,或者僅能處理特定類別的對象,難以滿足用戶通過自由文本直接創建樂高設計的需求。LegoGPT則突破了這些限制,例如,當用戶輸入“一座帶有尖塔和彩色玻璃的中世紀城堡”時,系統會首先規劃城堡的整體布局,包括主體結構、城墻、塔樓和尖塔的位置及形態,然后從各種積木中挑選合適尺寸和形狀進行搭建。對于彩色玻璃部分,該技術還會利用紋理和顏色生成手段,為積木賦予豐富多彩的視覺效果,最終完成一個既完整又穩定的實體樂高城堡模型。
開源地址:https://github.com/AvaLovelace1/LegoGPT/
傳統的大型語言模型通常應用于文本生成和自然語言理解領域,而研究人員創新性地將其應用于預測樂高積木的擺放順序。核心思路是將樂高設計問題轉換成一個自回歸的序列生成任務,通過簡潔的文本格式描述每塊積木的尺寸和位置。這樣的轉化不僅充分發揮了語言模型在序列生成上的優勢,還為樂高積木設計引入了一種新穎的、以文本為基礎的表達形式。
為了推動高質量模型的訓練,研究團隊構建了一個名為StableText2Lego的超大規模樂高設計數據集。該數據集收錄了超過47,000個多樣化的樂高結構,這些結構基于ShapeNetCore數據集中28,000多個獨特的三維物體,涵蓋21個常見類別。每個樂高設計不僅附帶了詳盡的文本描述,還包含用于評估其物理穩定性和可組裝性的穩定性評分。
具體來說,研究人員先將ShapeNetCore中的三維網格模型轉化成樂高結構,再將這些3D網格體素化到統一的20×20×20網格空間中以統一尺度。隨后,采用一種分割與合并相結合的樂高化算法,生成了具體的樂高積木布局方案。
為了提升數據的質量和多樣性,團隊在將3D模型轉換為樂高結構的過程中引入了隨機因素,使得同一個3D對象能夠生成多種不同的樂高設計。同時,他們采用了一種穩定性評估方法,對每個樂高結構的物理穩定性進行檢測,僅保留所有積木的穩定性評分均大于零的設計。
在模型訓練方面,LegoGPT是在LLaMA-3.2-1B-Instruct基礎上進行微調的,具備理解文本指令并生成相應樂高設計的能力。為了進一步提升模型表現,研究團隊還構建了一個專門用于指令微調的數據集,包含豐富的文本提示及對應的樂高結構樣例。
每個穩定的樂高設計及其對應的描述都會被整理成一條指令,格式為:“(用戶)根據{描述}創建一個樂高模型。(助手){Lego設計}。”通過這種示范,模型能夠學習如何將文本描述轉化為具體的樂高構造。
除了生成樂高結構,LegoGPT還具備為模型創建細致紋理和顏色的能力。它支持為每個積木塊賦予詳細的UV紋理或統一的色彩。對于給定的樂高模型及其網格表示,系統首先識別并剔除那些被相鄰積木完全覆蓋的塊,以提升處理效率。隨后,將剩余積木合并成一個整體網格,通過立方體投影技術生成UV映射。接著,利用一種基于文本的快速網格紋理生成工具FlashTex,根據文本提示自動創建貼圖。這不僅豐富了樂高模型的視覺表現,還能確保生成的紋理與用戶描述高度吻合。
LegoGPT發布后,短時間內就獲得了接近1000顆星的關注,展現出廣泛的應用潛力。在教育領域,教師能夠借助它根據教學內容快速生成多樣的樂高模型示例,幫助學生更形象地理解諸如歷史建筑結構或科學實驗裝置等復雜知識,從而激發學習興趣和創造力。在玩具設計行業,設計師通過LegoGPT可迅速將創意轉化為樂高模型原型,顯著縮短設計流程,提升效率,為市場帶來更多富有創意和趣味性的樂高玩具產品。
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.