你可能聽(tīng)說(shuō)過(guò) ChatGPT 會(huì)寫(xiě)詩(shī)、能編程、能畫(huà)畫(huà),但你見(jiàn)過(guò) AI 直接“拼”樂(lè)高積木嗎?
最近,卡內(nèi)基梅隆大學(xué)(CMU)的朱俊彥教授團(tuán)隊(duì)發(fā)布了一項(xiàng)炸裂的新研究:他們開(kāi)發(fā)出全球首個(gè)基于文本生成物理穩(wěn)定 LEGO 模型的大模型,取名——LegoGPT。
一句話總結(jié):
你說(shuō):“我想要一個(gè)賽博朋克風(fēng)格的樂(lè)高沙發(fā)。”
它就能輸出一個(gè)你能現(xiàn)實(shí)拼出來(lái)、不塌不歪的樂(lè)高沙發(fā),不僅你能搭,機(jī)器人也能拼!
LegoGPT 有多厲害?
LegoGPT 不像我們熟悉的那種圖像生成模型,它不是把你的提示“畫(huà)”出來(lái),而是直接生成樂(lè)高拼搭指令,一步一步告訴你要用哪塊積木、放在哪個(gè)位置、怎么搭不碎。
這項(xiàng)能力背后依賴兩個(gè)核心技術(shù)支撐:
位置精準(zhǔn)的積木預(yù)測(cè)系統(tǒng):像 GPT 預(yù)測(cè)“下一個(gè)詞”一樣,它預(yù)測(cè)“下一塊磚該放哪”;
物理感知回溯機(jī)制:每加一塊,系統(tǒng)都會(huì)判斷這塊是否穩(wěn)定、是否與其他積木沖突,如果有問(wèn)題,就立刻“撤銷”,重新選塊。
效果呢?
如果不加機(jī)制,只有 24% 的結(jié)構(gòu)能保持站立;
加了機(jī)制之后,模型生成結(jié)構(gòu)的穩(wěn)定率提升到驚人的 98.8%。
它是怎么做到的?
LegoGPT 的底層原理,其實(shí)借用了我們熟悉的自然語(yǔ)言處理模型——自回歸大模型(autoregressive model)。但它做的,不是“預(yù)測(cè)下一個(gè)詞”,而是“預(yù)測(cè)下一個(gè)積木塊的尺寸、顏色、坐標(biāo)位置”。
舉個(gè)例子:
如果你輸入“一個(gè)日式滑門(mén)書(shū)柜”,它就會(huì)開(kāi)始一步一步規(guī)劃:
地板用多大面積、放哪塊積木
框架和滑門(mén)結(jié)構(gòu)如何安插
最后檢查重心和連接點(diǎn)是否穩(wěn)定
只要某塊積木的位置不合理、力學(xué)不穩(wěn),它就會(huì)自動(dòng)“悔棋”,并嘗試新的搭法。這套機(jī)制非常接近人類設(shè)計(jì)師的搭建思路,但它的執(zhí)行效率和反復(fù)試錯(cuò)能力,遠(yuǎn)遠(yuǎn)超過(guò)人類。
數(shù)據(jù)是怎么訓(xùn)練出來(lái)的?
LegoGPT 并不是空手起家,它背后是一個(gè)名為 StableText2Lego 的超大數(shù)據(jù)集:
包含 47000 多種樂(lè)高結(jié)構(gòu)
涵蓋 ShapeNet 中 21 類常見(jiàn)物體(如椅子、桌子、床、沙發(fā)等)
每種結(jié)構(gòu)都附帶 說(shuō)明文字 + 穩(wěn)定性評(píng)分 + 拼搭路徑
這些積木結(jié)構(gòu)不是隨便拼拼,而是從真實(shí) 3D 對(duì)象建模,再轉(zhuǎn)換成樂(lè)高拼搭格式,還通過(guò) GPT-4o 自動(dòng)生成多角度圖像描述來(lái)訓(xùn)練模型。
因此,它不僅能搭出“形”,還能理解“語(yǔ)意”,比如“現(xiàn)代簡(jiǎn)約沙發(fā)”跟“巴洛克風(fēng)格沙發(fā)”,LegoGPT 是能區(qū)分出搭法的。
那它未來(lái)能干什么?
幫設(shè)計(jì)師生成創(chuàng)意結(jié)構(gòu)草圖
輔助樂(lè)高愛(ài)好者搭建原創(chuàng)作品
輔助教學(xué),比如空間感、力學(xué)原理、可視化表達(dá)等
甚至未來(lái)可以直接接入樂(lè)高 Studio 或 CAD 系統(tǒng),把 AI 生成的模型導(dǎo)出為數(shù)字說(shuō)明書(shū)或渲染模型,真正從“想法”直通“拼搭”。
一句話總結(jié):
這不只是一個(gè)“拼樂(lè)高”的 AI,而是一套能理解、生成、驗(yàn)證、搭建的多模態(tài)構(gòu)造模型系統(tǒng)。
如果說(shuō)圖像生成是 AI 幫你畫(huà)出夢(mèng)境,那 LegoGPT 就是 AI 在幫你把夢(mèng)拼出來(lái)了。
*資料來(lái)源:arxiv
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.