99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態大語言模型空間智能新探索:單圖或一句話,生成3D建模代碼

0
分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者來自上海交通大學電子信息與電氣工程學院 i-WiN 中心團隊,團隊負責人是上海交通大學講席教授關新平。本文的第一作者為上海交通大學博士生王思宇,研究方向涉及多模態大模型、大模型的可靠生成及其工業應用。本文的通訊作者和主要指導老師為i-WiN中心陳彩蓮教授、樂心怡副教授和許齊敏副研究員。

計算機輔助設計(CAD)已經成為許多行業設計、繪圖和建模的標準方法。如今,幾乎每一個制造出來的物體都是從參數化 CAD 建模開始的。CAD 構造序列是 CAD 模型表示的一種類型,不同于 Mesh 類型的三角網格、B-rep 格式的點、線、面表示,它被描述為一系列建模操作,包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數和過程,以 JSON 代碼格式儲存和表示。這類表示方法與專業建模工程師構建 CAD 模型的過程最為近似,可以直接被導入 AutoDesk、 ProE 等建模軟件。構建這些 CAD 模型需要領域專業知識和空間推理能力,也需要較高的學習成本。



圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一,空間建模能力對 MLLM 提出了嚴峻的挑戰。盡管 MLLM 在生成 2D 網頁布局代碼等方面展現出了卓越的性能,這類方法在 3D 建模領域仍然存在問題,比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性,難以理解復雜數字背后真正的空間含義。



圖 2. 原始多模態大模型 3D 建模效果差原因分析

近期,來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態大語言模型 CAD-GPT,結合專門設計的 3D 建模空間定位機制,將 3D 參數映射到 1D 語言信息維度,提高了 MLLM 的空間推理能力,實現了基于單張圖片或一句話描述的精準 CAD 建模構造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題,被 AAAI 2025 接收。



  • 論文標題:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 論文地址:https://arxiv.org/abs/2412.19663
  • 項目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建模空間定位機制

我們把關鍵的 3D、2D 建模參數定義為大語言模型可以理解的建模語言,便于大模型理解和生成。具體來說,設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數。通過將全局空間 3D 坐標、草圖平面 3D 旋轉角度的特征展開到一維語言特征空間,將它們轉換為兩類不同的 1D 位置 tokens。此外,2D 草圖被離散化并轉換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時,納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入,以彌合語言和空間位置之間的差距。

數據集構建

基于 DeepCAD 數據集,生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應的自然語言描述數據集,構建專門用于訓練多模態大語言模型的 CAD 建模數據集,便于后續其他工作訓練大模型生成 CAD 模型建模序列。

訓練策略與細節

我們采用 LLaVA - 1.5 7B 版本作為基礎模型。訓練包括兩個階段:首先在 image2CAD 任務上進行訓練,然后在 text2CAD 任務上降低學習率進行微調。此外,因 CAD 建模序列長度較長,我們基于外推法,通過超參調整,擴展 LLM 的窗口長度到 8192。



圖 3. CAD-GPT 原理框架圖

實驗效果展示



圖 4. CAD-GPT 生成的各種 CAD 模型展示

圖 4 中的模型展示了包含精準語義草圖生成能力(如心形和字母 “E”)、帶有類別的 CAD 生成能力(如桌子、椅子和鑰匙)、空間推理能力(如桌子和相互垂直的圓柱體),以及生成不同尺寸的相同模型的能力(如三個有兩個圓孔的不同尺寸連接器)。

基于單張圖片的生成效果

將 CAD-GPT 與三種代表性方法進行了比較。第一個是 DeepCAD,它演示了 CAD 建模中的先進生成技術。第二個是 GPT-4,代表了閉源多模態大型模型的前沿。第三個是 Qwen2-VL-Max,這是領先的開源多模態大型模型之一。相比之下,CAD-GPT 產生的輸出既準確又美觀。



圖 5. 基于圖片的 CAD 生成效果對比



基于一句話描述生成效果展示

本文選擇了兩個有代表性的大型語言模型:領先的閉源模型 GPT-4 和最先進的開源模型 LLaMA-3.1(405B)。如圖 6 所示,我們的模型始終生成高精度、美觀的輸出,并且展示出了與文本描述對應的語義信息。



圖 6. 基于文本描述的 CAD 生成效果對比



消融實驗

圖 7 展示了是否添加 3D 建模空間定位機制訓練模型的差異。如圖所示,添加定位機制后,CAD-GPT 可以精準的推理空間角度、位置變化,以及生成準確的 2D 草圖。



圖 7. 消融實驗效果展示



總結

本文提出 CAD-GPT,一種具有三維建模空間定位機制的多模態大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現出卓越的性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炒空心菜,直接下鍋炒是大錯,教你飯店不外傳技巧,翠綠也不發黑

炒空心菜,直接下鍋炒是大錯,教你飯店不外傳技巧,翠綠也不發黑

秀廚娘
2025-06-15 18:10:16
資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

趣文說娛
2025-06-12 13:46:39
放任工作人員對詹姆斯冷嘲熱諷,還想老詹退役后為他們打工

放任工作人員對詹姆斯冷嘲熱諷,還想老詹退役后為他們打工

阿雄侃籃球
2025-06-15 23:31:52
殷桃問雷佳音:怎么不推薦我出演《長安的荔枝》?岳云鵬反應搞笑

殷桃問雷佳音:怎么不推薦我出演《長安的荔枝》?岳云鵬反應搞笑

行者聊官
2025-06-15 17:17:14
伊朗反對軍準備發起進攻!德黑蘭核設施遭受重擊

伊朗反對軍準備發起進攻!德黑蘭核設施遭受重擊

項鵬飛
2025-06-15 20:21:18
李夢因傷無緣亞洲杯大名單,本人發長文致謝:感謝祖國和國家隊,這不是終點

李夢因傷無緣亞洲杯大名單,本人發長文致謝:感謝祖國和國家隊,這不是終點

魯中晨報
2025-06-16 09:06:12
吳彥祖曬多張混血女兒合影!12歲吳斐然眉眼英氣,像爸爸也像媽媽

吳彥祖曬多張混血女兒合影!12歲吳斐然眉眼英氣,像爸爸也像媽媽

TVB的四小花
2025-06-16 11:51:10
馬筱梅降服小菻菻有一套,小菻菻對她的話深信不疑,汪小菲服了!

馬筱梅降服小菻菻有一套,小菻菻對她的話深信不疑,汪小菲服了!

鄭丁嘉話
2025-06-16 10:36:03
四川男子過度放縱18歲女兒,偷送成人禮物被母親撞見 ,釀成慘劇

四川男子過度放縱18歲女兒,偷送成人禮物被母親撞見 ,釀成慘劇

阿妹講故事
2025-03-16 21:06:48
高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

涵豆說娛
2025-06-14 09:06:48
TVB最強Body花旦恨放假罕曬泳裝照,身材Fit爆與17年前選港姐一樣

TVB最強Body花旦恨放假罕曬泳裝照,身材Fit爆與17年前選港姐一樣

粵睇先生
2025-06-16 12:41:57
賴昌星不再隱瞞,被捕后揭露與董文華的關系,難怪老藝術家會退圈

賴昌星不再隱瞞,被捕后揭露與董文華的關系,難怪老藝術家會退圈

小蓋紀實
2024-10-23 14:04:41
我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

黃家湖的憂傷
2025-06-11 16:58:32
快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

環球網資訊
2025-06-16 12:41:50
夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

特約前排觀眾
2025-06-10 00:05:09
李在明膽大敢為,徹底斬亂韓國動亂根源,歷屆總統不敢動,他不怕

李在明膽大敢為,徹底斬亂韓國動亂根源,歷屆總統不敢動,他不怕

獵火照狼山
2025-06-15 22:00:59
S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

火之文
2025-06-15 15:10:06
白巖松又出金句:60到80是最好的年齡!驚醒千萬中老年人!

白巖松又出金句:60到80是最好的年齡!驚醒千萬中老年人!

詩詞中國
2025-05-14 12:49:28
以色列和伊朗攤牌:中東面臨滑向更大沖突風險

以色列和伊朗攤牌:中東面臨滑向更大沖突風險

上觀新聞
2025-06-15 08:20:08
河南養老金調整將開始,歷年傾斜變化,工齡35年能漲100元嗎?

河南養老金調整將開始,歷年傾斜變化,工齡35年能漲100元嗎?

小嵩
2025-06-16 09:06:23
2025-06-16 13:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10642文章數 142339關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

郭富城官宣方媛懷三胎 拒絕透露性別

財經要聞

大廠搶灘的「穩定幣」,能火多久?

汽車要聞

前臉與N7相似 新一代日產軒逸假想圖曝光

態度原創

旅游
健康
家居
手機
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

家居要聞

遠行而歸 臺式極簡布局

手機要聞

iPhone 17 Pro發布三個月倒計時!12項配置升級:首次堆散熱、12GB內存

軍事要聞

伊朗最高領袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 遂溪县| 娄烦县| 广东省| 泾川县| 永德县| 孟津县| 四子王旗| 桂林市| 峡江县| 翁牛特旗| 台山市| 拜城县| 克山县| 兖州市| 镶黄旗| 德昌县| 白沙| 鄂托克前旗| 开阳县| 略阳县| 金平| 蒲江县| 云南省| 四平市| 方城县| 洛川县| 台北市| 黔西| 海原县| 大名县| 阜城县| 鄂尔多斯市| 宝清县| 清水县| 大方县| 陆河县| 剑阁县| 喀喇沁旗| 定结县| 安仁县| 惠安县|