該項目由憶生科技聯合香港大學、上海科技大學共同完成,是全球首個同時支持文本描述、圖像、點云等多模態輸入的計算機輔助設計(CAD)生成大模型。
計算機輔助設計(Computer-Aided Design,簡稱 CAD)軟件是工業軟件的重要分支,也是工業設計流程中的核心工具。然而,目前的 CAD 軟件普遍缺乏簡易的交互工具,這在一定程度上限制了未曾接觸過 CAD 的用戶嘗試和探索的可能性。對于 CAD 建模從業者而言,多模態大模型技術的快速發展尚未充分轉化為 CAD 領域實際應用的便利性和效率提升。如果能夠通過多模態交互工具有效優化建模流程,提升效率、節約時間與精力,不僅可以進一步釋放專業用戶的創造潛能,還將為相關產業的發展注入新的活力。
為應對這一挑戰,項目團隊構建了首個覆蓋文本、圖像和點云輸入的多模態 CAD 數據集 Omni-CAD。該數據集致力于賦能多模態大語言模型,使其能夠基于條件輸入生成高質量的 CAD 模型。與此同時,針對 CAD 模型的拓撲質量、空間封閉性等核心屬性,團隊還設計了一系列創新的評估指標,為模型性能提供更全面的衡量標準。借助這一技術,用戶只需輸入簡單的文本指令,或上傳目標形狀的圖像,即可快速生成符合要求的 CAD 模型。這一突破不僅降低了非專業用戶的使用門檻,激發了更多人參與 CAD 設計的興趣,還為 CAD 建模從業者提供了高效可靠的工具支持。
論文標題:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM 論文鏈接: https://arxiv.org/pdf/2411.04954 項目主頁: https://cad-mllm.github.io/
計算機輔助設計(CAD)技術通過數字化工具,幫助設計師創建、修改和優化復雜對象,廣泛應用于工業設計與制造。但傳統的流程較為復雜,對專業知識有較高要求,導致非專業用戶難以參與設計。如何降低使用門檻,讓非專業人士通過簡單指令完成設計構想,已成為該領域亟待解決的挑戰之一。盡管之前一些工作已經在探索 CAD 的生成任務,但這些方法抑或難以滿足用戶對交互設計的需求,抑或只能針對特定的輸入進行生成,因此我們希望提供一個統一的框架能夠處理不同或多種輸入條件的 CAD 生成任務。
而另一方面,盡管多模態大模型(MLLMs)展現了跨模態生成的潛力,但在 CAD 領域依然面臨挑戰。尤其是在如何高效表征各種模態和 CAD 模型上,同時,數據集匱乏問題也一直是一大瓶頸。因此,我們提出了 CAD-MLLM,首個支持文本、圖像和點云三種模態及其組合模態輸入的以命令序列來表征的參數化 CAD 大模型,并搭配構建了一個超過 45 萬條數據的多模態 CAD 數據集 Omni-CAD,推進該領域的研究。
一、技術創新1.1 首個支持多模態輸入的參數化 CAD 生成多模態大模型
我們提出了一個能夠同時處理文本、圖像和點云,最多三種模態輸入數據的模型。圖像和點云輸入首先通過一個凍結的編碼器提取特征,經投影層對齊到大語言模型(LLM)的特征空間。隨后,將各種模態的特征進行整合,并利用低秩適應(LoRA)對 LLM 進行微調,實現基于多模態輸入數據的精確 CAD 模型生成。
1.2 首個多模態 CAD 數據集
為了支持模型訓練,我們設計了一套全面的數據構造和標注管道,構建了包含 45 萬條的多模態 CAD 模型數據集 Omni-CAD。每條數據包含對應的 CAD 模型構造命令序列,以及文本描述、8 個不同視角的圖像(下圖隨機挑其中 4 個視角展示)以及點云數據,極大地填補了 CAD 多模態數據資源的空白,也有助于推動 CAD 生成領域的進一步發展。
1.3 評估指標
在評估指標上,之前的工作更多聚焦在模型的重建質量和結構保真度上,而我們針對 CAD 模型的特性,基于最終生成的 CAD 模型的拓撲質量和空間封閉性,創新性地提出了四種量化指標。其中,Segment Error(SegE)檢測 CAD 模型節點連接分段的準確性,Dangling Edge Length (DangEL) 評估懸邊的比例來衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 檢測生成模型中的自相交面問題。而 Flux Enclosure Error (FluxEE) 則通過高斯散度原理,計算常矢量場穿過生成表面的通量,評估模型的空間封閉性。
二、 性能評估2.1 基于點云的 CAD 模型生成性能
我們與多個點云重建或者基于點云生成的基準工作進行比較,評測結果展示出我們的方法在重建精度上表現出色。而在拓撲完整性的評估上,我們模型生成的 CAD 模型大多數生成結果都能保持嚴格的流形結構,沒有出現懸邊,具有較高的拓撲完整性。相比之下,基準模型在重建結果中往往存在許多懸空邊緣(如圖中藍線所示)。
2.2 魯棒性測評
在基于點云生成 CAD 模型的比較實驗中,我們針對兩種受干擾的輸入數據的情況進行了測評:添加噪聲的點云數據及部分點缺失的點云數據。在從測試集中隨機挑選的 1000 個樣本上,使用 Chamfer Distance 來衡量生成結果,在兩種情況下,CAD-MLLM 的性能均優于基線工作,特別是在一些極端條件下,依然展現出了良好的性能。
2.3 多模態數據訓練必要性測評
我們通過三個實際場景來展示多模態數據訓練對于模型生成能力的輔助提升,1)裁剪的點云數據;2)帶有噪聲的點云數據;3)雙視角圖像輸入。以上三種情況,單一模態數據的訓練,會由于細節丟失或者視角限制使得輸入信息的不準確,進而導致生成結果的不完整或者不精準,而加入完整的模型的文本描述,可有效彌補未觀測到的部分,生成更為完整、精確的 CAD 模型。
作者:徐京偉,王晨宇 來源:公眾號【機器之心 】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線500+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.