尤其適用于機器人導航、自動駕駛等需要實時語義解析的空間智能場景。
本文為IPO早知道原創
作者|Stone Jin
據IPO早知道消息,特斯聯首席科學家、特斯聯國際總裁邵嶺博士及其合作團隊日前發布最新研究成果,提出了一種名為Laser的高效語言引導分割框架,為3D場景理解提供了輕量化、高精度的開放詞匯分割方案,推動了語言模型與神經輻射場融合的實用化進程。該框架尤其適用于機器人導航、自動駕駛等需要實時語義解析的空間智能場景,現已被人工智能領域權威學術期刊IEEE T-PAMI (CCF-A,IF 23.6)收錄。
這一研究成果在多個現實場景中具備重要的應用價值,特別是在需要高精度、高效率3D場景語義理解的領域。譬如:
在自動駕駛與機器人導航:
自動駕駛車輛和移動機器人需要實時理解周圍環境的3D結構與語義信息(如道路、行人、障礙物),以實現安全導航和決策。Laser的訓練時間僅需11分鐘(傳統方法需158分鐘),可快速構建3D語義地圖。同時,低秩注意力機制能精準識別道路邊緣、車道線等細粒度特征,避免模糊邊界導致的誤判。
在增強現實(AR)與虛擬現實(VR)領域:
AR/VR應用需將虛擬物體精準疊加到真實場景中,要求對3D空間語義有深刻理解。該方案能夠確保虛擬物體在不同視角下與真實場景的標注(如墻面、桌面)對齊,避免視覺穿幫;同時能夠區分相似顏色物體(如黑白鍵盤與黑色鼠標墊),提升虛擬物體放置的合理性。通過與3D高斯渲染技術(如3D-GS)相結合,該方案還能夠實現實時語義AR效果。
在城市規劃與建筑建模領域:
在城市數字化建模中,需對建筑物、植被、公共設施進行語義標注,輔助規劃決策。該研究成果支持對罕見物體(如古建筑裝飾、特殊標牌)的開放詞匯分割,豐富數據標注的覆蓋范圍;此外,基于Laser, 無需人工標注3D數據,通過多視圖圖像即可生成帶語義的3D模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.