近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,360AI研究院(research.360.cn)在多模態生成和多模態理解方向的兩篇研究論文入選,為人工智能在智能內容生成、多模態視覺理解等關鍵領域提供了創新解決方案,填補行業技術空白。
作為計算機視覺領域的頂級學術會議,ICCV與CVPR(國際計算機視覺與模式識別會議)、ECCV(歐洲計算機視覺國際會議)并稱為計算機視覺領域的三大頂級會議。據了解,今年ICCV共收到11239份有效投稿,最終接受2698篇論文,錄用率為僅24%。
360所入選兩篇論文的研究成果,分別是可為AI裝上“空間規劃腦”的PlanGen模型,以及讓AI練就“火眼金睛”的LMM-Det模型。
PlanGen是行業首個能同時規劃物體布局并生成圖像的統一模型。從前AI在繪畫場景時通常是“閉著眼瞎畫”,缺乏空間規劃能力。但在PlanGen的加持下,大模型就可以先想清楚不同物件的空間擺放位置后,再落筆生成畫面。這種“先規劃后創作”的能力可讓圖像生成更加精準,使得AI能嚴格按空間邏輯呈現,誤差率比傳統方法降低40%。
LMM-Det則是AI領域首個不用額外插件就能精準定位照片中目標的多模態大模型。一直以來,包括GPT-4o在內多模態大模型都存在著一個通病——擅長對圖片內容進行描述,但在目標的精確定位上遠遠落后于專業小模型。而LMM-Det在保持多模態大模型圖片描述能力的同時,還將目前檢測準確率提升至專業模型的水平,能夠同時鎖定遠中近、大中小、動態及靜態、顯性區域與隱蔽角落內的各種目標,在識別效率上相較于傳統方案提升兩倍,開創行業技術先河。
作為國內大模型頭部廠商,360在國內較早布局人工智能大模型的研發。早在2022年,360就開源了第一代中文圖文跨模態模型R2D2,以及當時最大的中文圖文數據集Zero。2023至2024年間,360自研千億規模通用大模型“360智腦”,核心能力位居國內第一梯隊,所開源的BDM文生圖模型,也成為了國內第一個真正的原生中文繪畫模型并兼容SD社區插件。2025年,360開源了第二代圖文跨模態模型FG-CLIP,從根本上解決了CLIP模型的“近視問題”,其細粒度圖文對齊能力刷新了各項benchmark的SoTA記錄。
在智能體成為AI下半場的主角之時,今年6月,360為探索智能體應用的落地實踐,進一步發布了基于超級智能體技術打造的搜索產品——納米AI超級搜索,僅需用戶提出需求,便可依托超級智能體能力理解用戶意圖,打破各平臺的“信息圍墻”,直接調用復雜工具,全流程自動執行為用戶交付答案,為更多AI技術應用的廣泛落地提供路徑參考。
免責聲明:本文僅供參考,不構成投資建議。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.