99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

分割/識別/解說一個模型搞定!3B參數刷新視覺理解SOTA

0
分享至

  • PAM團隊 投稿
    量子位 | 公眾號 QbitAI

可以輸出語義的「分割一切模型2.0」來了!

一次交互,「分割+識別+解釋+描述」全搞定,同時支持圖像、視頻和長視頻,文本&Mask同時輸出!

由港中文MMLab、港理工、北京大學等機構開源的PAM(Perceive Anything Model)模型,能夠在保留SAM2分割一切、追蹤一切能力的基礎上,同時輸出豐富的語義信息。



為了訓練這樣一個強大的模型,PAM團隊還構建了一個超大規模高質量訓練數據集:擁有150萬個圖像區域+60萬個視頻區域標注

實驗結果表明,PAM僅使用3B參數,就在多個圖像和視頻理解基準上全面刷新或逼近SOTA,且具備更優的推理效率和顯存占用,真正實現性能與輕量的統一。

所有數據均已完全開源



PAM:準確定位一鍵輸出

SAM2擁有強大的分割能力,可以“分割一切物體”,在視頻中能夠高效追蹤任意目標,表現驚艷!

但它也有一個明顯的局限:無法提供定位目標的任何語義信息(比如物體是什么、有何功能、處于什么狀態等)。

一些最新的Video LLM模型嘗試結合VLM和SAM2的強大視覺提示能力,進行視頻理解。然而:

  • 這些模型往往無法直接輸出分割結果,或需要額外接入segment模型,流程復雜;
  • 模型體量通常非常龐大,對計算資源要求高,不適用于輕量化、快速響應的實際場景(如AR/VR、移動端推理等)。



而PAM(Perceive Anything Model)既保留了SAM2在圖像和視頻中分割、追蹤一切物體的能力,同時可以輸出豐富的語義信息:

在圖像任務中,PAM支持一次點擊即可輸出選中區域的:

  • 類別(Label)
  • 解釋(Explain)
  • 精細描述(Caption)

在視頻任務中,PAM同樣支持區域理解:

  • 整段描述(Caption)
  • 流式描述(Streaming Caption):連續事件追蹤+動態敘述

只需要用戶的一次點擊,PAM就可以并行輸出mask和文本,在許多應用場景下都具有潛力!

效果展示:圖片/短視頻/長視頻



對于圖片,用戶通過或者拖拽矩形框選中一個物體,PAM可以完成分割的同時,輸出該物體的類別+解釋+描述的詳細語義信息!

對于較短視頻,用戶選中特定物體后,PAM可以追蹤并分割該物體,同時輸出該物體的事件描述

而對于長視頻,PAM在追蹤分割用戶選中物體的同時,會根據事件的變化,動態地輸出流式描述,類似實時字幕

工作原理:模型框架+數據集



PAM引入了Semantic Perceiver來連接SAM2分割骨架和LLM,高效地將視覺特征“翻譯”成多模態token

通過SAM2分割骨架+Semantic Perceiver+LLM并行解碼,在保證輕量高效的前提下,實現了分割mask和語義信息并行輸出的圖像/視頻區域級理解。

基于此方法,PAM只使用了1.5B/3B參數的LLM head,就可以輸出非常豐富和魯棒的語義信息。



為支撐PAM的訓練,構建了一個大規模、多層次、高密度的圖像與視頻語義標注數據集,覆蓋分類、解釋、描述、時序事件等多個維度:

圖像數據:精細三連注釋

使用SoM(Set of Masks)方法精準定位目標區域**,結合強大的閉源VLM(如GPT-4o)生成三類語義信息:

  • 類別(Label)
  • 解釋(Explain)
  • 描述(Caption)

每個物體不僅知道“是什么”,還能解釋“為什么”和“什么作用”。

視頻數據:Storyboard驅動式理解

  • 對每段視頻抽取6關鍵幀,合成為Storyboard格式的高分辨率圖像;
  • 使用SoM高亮目標區域,作為提示引導;
  • 利用閉源VLM進行多幀聯合推理,生成細節豐富、時間感知強的事件描述。

流式視頻數據:連貫事件字幕的首創實踐

  • 將長視頻切分為多個連續不重疊的事件片段
  • 每段片段重復Storyboard流程;
  • 并在生成描述時遞歸引入前一段文字內容,讓字幕連貫銜接,保證上下文一致性。

實驗分析:規模更小、性能更好



可以看到,PAM-3B在PACO基準測試中達到最佳性能,超過先前最佳模型3.2%以上,并在LVIS基準測試中,就語義IoU而言,超越了當前SOTA模型DAM-8B。

此外,PAM-3B在Total-Text上超過VP-SPHINX-13B超過3.5%,并在COCO-Text上達到相當的性能。



在ImageCaption、VideoCaption、視頻時序事件理解等多個benchmark上,PAM都以更小的參數規模(3Bvs8B、13B)刷新或并列SOTA



如圖所示,和相同參數量的DAM-3B模型相比,PAM-3B推理更快,顯存更省

此外,PAM首創了區域級的流式視頻字幕能力,不僅能持續描述一個物體的行為,還能在連續事件中保持高度語義一致性,展現了強大的實際應用潛力。

論文地址:https://arxiv.org/abs/2506.05302
項目主頁:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事關每個人!一覺醒來,所有桶裝水廠都要哭了…

事關每個人!一覺醒來,所有桶裝水廠都要哭了…

慧翔百科
2025-06-03 09:19:33
雷雨+大風+小冰雹!北京兩區發布雷電預警

雷雨+大風+小冰雹!北京兩區發布雷電預警

北青網-北京青年報
2025-06-15 17:00:02
【硬件資訊】NVIDIA補全中低端市場,顯存配置更合理的RTX 5060以及入門級5060曝光!還能再縮??

【硬件資訊】NVIDIA補全中低端市場,顯存配置更合理的RTX 5060以及入門級5060曝光!還能再縮??

電腦吧評測室
2025-06-14 22:06:25
清華高顏值女孩父親回應女兒直播:暫時不同意,但支持大學生創業,不能盲目瞎搞

清華高顏值女孩父親回應女兒直播:暫時不同意,但支持大學生創業,不能盲目瞎搞

魯中晨報
2025-06-15 13:38:04
張翰40歲扮高中生引爭議,網友:像復讀了十多年

張翰40歲扮高中生引爭議,網友:像復讀了十多年

梁獼愛玩車
2025-06-15 15:53:34
中方預判精準,貝森特剛回國就對華翻臉,還好我們留了一手

中方預判精準,貝森特剛回國就對華翻臉,還好我們留了一手

小虎新車推薦員
2025-06-16 00:19:30
西安查處5家醫院

西安查處5家醫院

西安觀察
2025-06-15 23:32:25
再見了,湖人!簽下3年新合同!NBA最強壯的大中鋒

再見了,湖人!簽下3年新合同!NBA最強壯的大中鋒

籃球實戰寶典
2025-06-15 18:08:10
41歲林丹近照曝光!擁有上億資產,全家定居國外,兒子國籍引爭議

41歲林丹近照曝光!擁有上億資產,全家定居國外,兒子國籍引爭議

洲洲影視娛評
2025-04-11 23:46:30
越南難以啟齒的特殊行業——破光師

越南難以啟齒的特殊行業——破光師

金哥說新能源車
2025-06-15 07:20:26
火力全開!中方不再好言勸:東風17超高音速導彈發射就位

火力全開!中方不再好言勸:東風17超高音速導彈發射就位

一個有靈魂的作者
2025-06-13 12:06:16
美國人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

美國人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

說說史事
2025-06-15 10:10:44
人民日報表揚3天后,惡心的一幕出現了,扁擔女孩被冒充官方出手

人民日報表揚3天后,惡心的一幕出現了,扁擔女孩被冒充官方出手

阿銍武器裝備科普
2025-06-14 17:39:20
一種錯誤的防曬方式,越來越多愛美女孩都在扎堆跟風嘗試

一種錯誤的防曬方式,越來越多愛美女孩都在扎堆跟風嘗試

言安堂
2025-06-14 08:33:40
12勝3負收官!中國U19男籃險勝雙殺美國球隊 張博源19+6+5

12勝3負收官!中國U19男籃險勝雙殺美國球隊 張博源19+6+5

醉臥浮生
2025-06-15 21:49:37
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
馬筱梅聽勸,父親節出游穿衣打扮顯樸素,與玥兒箖箖同框顯溫馨

馬筱梅聽勸,父親節出游穿衣打扮顯樸素,與玥兒箖箖同框顯溫馨

深析古今
2025-06-15 20:44:46
雷軍祝賀葉一飛:見證歷史,終于有中國人拿全場冠軍!葉一飛牛!

雷軍祝賀葉一飛:見證歷史,終于有中國人拿全場冠軍!葉一飛牛!

直播吧
2025-06-15 22:57:21
世俱杯0-4慘敗巴黎,馬競遭遇本賽季并列最大比分失利

世俱杯0-4慘敗巴黎,馬競遭遇本賽季并列最大比分失利

懂球帝
2025-06-16 05:23:02
伊朗發起新一輪導彈襲擊!以色列超200人死傷,一科學研究院起火!涉及核活動,伊朗最新通報

伊朗發起新一輪導彈襲擊!以色列超200人死傷,一科學研究院起火!涉及核活動,伊朗最新通報

每日經濟新聞
2025-06-15 12:39:06
2025-06-16 05:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10670文章數 176167關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

游戲
本地
親子
藝術
公開課

革命性的起點:外媒稱這7款PS游戲徹底改變游戲行業

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

如果有孩子告訴你遇到了壞人,請你一定要這么做!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 开封市| 嘉兴市| 花垣县| 宝清县| 阜宁县| 留坝县| 鹿邑县| 临夏县| 衡山县| 华宁县| 油尖旺区| 泾阳县| 弥勒县| 多伦县| 方山县| 溆浦县| 龙川县| 德令哈市| 临高县| 崇明县| 区。| 柯坪县| 长治市| 上杭县| 平谷区| 新乡县| 长泰县| 仁化县| 图木舒克市| 祁阳县| 嫩江县| 长乐市| 桓仁| 威海市| 平山县| 南华县| 监利县| 灌南县| 晋宁县| 赤城县| 封开县|