99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視頻推理界的“福爾摩斯測試”:所有大模型,統統不及格 | 開源

0
分享至

金磊 整理自 凹非寺
量子位 | 公眾號 QbitAI

一個新的Benchmark,竟讓大模型在復雜視頻推理這事兒上統統不及格!

這就是騰訊ARC Lab和香港城市大學最新推出的Video-Holmes——

如其名,它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態大模型參與“推理殺人兇手”,“解析作案意圖”等高難度的推理任務,以展現他們復雜視頻推理能力的邊界。



而且Video-Holmes可以說是規避了現在業內已有的Benchmark痛點,即視頻源和問題都偏簡單,沒法反映推理模型和非推理模型之間的差距。

舉個例子。

在這個例子中,為了尋找男人真正的死因,模型需要主動思考需要關注的視覺信息,并通過邏輯關聯分散在不同視頻片段中的多個相關線索進行推理,最后發現男人的死因居然是:“過度使用超能力”?!



結果啊,測試的成績可謂是大跌眼鏡。

所有大模型,在各項測試中全部不及格

(SR代表社會推理;IMC意指意圖與動機鏈;TCI表示時間因果推理;TA時間線分析;MHR即多模態提示推理;PAR為物理異常推理;CTI代表核心主題推理。)



值得一提的是,這個Benchmark的“一鍵測評懶人包”,目前已經上線到了GitHub和HuggingFace,有做視頻推理相關的小伙伴,可以去挑戰一下了(地址見文末)。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的,現有視頻推理基準(如 VCR-Bench、MVBench 等)主要評估模型的視覺感知和接地能力。

大多數問題也是基于顯式提示或孤立視覺線索(如 “女人穿了什么”),無法模擬人類在現實中主動搜索、整合、分析多線索的復雜推理過程。

即使是較為前沿的模型,在這些基準上的提升也非常有限(如從 68.3% 到 69.4%),難以驗證模型的真實推理能力。

因此,團隊收集并人工標注了270部1-5分鐘的“推理短電影”,并設計了7種高推理要求的單選題,強迫模型提取,串聯多個散布在電影中的關鍵信息來推導出最終的真相。

值得注意的是,設計的問題是由DeepSeek來生成,并且也是由DeepSeek來評估的響應。



至于問題的類型(上文我們提及的幾大類型),具體的“打開方式”如下:



再深入到具體問題的回答,各個大模型回答結果如下(以SR和IMC為例):





測試結果顯示,即使強大入Gemini-2.5-Pro的閉源模型,也僅達到了45%的準確率。

并且Video-Holmes能夠反應推理模型和對應非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點!

除此之外,團隊進一步還分析了模型的推理過程,結果顯示,現有模型整體上能夠正確感知視覺信息,但它們普遍在線索串聯信息(推理能力)上欠缺,以及容易遺漏關鍵的視覺信息。

注:Video-Holmes的標注、構建、測試、推理過程分析的資料和代碼,以及論文全部都開源啦(見文末)~

如何“食用”?

大家若是想下載Video-Holmes,可以運行如下代碼:

gitclonehttps://github.com/TencentARC/Video-Holmes.gitcdVideo-Holmespip install huggingface_hubpython download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKENunzip Benchmark/videos.zip -d Benchmark/unzip Benchmark/annotations.zip -d Benchmark/

團隊還為基線模型提供了一體化的評估代碼:

python evaluate.py —model_name YOUR_MODEL_NAME —model_pathYOUR_MODEL_PATH(optional)

以及可支持的大模型名單如下:



還可以通過指定——model_path參數或實現以下函數來定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理過程分析

首先需要應用DeepSeek API密鑰,然后可以運行以下命令來分析模型的推理過程:

pythonevaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測試”

要為帶有注釋的視頻生成問題,你可以運行以下命令:

cdPipelinepython generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個新Benchmark如何?感興趣的話就快去試試吧~

HF Daily Paper:
https://huggingface.co/papers/2505.21374

Homepage:
https://video-holmes.github.io/Page.github.io/

Code:
https://github.com/TencentARC/Video-Holmes

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么中國消費者寧愿買蘋果,不愿買國產高端,原因很現實

為什么中國消費者寧愿買蘋果,不愿買國產高端,原因很現實

大衛聊科技
2025-06-05 12:01:46
俄軍猛烈報復,烏克蘭3個地區被變成停尸房:數十名德國軍官被殺

俄軍猛烈報復,烏克蘭3個地區被變成停尸房:數十名德國軍官被殺

書中自有顏如玉
2025-06-05 10:01:59
損失3.45億,東契奇暴瘦亮相!名記披露湖人3大計劃:極具侵略性

損失3.45億,東契奇暴瘦亮相!名記披露湖人3大計劃:極具侵略性

鍋子籃球
2025-06-05 12:07:56
世預賽!1-0大冷門,世界第55掀翻伊朗,晉級第四階段比賽

世預賽!1-0大冷門,世界第55掀翻伊朗,晉級第四階段比賽

側身凌空斬
2025-06-06 04:19:59
凌晨罕見視頻曝光,中國公開擊落敵機,對手是誰引猜測不斷

凌晨罕見視頻曝光,中國公開擊落敵機,對手是誰引猜測不斷

一個有靈魂的作者
2025-06-05 15:45:06
左膀右臂打鐵,亞歷山大38+5+3,雷霆造27年神跡,仍被步行者逆轉

左膀右臂打鐵,亞歷山大38+5+3,雷霆造27年神跡,仍被步行者逆轉

釘釘陌上花開
2025-06-06 11:07:15
回應特朗普取消合同威脅,馬斯克稱即刻退役“龍”飛船

回應特朗普取消合同威脅,馬斯克稱即刻退役“龍”飛船

界面新聞
2025-06-06 07:02:45
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追咎!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追咎!

漣漪讀史
2025-06-04 09:00:16
C羅6粒金子進球助葡萄牙4進決賽,不愧為葡萄牙歷史第一人!

C羅6粒金子進球助葡萄牙4進決賽,不愧為葡萄牙歷史第一人!

田先生籃球
2025-06-05 10:44:30
演員陳學冬,右腳被貨車碾碎,3年不停在手術,微博內容已清空

演員陳學冬,右腳被貨車碾碎,3年不停在手術,微博內容已清空

史書無明
2025-06-04 22:21:51
三亞被咬女子后續:咬傷位置很奇怪,網友:除非把腳趾伸蛇嘴

三亞被咬女子后續:咬傷位置很奇怪,網友:除非把腳趾伸蛇嘴

奇思妙想草葉君
2025-06-05 18:22:57
71歲伊萬即將下課!倒計時5天+中國足協無需支付違約金 坑慘國足

71歲伊萬即將下課!倒計時5天+中國足協無需支付違約金 坑慘國足

念洲
2025-06-05 23:48:06
亞歷山大爆發,全隊防守升級,NBA總決賽,雷霆領先步行者!

亞歷山大爆發,全隊防守升級,NBA總決賽,雷霆領先步行者!

郝小小看體育
2025-06-06 09:40:36
沈伯洋遭制裁跳腳急喊提告!侯漢廷批: “臺獨”雙標還愛自導自演

沈伯洋遭制裁跳腳急喊提告!侯漢廷批: “臺獨”雙標還愛自導自演

海峽導報社
2025-06-06 09:31:10
凌晨罕見畫面曝光,中國公開擊落敵機,對手到底是誰引猜測不斷

凌晨罕見畫面曝光,中國公開擊落敵機,對手到底是誰引猜測不斷

暖心的小屋
2025-06-06 01:15:52
斯瓦泰克不滿主裁查看球印標準不一:只要薩巴倫卡要求,他就會看

斯瓦泰克不滿主裁查看球印標準不一:只要薩巴倫卡要求,他就會看

懂球帝
2025-06-06 01:53:29
祝賀!烏茲別克、約旦、韓國晉級世界杯,世界杯48強已確定10席

祝賀!烏茲別克、約旦、韓國晉級世界杯,世界杯48強已確定10席

直播吧
2025-06-06 04:26:15
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

林子說事
2025-06-05 14:47:59
女網紅違停后不滿處罰跳上警車,警方通報:拘!

女網紅違停后不滿處罰跳上警車,警方通報:拘!

環球網資訊
2025-06-06 10:11:15
2025-06-06 11:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176162關注度
往期回顧 全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%!

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

段奧娟:告別舒適圈,擁抱無限可能

財經要聞

娃哈哈“體外”迷局待解

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

藝術
房產
旅游
教育
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

重磅宅地開賣!海口這個超級城更,全面開動!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2025高考人數八年來首降,但教育內卷拐點何時到來?|商業微史記

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 华亭县| 湟源县| 松阳县| 石棉县| 大化| 黑龙江省| 惠水县| 金湖县| 自贡市| 平和县| 徐闻县| 永清县| 扬州市| 永昌县| 儋州市| 麦盖提县| 昌宁县| 卓尼县| 同心县| 博乐市| 伊宁县| 西充县| 中山市| 金山区| 乌恰县| 鹿邑县| 扎兰屯市| 安康市| 井冈山市| 邯郸县| 安乡县| 安泽县| 小金县| 哈尔滨市| 天气| 佛山市| 鹿泉市| 东源县| 肇州县| 昌宁县| 琼中|