99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視頻推理界的“福爾摩斯測試”:所有大模型,統統不及格 | 開源

0
分享至

金磊 整理自 凹非寺
量子位 | 公眾號 QbitAI

一個新的Benchmark,竟讓大模型在復雜視頻推理這事兒上統統不及格!

這就是騰訊ARC Lab和香港城市大學最新推出的Video-Holmes——

如其名,它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態大模型參與“推理殺人兇手”,“解析作案意圖”等高難度的推理任務,以展現他們復雜視頻推理能力的邊界。



而且Video-Holmes可以說是規避了現在業內已有的Benchmark痛點,即視頻源和問題都偏簡單,沒法反映推理模型和非推理模型之間的差距。

舉個例子。

在這個例子中,為了尋找男人真正的死因,模型需要主動思考需要關注的視覺信息,并通過邏輯關聯分散在不同視頻片段中的多個相關線索進行推理,最后發現男人的死因居然是:“過度使用超能力”?!



結果啊,測試的成績可謂是大跌眼鏡。

所有大模型,在各項測試中全部不及格

(SR代表社會推理;IMC意指意圖與動機鏈;TCI表示時間因果推理;TA時間線分析;MHR即多模態提示推理;PAR為物理異常推理;CTI代表核心主題推理。)



值得一提的是,這個Benchmark的“一鍵測評懶人包”,目前已經上線到了GitHub和HuggingFace,有做視頻推理相關的小伙伴,可以去挑戰一下了(地址見文末)。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的,現有視頻推理基準(如 VCR-Bench、MVBench 等)主要評估模型的視覺感知和接地能力。

大多數問題也是基于顯式提示或孤立視覺線索(如 “女人穿了什么”),無法模擬人類在現實中主動搜索、整合、分析多線索的復雜推理過程。

即使是較為前沿的模型,在這些基準上的提升也非常有限(如從 68.3% 到 69.4%),難以驗證模型的真實推理能力。

因此,團隊收集并人工標注了270部1-5分鐘的“推理短電影”,并設計了7種高推理要求的單選題,強迫模型提取,串聯多個散布在電影中的關鍵信息來推導出最終的真相。

值得注意的是,設計的問題是由DeepSeek來生成,并且也是由DeepSeek來評估的響應。



至于問題的類型(上文我們提及的幾大類型),具體的“打開方式”如下:



再深入到具體問題的回答,各個大模型回答結果如下(以SR和IMC為例):





測試結果顯示,即使強大入Gemini-2.5-Pro的閉源模型,也僅達到了45%的準確率。

并且Video-Holmes能夠反應推理模型和對應非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點!

除此之外,團隊進一步還分析了模型的推理過程,結果顯示,現有模型整體上能夠正確感知視覺信息,但它們普遍在線索串聯信息(推理能力)上欠缺,以及容易遺漏關鍵的視覺信息。

注:Video-Holmes的標注、構建、測試、推理過程分析的資料和代碼,以及論文全部都開源啦(見文末)~

如何“食用”?

大家若是想下載Video-Holmes,可以運行如下代碼:

gitclonehttps://github.com/TencentARC/Video-Holmes.gitcdVideo-Holmespip install huggingface_hubpython download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKENunzip Benchmark/videos.zip -d Benchmark/unzip Benchmark/annotations.zip -d Benchmark/

團隊還為基線模型提供了一體化的評估代碼:

python evaluate.py —model_name YOUR_MODEL_NAME —model_pathYOUR_MODEL_PATH(optional)

以及可支持的大模型名單如下:



還可以通過指定——model_path參數或實現以下函數來定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理過程分析

首先需要應用DeepSeek API密鑰,然后可以運行以下命令來分析模型的推理過程:

pythonevaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測試”

要為帶有注釋的視頻生成問題,你可以運行以下命令:

cdPipelinepython generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個新Benchmark如何?感興趣的話就快去試試吧~

HF Daily Paper:
https://huggingface.co/papers/2505.21374

Homepage:
https://video-holmes.github.io/Page.github.io/

Code:
https://github.com/TencentARC/Video-Holmes

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1992年上海5·29流氓案:四人當眾扒掉女子衣服,主犯被從輕判死緩

1992年上海5·29流氓案:四人當眾扒掉女子衣服,主犯被從輕判死緩

歷來都很現實
2025-05-30 16:52:35
1950年宋時輪在飯店,聽到老板的名字后對服務員說:我要見她!

1950年宋時輪在飯店,聽到老板的名字后對服務員說:我要見她!

紀實文錄
2025-05-14 15:59:11
中國隊喜獲“上上簽”,抽中兩大魚腩隊,力拼澳大利亞爭第一!

中國隊喜獲“上上簽”,抽中兩大魚腩隊,力拼澳大利亞爭第一!

綠茵舞著
2025-05-29 23:44:29
事前沒有任何征兆,大批解放軍突現臺海,只因2波不速之客登島?

事前沒有任何征兆,大批解放軍突現臺海,只因2波不速之客登島?

阿傖說事
2025-05-30 14:55:26
“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
工藝員竟成負責人!山東高密化工廠爆炸,要從源頭找原因了!

工藝員竟成負責人!山東高密化工廠爆炸,要從源頭找原因了!

匹夫來搞笑
2025-05-30 16:48:06
隨著鄭欽文2-0進法網16強后,產生了4個意想不到,還賺214萬獎金

隨著鄭欽文2-0進法網16強后,產生了4個意想不到,還賺214萬獎金

侃球熊弟
2025-05-30 18:43:53
聯合國:加沙援助不能沒我,以色列:你才是問題...

聯合國:加沙援助不能沒我,以色列:你才是問題...

移光幻影
2025-05-28 07:44:48
鄭欽文大戰姆博科!CCTV5直播時間大變,別錯過!

鄭欽文大戰姆博科!CCTV5直播時間大變,別錯過!

商城鳳笙
2025-05-30 09:40:43
埃及下場,與以色列發生交火

埃及下場,與以色列發生交火

文雅筆墨
2025-05-29 10:06:48
鼓勵學生相互舉報,是一個危險信號

鼓勵學生相互舉報,是一個危險信號

末名先生
2025-05-29 15:34:15
媒體人:周琦全運600萬合同是遼寧籃協副會長透露,因為待遇問題未能說服周琦

媒體人:周琦全運600萬合同是遼寧籃協副會長透露,因為待遇問題未能說服周琦

雷速體育
2025-05-30 16:43:13
32隊爭10億美元!世俱杯奪冠賠率:皇馬領跑+曼城排第2 巴薩缺席

32隊爭10億美元!世俱杯奪冠賠率:皇馬領跑+曼城排第2 巴薩缺席

風過鄉
2025-05-30 08:24:19
曾攀附省委原書記的楊慧,貪婪腐化、大搞權錢交易

曾攀附省委原書記的楊慧,貪婪腐化、大搞權錢交易

政知新媒體
2025-05-30 10:36:55
新加坡羽毛球公開賽:陳雨菲2-0安洗瑩晉級四強,終結對手27連勝

新加坡羽毛球公開賽:陳雨菲2-0安洗瑩晉級四強,終結對手27連勝

懂球帝
2025-05-30 14:26:14
離譜!香港男子在香港銀行借出數百萬元移民英國開啟新生活?還在網上炫耀永不還錢!香港網友:人無恥便無敵

離譜!香港男子在香港銀行借出數百萬元移民英國開啟新生活?還在網上炫耀永不還錢!香港網友:人無恥便無敵

澳門月刊
2025-05-29 09:33:23
“昨天上牌今天賣”“價格僅為新車的75%”,消費者撿漏“零公里二手車”,價格誘惑和權益風險如何抉擇?

“昨天上牌今天賣”“價格僅為新車的75%”,消費者撿漏“零公里二手車”,價格誘惑和權益風險如何抉擇?

華夏時報
2025-05-30 13:54:09
G5步行者94-111尼克斯,賽后4壞消息,哈利伯頓與球隊曝隱患!

G5步行者94-111尼克斯,賽后4壞消息,哈利伯頓與球隊曝隱患!

籃球資訊達人
2025-05-30 12:15:29
歐爾班強調:匈牙利反對烏克蘭加入歐盟

歐爾班強調:匈牙利反對烏克蘭加入歐盟

參考消息
2025-05-30 11:26:08
老美送大禮!3400留學生加速東流,哈佛校長直言“為中國做嫁衣”

老美送大禮!3400留學生加速東流,哈佛校長直言“為中國做嫁衣”

南生今世說
2025-05-30 11:21:15
2025-05-30 19:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10595文章數 176158關注度
往期回顧 全部

科技要聞

理想真正硬仗是i8/i6!要如何迎戰小米YU7

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

手機
家居
教育
公開課
軍事航空

手機要聞

蘋果單周份額蟬聯榜一:iPhone16 Pro單周激活近80萬

家居要聞

原木純白 邂逅自然本真

教育要聞

德州市齊河縣教體局:創新心理健康教育模式,心理+藝體融合課程探索

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

金正恩:朝鮮炮兵部隊具備實戰能力

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁陕县| 景宁| SHOW| 甘德县| 霍邱县| 翁牛特旗| 府谷县| 宜春市| 鹰潭市| 漳浦县| 柳江县| 万荣县| 盐池县| 柏乡县| 武义县| 林周县| 阳原县| 兰溪市| 潮州市| 江门市| 鞍山市| 依兰县| 宣城市| 龙口市| 英山县| 沂水县| 万安县| 馆陶县| 邢台市| 天柱县| 青铜峡市| 凉山| 阿拉尔市| 洛浦县| 横山县| 商河县| 栾川县| 宿迁市| 柳河县| 房产| 高要市|