想象一下,如果你要測試一個朋友是否真的理解了一部兩小時的電影,你會怎么做?你可能會問他一些需要前后串聯思考的問題,比如"為什么主角最后選擇原諒了反派?"這樣的問題需要他回憶電影開頭的鋪墊、中間的轉折,以及最后的情感升華。現在,人工智能領域也面臨著類似的挑戰——如何測試AI是否真的能像人類一樣理解長視頻中的復雜故事情節?
這項由上海人工智能實驗室、南京大學和中科院深圳先進技術研究院聯合完成的研究,于2025年6月發表,為我們帶來了全球首個專門測試AI長視頻推理能力的評估平臺——VRBench。這就像是給AI設計了一套"電影理解能力考試",不僅要看AI能否看懂單個畫面,更要測試它能否像偵探一樣,將分散在整部影片中的線索串聯起來,推理出復雜的因果關系。
在當今這個視頻內容爆炸的時代,我們每天都在觀看各種視頻,從短視頻到長電影,從紀錄片到體育賽事。而AI技術也在快速發展,許多AI模型已經能夠理解圖片和短視頻,但當面對需要長時間跨度推理的復雜視頻時,它們往往表現得像是患了"健忘癥"的觀眾——能看懂眼前的情節,卻難以將前后內容有機結合進行深度思考。
這項研究的重要性就在于此。研究團隊發現,現有的AI評估方法就像是只測試學生能否認字,卻不測試他們能否理解整篇文章的含義。大多數現有評估平臺要么專注于單純的視覺識別(比如"畫面中有幾個人?"),要么只測試需要特定領域知識的問題(比如數學或科學),而忽略了一個關鍵能力:基于故事情節進行多步驟推理。
VRBench的誕生填補了這個重要空白。它包含了1010個精心篩選的長視頻,平均時長達到1.6小時,涵蓋8種不同語言和7種視頻類型,從電影到體育賽事,從游戲解說到旅行日志。研究團隊還為這些視頻標注了9468個需要多步推理的問答對,以及超過30000個詳細的推理步驟。這就像是為AI準備了一個包含上千部電影的"理解力測試庫",每部電影都配有8-10個需要深度思考的問題。
一、建立AI的"電影理解力考試"——VRBench的創新設計
想象你要為朋友設計一套測試,來檢驗他們是否真的看懂了一部復雜的懸疑電影。你不會問"主角穿什么顏色的衣服"這樣簡單的觀察題,而會問"為什么主角在第二幕做出了那個關鍵決定?"這樣的問題需要觀眾記住開頭的鋪墊,理解中間的轉折,并將這些信息串聯起來進行推理。
VRBench正是基于這樣的思路設計的。與傳統的AI評估方法不同,VRBench不滿足于測試AI能否識別畫面中的物體或人物,而是要測試AI能否像一個優秀的影評人一樣,深度理解視頻中的故事邏輯和人物動機。
研究團隊首先面臨的挑戰是如何收集合適的測試材料。他們從YouTube上收集了超過10000個公開視頻,但并非所有視頻都適合用來測試推理能力。就像選擇考試題目一樣,他們需要的是那些情節豐富、邏輯清晰的"好故事"。經過多輪篩選,他們最終選定了1010個高質量的敘事性視頻。
這些視頻有個特別之處:它們都不是英文或中文的。這個選擇看似奇怪,實際上非常聰明。研究團隊解釋說,現有的AI評估大多偏向英文和中文內容,這可能讓AI在某種程度上"作弊"——依賴于在訓練時見過的類似內容,而不是真正理解視頻邏輯。選擇其他語言的視頻,就像給學生一份全新的考試題目,能更公正地測試他們的真實理解能力。
為了確保視頻質量,研究團隊組織了14位多語言專家,像電影評委一樣對每個候選視頻進行10分制評分。他們主要考察兩個標準:情節的連貫性和內容的豐富性。只有得分7分以上的視頻才能入選最終的測試集。這就像是為考試精選最具代表性的題目,確保每道題都能有效測試學生的能力。
在視頻類型的選擇上,研究團隊涵蓋了七個主要類別。電影和動畫片自然是重頭戲,因為它們通常具有完整的故事情節和復雜的人物關系。體育視頻也被納入其中,因為體育比賽雖然沒有傳統意義上的"劇情",但包含豐富的戰術變化和因果關系——比如一個關鍵的失誤如何導致比賽局勢的徹底逆轉。
游戲視頻同樣具有很強的敘事性,特別是那些策略類游戲,玩家的每個決策都會影響后續發展。旅行和生活類視頻看似簡單,但實際上蘊含著豐富的時間線索和因果關系——比如為什么博主選擇在某個特定時間前往某地,這個決定如何影響了整個旅程的安排。
二、像制作精密食譜一樣設計推理問題
如果說選擇合適的視頻是找到好的"食材",那么設計推理問題就像是制作一道需要多個步驟的復雜菜肴。每個問題都需要AI像廚師一樣,按照特定順序處理不同的"食材"(視頻片段),最終"烹飪"出正確的答案。
研究團隊開發了一個人機協作的標注系統。首先,他們使用AI工具對視頻進行初步分析,將長視頻切分成若干片段,為每個片段生成描述,并將音頻內容轉換成文字。然后,他們讓GPT-4o基于這些信息生成6個初步的問答對。但這只是第一步,就像是先用食品加工機做基礎處理,真正的精細工作還需要人工完成。
接下來,67名經過專門培訓的研究生接手了標注工作。他們的任務是基于AI生成的初步問答對,為每個視頻制作8-10個高質量的推理問題。這就像是專業廚師根據食譜進行精細調整,確保每道菜都達到餐廳的標準。
這些推理問題被分為七種類型,每種都測試AI的不同推理能力。事件預測類問題就像是讓AI成為"故事預言家",根據已經發生的情節預測后續發展。假設推理類問題則給AI一個假設條件,讓它推斷可能的結果——比如"如果主角當時做了不同的選擇,會發生什么?"
事件歸因類問題讓AI扮演"故事偵探"的角色,分析某個事件發生的原因。比如觀看一部電影后,AI需要解釋為什么某個角色做出了特定決定,這需要它回溯整個故事線,找到相關的鋪墊和動機。
隱性推理類問題最具挑戰性,它要求AI讀懂"弦外之音"。就像人類觀眾能從角色的表情和行為中感受到未明言的情感變化,AI也需要具備這種微妙的理解能力。信息綜合類問題則測試AI的"整理歸納"能力,要求它將散布在整個視頻中的信息進行匯總。
邏輯聯系類問題考驗AI建立因果關系的能力。這就像拼圖一樣,AI需要找到看似不相關的兩個事件之間的邏輯聯系。最后,計數問題雖然看起來簡單,但在長視頻中往往需要AI保持長時間的注意力,追蹤某個元素在整個視頻中的變化。
為了確保問題質量,研究團隊設立了嚴格的標準。每個問題都必須包含至少2個推理步驟,并且需要為每個步驟標注準確的時間戳。這就像是為食譜標注每個步驟的具體時間和溫度,確保任何人都能準確復制。
特別值得一提的是,研究團隊還設計了時間分布要求。他們要求每個視頻的問題要覆蓋不同的時間段:0-15分鐘段最多4個問題,15-40分鐘段至少3個問題,40分鐘以上至少1個問題。這確保了AI不能只關注視頻開頭或結尾,而必須對整個視頻保持理解。
三、創新的"雙重檢驗"評估方法
傳統的AI測試就像只看學生的期末考試成績,而VRBench采用了一種更全面的評估方法,既看"結果"也看"過程"。這就像是數學老師不僅要看學生算出的答案是否正確,還要檢查解題步驟是否合理。
在結果層面的評估相對直觀,采用多選題的形式。AI需要從四個選項中選擇正確答案,這測試的是它的最終理解結果。但僅有這個還不夠,因為AI可能通過"運氣"或者簡單的模式匹配得到正確答案,而沒有真正理解視頻內容。
因此,研究團隊引入了過程層面的評估,要求AI不僅給出答案,還要詳細說明推理過程。這就像是要求學生不僅寫出"x=5"這個答案,還要展示"先移項,再合并同類項,最后除以系數"的完整解題過程。
為了評判推理過程的質量,研究團隊開發了一個基于AI的評分系統。這個系統從四個維度評估AI的推理過程:邏輯連貫性、與標準答案的相似度、事實準確性和表達清晰度。就像是聘請了一位嚴格的老師,從多個角度給學生的答題過程打分。
邏輯連貫性檢查推理鏈條是否環環相扣,沒有跳躍或矛盾。與標準答案的相似度衡量AI的思路是否與人類專家的思路相近。事實準確性確保AI沒有編造不存在的情節或人物。表達清晰度則檢查AI是否能用清晰明了的語言闡述自己的推理過程。
有趣的是,研究團隊發現不同類型的問題需要不同的評分策略。對于事件預測和假設推理類問題,由于可能存在多種合理的答案,他們去掉了"與標準答案相似度"這一評分項,重新調整權重。這就像是對開放性作文題采用更靈活的評分標準。
為了驗證這個評分系統的可靠性,研究團隊進行了人機對比實驗。他們讓人類專家對同一批AI回答進行評分,然后對比人類評分和AI評分的一致性。結果顯示,在多個評分維度上,人機評分的相關性都超過了0.8,這說明AI評分系統能夠較好地模擬人類專家的判斷標準。
四、現有AI模型的"體檢報告"
當VRBench這個"考試"準備就緒后,研究團隊邀請了28個不同的AI模型來參加測試,包括12個純文本模型和16個視頻理解模型。這就像是給不同年級的學生安排了同一場考試,看看他們的真實水平如何。
結果令人既驚喜又擔憂。在結果準確性方面,最強的模型是谷歌的Gemini-2.0-Pro,達到了76.61%的準確率。這就像是班里的優等生,大部分題目都能答對。緊隨其后的是OpenAI的GPT-4o和Claude-3.7-Sonnet,準確率都在70%以上。
但是,當研究團隊檢查這些模型的推理過程時,發現了一個有趣的現象:許多模型雖然能給出正確答案,但推理過程卻存在問題。比如GPT-4o雖然有83.25%的答題準確率,但推理過程評分只有58.1%。這就像是學生雖然算出了正確答案,但解題過程漏洞百出,可能存在蒙對的情況。
在不同類型的推理任務中,AI模型表現出明顯的偏好性。大多數模型在事件預測和信息綜合方面表現較好,這些任務相對直觀,類似于"根據劇情發展猜測結局"或"總結故事主要內容"。但在計數問題上,幾乎所有模型都表現糟糕,準確率接近隨機猜測的水平。
這個現象很好理解。計數問題需要AI在長達數小時的視頻中保持持續注意力,準確追蹤特定對象的出現次數。這就像是要求觀眾在看一部兩小時的電影時,從頭到尾數清某個配角總共出現了幾次,這對AI來說是極大的挑戰。
研究團隊還發現了AI模型架構對性能的重要影響。那些專門設計用于推理的"System-2"模型(如OpenAI的o1系列)在推理過程評分上明顯優于傳統模型,但在最終答案準確性上提升有限。這說明這些模型確實在"思考"方面有所改進,但將復雜思考轉化為正確答案的能力還有待提升。
長上下文支持能力也被證明是關鍵因素。那些能夠處理更多視頻幀的模型往往表現更好。比如Gemini-2.0-Pro能夠以0.5幀每秒的密度處理整個視頻,遠超其他模型的32-128幀固定輸入限制。這就像是給學生更多時間仔細閱讀考試材料,自然能更好地理解和分析。
五、參數規模與推理能力的復雜關系
一個直觀的假設是,更大的模型應該具有更強的推理能力,就像更有經驗的學生通常考試成績更好。VRBench的測試結果部分印證了這個假設,但也揭示了一些意外發現。
在同系列模型的對比中,規模優勢確實明顯。比如Qwen2.5系列中,72B參數的模型比7B參數的模型表現好5.48個百分點。InternVL2.5系列中,78B參數模型比8B參數模型高出近10個百分點。這符合我們的常理認知——更大的"大腦"通常意味著更強的理解和推理能力。
但是,一個有趣的例外出現了。QwQ-32B模型雖然參數量相對較小,但通過專門的推理訓練,它在某些方面的表現竟然接近甚至超過了參數量更大的通用模型。這就像是一個專門訓練邏輯思維的學生,在數學競賽中可能比知識面更廣但缺乏專門訓練的學生表現更好。
這個發現對AI發展具有重要啟示:并非單純增加模型規模就能提升推理能力,訓練方法和數據質量可能同樣重要。研究團隊觀察到,那些在推理相關數據上進行過專門訓練的模型,往往在推理過程評分上表現更好,即使它們的最終答案準確率可能不是最高的。
另一個值得注意的現象是開源模型與閉源模型之間的差距。總體而言,商業公司開發的閉源模型(如GPT-4o、Gemini-2.0-Pro、Claude-3.7-Sonnet)在各項指標上都明顯領先于開源模型。最強的開源模型InternVL2.5-78B的整體表現為66.10%,而最強閉源模型Gemini-2.0-Pro達到了76.61%,差距超過10個百分點。
這種差距可能反映了幾個方面的現實:商業公司擁有更多計算資源進行大規模訓練,更豐富的高質量訓練數據,以及更精細的模型優化技術。同時,這些閉源模型可能還使用了一些未公開的技術改進。
六、測試時計算量的神奇效果
傳統上,AI模型的能力被認為主要由訓練階段決定,就像學生的水平主要由平時學習決定一樣。但VRBench的實驗揭示了一個有趣現象:給AI模型更多"思考時間",也就是更多的計算資源,可以顯著提升它們的推理表現。
研究團隊設計了一個巧妙的實驗,他們給同一個模型設置不同的"思考時間"限制,從256個tokens(相當于簡短回答)到2048個tokens(相當于詳細說明),觀察模型表現如何變化。
結果令人印象深刻:QwQ-32B模型在token限制從低到高的過程中,整體得分從48.91%躍升到61.34%,提升了超過12個百分點。這就像是給學生從"必須在5分鐘內完成"改為"可以思考30分鐘再作答",成績有了顯著提升。
更有趣的是,這種"慢思考"的效果在不同類型的模型上表現截然不同。專門訓練用于推理的System-2模型(如QwQ)能夠很好地利用額外的計算時間,產生更高質量的推理過程和更準確的答案。而傳統的System-1模型在給予更多思考時間時,表現反而可能下降——它們容易產生冗長但質量不高的輸出,甚至可能在長時間思考中"迷失方向"。
這個發現對AI發展具有重要意義。它表明,提升AI推理能力不僅可以通過增加模型規模或改進訓練方法,還可以通過優化推理時的計算分配來實現。這開辟了一個新的優化方向:設計能夠有效利用測試時計算資源的AI系統。
七、文本模型與視頻模型的意外對決
VRBench測試中最令人意外的發現之一,是純文本模型與視頻理解模型之間的競爭結果。按照常理,處理視頻內容應該是視頻理解模型的專長,就像讓專業的電影評論家與只讀過劇本的文學評論家比較對電影的理解能力。
為了讓純文本模型也能參與視頻理解測試,研究團隊開發了一個"視頻到文本"的轉換系統。他們使用Qwen2.5-72B模型將視頻內容轉換成詳細的文字描述,包括視覺場景、人物動作、對話內容等。這就像是為盲人朋友詳細描述電影內容,讓他們也能理解故事情節。
令人驚訝的是,一些優秀的純文本模型在這種設置下表現出色。比如Gemini-2.0-Flash-Thinking在純文本模式下達到了63.79%的綜合得分,甚至超過了許多專門的視頻理解模型。這就像是那位只讀劇本的文學評論家,竟然比看過完整電影的評論家更好地理解了故事的深層含義。
這個現象揭示了一個重要事實:對于需要復雜推理的任務,高質量的文本描述可能比原始視頻信號更有效。視頻包含大量冗余信息,如背景細節、視覺特效等,這些信息雖然豐富了觀影體驗,但對理解核心情節可能并非必需。相反,經過精心整理的文本描述能夠突出關鍵信息,降低推理難度。
但這并不意味著視覺信息不重要。研究團隊發現,那些在視覺細節上依賴性較強的問題,如計數問題,純文本模型的表現明顯不如視頻模型。這類問題需要精確的視覺觀察,文字描述很難完全替代原始視頻信息。
更重要的是,能夠有效利用長時間視頻信息的模型表現最好。Gemini-2.0-Pro通過高密度的幀采樣(0.5fps)獲得了最佳性能,這說明詳細的視覺信息確實有助于理解復雜的視頻內容,關鍵在于模型能否有效處理和利用這些信息。
八、推理類型難度的層次分布
通過對七種不同推理類型的詳細分析,VRBench揭示了AI在不同思維任務上的能力分布,就像一份詳細的"智力體檢報告"。
最容易的推理類型是信息綜合,大多數模型在這類任務上表現相對較好。這類問題要求AI對視頻內容進行概括和總結,類似于"用簡短的語言描述這個故事的主要情節"。這種任務雖然需要理解整個視頻,但不要求復雜的邏輯推導,更多依賴的是信息整合能力。
事件預測和邏輯聯系類問題難度中等。事件預測要求AI根據已有情節推測后續發展,這需要一定的創造性思維和對故事邏輯的理解。邏輯聯系類問題要求AI找到看似不相關事件之間的因果關系,這測試的是AI的分析和推理能力。
假設推理類問題具有特殊性。由于這類問題往往沒有標準答案(因為假設情況在視頻中并未實際發生),AI的表現分化較大。一些模型能夠基于已有信息進行合理推測,而另一些模型則可能給出過于天馬行空或邏輯不嚴密的答案。
隱性推理類問題挑戰性較高。這類問題要求AI理解"弦外之音",比如從角色的表情和行為推斷其內心想法,或者理解某種未明說的情感氛圍。這需要AI具備類似人類的情感理解能力和社會認知能力,這對目前的技術來說仍然困難。
事件歸因類問題在不同模型上表現差異巨大。優秀的模型能夠準確分析事件的前因后果,而表現較差的模型可能給出過于簡化或錯誤的因果關系。這反映了不同模型在因果推理能力上的顯著差異。
最困難的是計數問題。幾乎所有模型在這類任務上的表現都接近隨機水平,很多時候準確率只有20-30%。這類問題雖然看似簡單,但需要AI在長時間視頻中保持精確的注意力,追蹤特定對象的出現和變化,這對現有技術來說是極大挑戰。
九、AI推理的"誠實度"問題
VRBench的雙重評估機制揭示了一個令人深思的現象:許多AI模型存在"答對題目但推理過程有問題"的情況,就像學生雖然算出了正確答案,但解題過程卻漏洞百出。
這種現象在多個頂級模型中都有體現。GPT-4o在多選題準確率上達到83.25%,但推理過程得分只有58.1%。Claude-3.7-Sonnet也表現出類似模式:答案準確率82.10%,推理得分58.23%。這種差異揭示了當前AI系統的一個根本性問題:它們可能通過某種"快捷方式"或模式匹配得到正確答案,而非通過嚴謹的邏輯推理。
具體分析這些有問題的推理過程,研究團隊發現了幾種典型錯誤模式。有些AI會給出看似合理但實際錯誤的因果關系,比如將時間上的先后關系誤認為因果關系。還有些AI會在推理中插入視頻中并不存在的信息,或者對某些細節進行過度解讀。
最常見的問題是推理鏈條的跳躍。AI可能從前提A直接跳到結論C,而忽略了中間的關鍵步驟B。這就像是在數學證明中省略了重要的中間步驟,雖然最終答案可能正確,但推理過程不夠嚴謹。
有趣的是,那些專門針對推理能力訓練的System-2模型在這方面表現明顯更好。雖然它們的最終答案準確率可能不是最高的,但推理過程的質量明顯更高。這說明通過專門的訓練確實可以改善AI的推理"誠實度"。
這個發現對AI安全和可靠性具有重要意義。如果AI系統能夠給出正確答案但推理過程存在問題,那么當面對訓練數據中未見過的新情況時,這些系統的表現可能會急劇下降。更重要的是,在需要高度可靠性的應用場景中(如醫療診斷或法律分析),推理過程的透明性和正確性可能比最終答案同樣重要。
十、語言和文化多樣性的意外收獲
VRBench在設計時特意選擇了非英文、非中文的視頻內容,這個看似"刁難"AI的決定卻帶來了意外的研究價值。通過涵蓋泰語、阿拉伯語、韓語、俄語、塞爾維亞語、匈牙利語和越南語等8種語言的內容,VRBench為AI跨文化理解能力提供了珍貴的測試環境。
研究結果顯示,不同AI模型在處理這些多語言內容時表現出明顯差異。一些在英文內容上表現優秀的模型,在面對其他語言的視頻時可能出現理解偏差。這并非因為語言障礙(因為所有視頻都配有英文翻譯字幕),而是因為不同文化背景下的敘事方式、情感表達和社會背景存在差異。
比如,亞洲文化中的含蓄表達方式可能讓AI難以理解某些隱性的情感變化。中東地區的傳統故事結構可能與AI訓練時見過的西方敘事模式不同。這些文化差異就像是給AI設置了額外的理解門檻,測試它們的適應性和通用性。
有趣的是,一些模型在處理特定文化背景的內容時表現出意外的優勢。研究團隊推測,這可能反映了這些模型訓練數據的多樣性,或者某些推理模式在跨文化環境中具有更好的通用性。
這個發現提醒我們,真正的AI通用性不僅體現在技術能力上,還體現在文化適應性上。隨著AI系統在全球范圍內的應用,理解和適應不同文化背景下的思維方式和表達習慣將變得越來越重要。
VRBench的多語言設計也為研究AI的文化偏見提供了寶貴平臺。通過比較AI在不同文化背景內容上的表現差異,研究者可以識別和改善潛在的文化偏見問題,推動更加公平和包容的AI系統發展。
說到底,VRBench的出現標志著AI評估進入了一個新時代。就像從測試學生能否認字進化到測試他們能否理解文學作品一樣,AI評估也從簡單的感知測試進化到復雜的推理理解測試。這項研究不僅為我們提供了一個強大的AI能力測試工具,更重要的是,它揭示了當前AI技術的真實狀況和未來發展方向。
通過VRBench,我們看到現有的AI模型雖然在某些方面已經達到了令人印象深刻的水平,但在需要深度推理和長時間理解的任務上仍有很大提升空間。特別是推理過程的"誠實度"問題,提醒我們不能僅僅滿足于AI給出正確答案,還要確保它們的思考過程是可靠和透明的。
這項研究的價值不僅在于發現了問題,更在于為解決問題指明了方向。通過專門的推理訓練、更好的長上下文處理能力、以及測試時計算資源的優化配置,我們有望開發出真正具備人類級別視頻理解和推理能力的AI系統。
對于普通人來說,VRBench的影響可能會在未來幾年逐步顯現。更強的視頻理解AI將能夠更好地幫助我們處理日常生活中的視頻內容,從自動生成電影評論到協助視頻編輯,從智能監控分析到個性化內容推薦。但更重要的是,這項研究推動的AI推理能力提升,將使AI在醫療診斷、法律分析、科學研究等需要復雜推理的關鍵領域發揮更大作用。
隨著VRBench這樣的評估工具的普及和完善,我們有理由相信,AI理解復雜視頻內容的能力將快速提升,最終達到甚至超越人類的水平。那時,AI將不再是簡單的工具,而是真正的智能伙伴,能夠與我們一起思考、分析和理解這個復雜而精彩的視覺世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.