盡管大型語(yǔ)言模型(LLMs)和大型視覺(jué) - 語(yǔ)言模型(VLMs)在視頻分析和長(zhǎng)語(yǔ)境處理方面取得了顯著進(jìn)展,但它們?cè)谔幚硇畔⒚芗臄?shù)小時(shí)長(zhǎng)視頻時(shí)仍顯示出局限性。
- 論文標(biāo)題:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
- 論文鏈接:https://arxiv.org/pdf/2505.18079
本文提出了一種新穎的智能體 Deep Video Discovery (DVD),通過(guò)將長(zhǎng)視頻分割為更短的片段并將其視作環(huán)境,利用 LLM 先進(jìn)的推理能力來(lái)思考問(wèn)題并自主規(guī)劃,選擇具有適當(dāng)參數(shù)的工具來(lái)從環(huán)境中逐步獲取信息,最終回答問(wèn)題。在最新的推理模型OpenAI o3的幫助下, DVD以這一簡(jiǎn)潔有效的 agentic 框架在非常具有挑戰(zhàn)性的LVBench上以74.2%的準(zhǔn)確率大幅超越了之前的工作。這一工作將以MCP Server的形式開(kāi)源。
圖 1:左:DeepVideoDiscovery 的流程示意圖。右:LVBench 上的性能比較。
不同于之前的視頻智能體框架依賴(lài)于手動(dòng)設(shè)計(jì)的固定工作流程,DVD 強(qiáng)調(diào)其作為智能體的自主性,即通過(guò)自主規(guī)劃,決策和行動(dòng)來(lái)解決問(wèn)題。
為了充分利用這一自主性,我們將原始的長(zhǎng)視頻轉(zhuǎn)換為多粒度視頻數(shù)據(jù)庫(kù),并提供了一套以搜索為中心的工具使得智能體在不同階段搜集不同粒度的信息。具體來(lái)說(shuō)該系統(tǒng)主要由三個(gè)核心組件構(gòu)成:多粒度視頻數(shù)據(jù)庫(kù)、以搜索為中心的工具集以及作為智能體協(xié)調(diào)器的 LLM。
圖 2:DeepVideoDiscovery 分為兩個(gè) stage,首先將長(zhǎng)視頻轉(zhuǎn)化為多粒度的視頻數(shù)據(jù)庫(kù),然后通過(guò)自主搜索和工具使用對(duì)用戶的問(wèn)題生成回答。
在 “多粒度視頻數(shù)據(jù)庫(kù)構(gòu)建” 階段,系統(tǒng)將超長(zhǎng)視頻轉(zhuǎn)換為一個(gè)結(jié)構(gòu)化數(shù)據(jù)庫(kù),通過(guò)統(tǒng)一將視頻分割成短片段(例如 5 秒),并提取全局、片段和幀級(jí)別的多粒度信息,包括主題中心化摘要、片段字幕及其嵌入向量,以及原始解碼幀...。
隨后在 “智能體搜索和回答” 階段,DVD 智能體配備了三個(gè)核心工具:
(1)全局瀏覽(Global Browse),用于獲取高層上下文信息和視頻內(nèi)容的全局摘要(包括視頻物體和事件摘要)。
(2)片段搜索(Clip Search)工具,實(shí)現(xiàn)通過(guò)片段描述 Embedding 對(duì)視頻內(nèi)容進(jìn)行高效語(yǔ)義檢索,并返回排名靠前的相關(guān)視頻片段及其字幕和時(shí)間范圍。
(3) 幀檢查(Frame Inspect),用于從指定時(shí)間范圍內(nèi)的像素級(jí)信息中提取細(xì)粒度細(xì)節(jié),并提供開(kāi)放格式的視覺(jué)問(wèn)答(VQA)響應(yīng)。
LLM 作為核心認(rèn)知驅(qū)動(dòng)器,在迭代的 “觀察 - 推理 - 行動(dòng)” 循環(huán)中,根據(jù)累積的知識(shí)和推理證據(jù)采取行動(dòng),從而賦予智能體自主、證據(jù)引導(dǎo)和靈活的行動(dòng)機(jī)制,有效地將原始查詢分解為逐步細(xì)化的子查詢來(lái)解答問(wèn)題。
表 1:本文提出的 Deep Video Discovery 在 LVBench 上以較大的幅度領(lǐng)先已有的工作。
該系統(tǒng)在多個(gè)長(zhǎng)視頻基準(zhǔn)測(cè)試上進(jìn)行了全面評(píng)估,展現(xiàn)了其卓越的效率和強(qiáng)大的性能。在極具挑戰(zhàn)性的 LVBench 數(shù)據(jù)集上,DVD 智能體取得了 74.2% 的最新準(zhǔn)確率,大幅超越了所有現(xiàn)有工作,包括先前的最先進(jìn)模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在輔助轉(zhuǎn)錄的幫助下,準(zhǔn)確率進(jìn)一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他長(zhǎng)視頻基準(zhǔn)測(cè)試中,DVD 也持續(xù)超越了先前的最先進(jìn)性能。
圖 3:不同基礎(chǔ)模型在智能體中的行為分析。圖中可以明顯看出不同基礎(chǔ)模型表現(xiàn)出顯著的行為模式差異,不具有推理能力 GPT-4o 表現(xiàn)出非常單一的行為模型。
消融研究證實(shí)了工具設(shè)計(jì)的有效性,并強(qiáng)調(diào)了推理模型在整個(gè)智能體系統(tǒng)中的關(guān)鍵作用:更換推理模型(如使用 OpenAI o4-mini 或 GPT-4o)會(huì)導(dǎo)致性能下降,這表明 LLM 推理能力的缺失會(huì)導(dǎo)致智能體行為崩潰。對(duì)智能體推理行為的分析也揭示了不同模型在工具調(diào)用模式、推理深度和準(zhǔn)確性之間的關(guān)聯(lián),例如 GPT-4o 表現(xiàn)出過(guò)度自信和行為崩潰,傾向于過(guò)早結(jié)束推理。這些行為模式的分析進(jìn)一步為未來(lái)的智能體設(shè)計(jì)以及基礎(chǔ)語(yǔ)言模型的發(fā)展提供了實(shí)踐參考。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.