99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

微軟推出深度視頻探索智能體,登頂多個(gè)長(zhǎng)視頻理解基準(zhǔn)

0
分享至



盡管大型語(yǔ)言模型(LLMs)和大型視覺(jué) - 語(yǔ)言模型(VLMs)在視頻分析和長(zhǎng)語(yǔ)境處理方面取得了顯著進(jìn)展,但它們?cè)谔幚硇畔⒚芗臄?shù)小時(shí)長(zhǎng)視頻時(shí)仍顯示出局限性。



  • 論文標(biāo)題:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
  • 論文鏈接:https://arxiv.org/pdf/2505.18079

本文提出了一種新穎的智能體 Deep Video Discovery (DVD),通過(guò)將長(zhǎng)視頻分割為更短的片段并將其視作環(huán)境,利用 LLM 先進(jìn)的推理能力來(lái)思考問(wèn)題并自主規(guī)劃,選擇具有適當(dāng)參數(shù)的工具來(lái)從環(huán)境中逐步獲取信息,最終回答問(wèn)題。在最新的推理模型OpenAI o3的幫助下, DVD以這一簡(jiǎn)潔有效的 agentic 框架在非常具有挑戰(zhàn)性的LVBench上以74.2%的準(zhǔn)確率大幅超越了之前的工作。這一工作將以MCP Server的形式開(kāi)源。





圖 1:左:DeepVideoDiscovery 的流程示意圖。右:LVBench 上的性能比較。

不同于之前的視頻智能體框架依賴(lài)于手動(dòng)設(shè)計(jì)的固定工作流程,DVD 強(qiáng)調(diào)其作為智能體的自主性,即通過(guò)自主規(guī)劃,決策和行動(dòng)來(lái)解決問(wèn)題。

為了充分利用這一自主性,我們將原始的長(zhǎng)視頻轉(zhuǎn)換為多粒度視頻數(shù)據(jù)庫(kù),并提供了一套以搜索為中心的工具使得智能體在不同階段搜集不同粒度的信息。具體來(lái)說(shuō)該系統(tǒng)主要由三個(gè)核心組件構(gòu)成:多粒度視頻數(shù)據(jù)庫(kù)、以搜索為中心的工具集以及作為智能體協(xié)調(diào)器的 LLM。



圖 2:DeepVideoDiscovery 分為兩個(gè) stage,首先將長(zhǎng)視頻轉(zhuǎn)化為多粒度的視頻數(shù)據(jù)庫(kù),然后通過(guò)自主搜索和工具使用對(duì)用戶的問(wèn)題生成回答。

在 “多粒度視頻數(shù)據(jù)庫(kù)構(gòu)建” 階段,系統(tǒng)將超長(zhǎng)視頻轉(zhuǎn)換為一個(gè)結(jié)構(gòu)化數(shù)據(jù)庫(kù),通過(guò)統(tǒng)一將視頻分割成短片段(例如 5 秒),并提取全局、片段和幀級(jí)別的多粒度信息,包括主題中心化摘要、片段字幕及其嵌入向量,以及原始解碼幀...。

隨后在 “智能體搜索和回答” 階段,DVD 智能體配備了三個(gè)核心工具:

(1)全局瀏覽(Global Browse),用于獲取高層上下文信息和視頻內(nèi)容的全局摘要(包括視頻物體和事件摘要)。

(2)片段搜索(Clip Search)工具,實(shí)現(xiàn)通過(guò)片段描述 Embedding 對(duì)視頻內(nèi)容進(jìn)行高效語(yǔ)義檢索,并返回排名靠前的相關(guān)視頻片段及其字幕和時(shí)間范圍。

(3) 幀檢查(Frame Inspect),用于從指定時(shí)間范圍內(nèi)的像素級(jí)信息中提取細(xì)粒度細(xì)節(jié),并提供開(kāi)放格式的視覺(jué)問(wèn)答(VQA)響應(yīng)。

LLM 作為核心認(rèn)知驅(qū)動(dòng)器,在迭代的 “觀察 - 推理 - 行動(dòng)” 循環(huán)中,根據(jù)累積的知識(shí)和推理證據(jù)采取行動(dòng),從而賦予智能體自主、證據(jù)引導(dǎo)和靈活的行動(dòng)機(jī)制,有效地將原始查詢分解為逐步細(xì)化的子查詢來(lái)解答問(wèn)題。



表 1:本文提出的 Deep Video Discovery 在 LVBench 上以較大的幅度領(lǐng)先已有的工作。

該系統(tǒng)在多個(gè)長(zhǎng)視頻基準(zhǔn)測(cè)試上進(jìn)行了全面評(píng)估,展現(xiàn)了其卓越的效率和強(qiáng)大的性能。在極具挑戰(zhàn)性的 LVBench 數(shù)據(jù)集上,DVD 智能體取得了 74.2% 的最新準(zhǔn)確率,大幅超越了所有現(xiàn)有工作,包括先前的最先進(jìn)模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在輔助轉(zhuǎn)錄的幫助下,準(zhǔn)確率進(jìn)一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他長(zhǎng)視頻基準(zhǔn)測(cè)試中,DVD 也持續(xù)超越了先前的最先進(jìn)性能。



圖 3:不同基礎(chǔ)模型在智能體中的行為分析。圖中可以明顯看出不同基礎(chǔ)模型表現(xiàn)出顯著的行為模式差異,不具有推理能力 GPT-4o 表現(xiàn)出非常單一的行為模型。

消融研究證實(shí)了工具設(shè)計(jì)的有效性,并強(qiáng)調(diào)了推理模型在整個(gè)智能體系統(tǒng)中的關(guān)鍵作用:更換推理模型(如使用 OpenAI o4-mini 或 GPT-4o)會(huì)導(dǎo)致性能下降,這表明 LLM 推理能力的缺失會(huì)導(dǎo)致智能體行為崩潰。對(duì)智能體推理行為的分析也揭示了不同模型在工具調(diào)用模式、推理深度和準(zhǔn)確性之間的關(guān)聯(lián),例如 GPT-4o 表現(xiàn)出過(guò)度自信和行為崩潰,傾向于過(guò)早結(jié)束推理。這些行為模式的分析進(jìn)一步為未來(lái)的智能體設(shè)計(jì)以及基礎(chǔ)語(yǔ)言模型的發(fā)展提供了實(shí)踐參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
與伊朗神棍共情的人,可以拉黑了

與伊朗神棍共情的人,可以拉黑了

廖保平
2025-06-29 09:14:23
北大校長(zhǎng)丁石孫:拒收毛新宇讀北大

北大校長(zhǎng)丁石孫:拒收毛新宇讀北大

深度報(bào)
2025-06-29 23:36:38
今天公積金結(jié)息了 有人領(lǐng)幾千元

今天公積金結(jié)息了 有人領(lǐng)幾千元

金融界
2025-07-01 11:16:24
鄧超心疼鹿晗痛哭 !10億天價(jià)違約金是他和關(guān)曉彤沒(méi)法的公開(kāi)原因

鄧超心疼鹿晗痛哭 !10億天價(jià)違約金是他和關(guān)曉彤沒(méi)法的公開(kāi)原因

深析古今
2025-06-30 15:33:30
特朗普抱怨日本不進(jìn)口美國(guó)大米,日本政府回應(yīng):不會(huì)犧牲日本農(nóng)業(yè)

特朗普抱怨日本不進(jìn)口美國(guó)大米,日本政府回應(yīng):不會(huì)犧牲日本農(nóng)業(yè)

環(huán)球網(wǎng)資訊
2025-07-01 15:14:10
小米集團(tuán)CEO雷軍宣布“小米青年公寓”:為小米年輕工程師打造,月租金1999元,一共2600套,應(yīng)屆生優(yōu)先入駐

小米集團(tuán)CEO雷軍宣布“小米青年公寓”:為小米年輕工程師打造,月租金1999元,一共2600套,應(yīng)屆生優(yōu)先入駐

和訊網(wǎng)
2025-07-01 13:40:59
親俄勢(shì)力受重大打擊,俄的兄弟也反目成仇了

親俄勢(shì)力受重大打擊,俄的兄弟也反目成仇了

金召點(diǎn)評(píng)
2025-07-01 09:58:00
B-2橫穿中國(guó)10省轟炸伊朗,中國(guó)雷達(dá)竟沒(méi)發(fā)現(xiàn)?美國(guó)這回說(shuō)了實(shí)話

B-2橫穿中國(guó)10省轟炸伊朗,中國(guó)雷達(dá)竟沒(méi)發(fā)現(xiàn)?美國(guó)這回說(shuō)了實(shí)話

阿芒娛樂(lè)說(shuō)
2025-07-01 12:05:54
特朗普大概率參加九三閱兵,“鬼子”卻提前“坐不住”了

特朗普大概率參加九三閱兵,“鬼子”卻提前“坐不住”了

獨(dú)對(duì)東風(fēng)
2025-07-01 10:52:57
廣州交警:男子低頭看手機(jī)導(dǎo)致車(chē)輛失控,造成3死3傷

廣州交警:男子低頭看手機(jī)導(dǎo)致車(chē)輛失控,造成3死3傷

新京報(bào)
2025-07-01 13:44:05
泰國(guó)總理停職?三大結(jié)局全公開(kāi)!

泰國(guó)總理停職?三大結(jié)局全公開(kāi)!

叮當(dāng)當(dāng)科技
2025-07-01 12:00:38
這才是演員董潔最真實(shí)的樣子:又瘦又小,純素顏,45歲像25歲

這才是演員董潔最真實(shí)的樣子:又瘦又小,純素顏,45歲像25歲

娛樂(lè)看阿敞
2025-06-30 14:51:00
公安部明確:7月1號(hào)起,60歲以上老人騎5種電動(dòng)車(chē),上路不查不扣

公安部明確:7月1號(hào)起,60歲以上老人騎5種電動(dòng)車(chē),上路不查不扣

小鬼頭體育
2025-07-01 07:50:52
8個(gè)中央督察組,堅(jiān)持動(dòng)真碰硬,核實(shí)一批不作為、慢作為,不擔(dān)當(dāng)、不碰硬,甚至敷衍應(yīng)對(duì)、弄虛作假等問(wèn)題!

8個(gè)中央督察組,堅(jiān)持動(dòng)真碰硬,核實(shí)一批不作為、慢作為,不擔(dān)當(dāng)、不碰硬,甚至敷衍應(yīng)對(duì)、弄虛作假等問(wèn)題!

新京報(bào)政事兒
2025-07-01 11:11:17
特朗普敲定訪華,要帶上豪華陣容飛往北京,想讓中國(guó)出手救美國(guó)?

特朗普敲定訪華,要帶上豪華陣容飛往北京,想讓中國(guó)出手救美國(guó)?

知鑒明史
2025-06-30 14:27:58
現(xiàn)金流告急,媒體人:山東泰山昨天晚上余額就剩23萬(wàn)了

現(xiàn)金流告急,媒體人:山東泰山昨天晚上余額就剩23萬(wàn)了

懂球帝
2025-07-01 11:18:52
雷克薩斯中國(guó)工廠正式開(kāi)工

雷克薩斯中國(guó)工廠正式開(kāi)工

大象新聞
2025-06-30 16:00:16
不止閑置,閑魚(yú) CEO 丁健的 “神奇” 產(chǎn)品改造手冊(cè)

不止閑置,閑魚(yú) CEO 丁健的 “神奇” 產(chǎn)品改造手冊(cè)

晚點(diǎn)LatePost
2025-06-27 20:33:46
掩蓋不住了,以色列12天損失有多大?以媒:與伊朗開(kāi)戰(zhàn)是戰(zhàn)略失誤

掩蓋不住了,以色列12天損失有多大?以媒:與伊朗開(kāi)戰(zhàn)是戰(zhàn)略失誤

影孖看世界
2025-06-30 22:11:24
誰(shuí)在故意抹黑上海?令全上海蒙羞受冤動(dòng)物園不讓喂奶真相反轉(zhuǎn)!

誰(shuí)在故意抹黑上海?令全上海蒙羞受冤動(dòng)物園不讓喂奶真相反轉(zhuǎn)!

魔都囡
2025-07-01 11:27:11
2025-07-01 16:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10754文章數(shù) 142352關(guān)注度
往期回顧 全部

科技要聞

不懼小米YU7?特斯拉逆勢(shì)漲價(jià)

頭條要聞

美軍前司令抱怨主力預(yù)警機(jī)"嚴(yán)重過(guò)時(shí)":它看不見(jiàn)殲-20

頭條要聞

美軍前司令抱怨主力預(yù)警機(jī)"嚴(yán)重過(guò)時(shí)":它看不見(jiàn)殲-20

體育要聞

創(chuàng)造歷史!世俱杯首次亞洲球隊(duì)?wèi)?zhàn)勝歐洲

娛樂(lè)要聞

瘦到脫相!鹿晗首度回應(yīng)暴瘦內(nèi)情?

財(cái)經(jīng)要聞

習(xí)近平:縱深推進(jìn)全國(guó)統(tǒng)一大市場(chǎng)建設(shè)

汽車(chē)要聞

2026款MG Cyberster/MG5 兩款新車(chē)售5.99萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
公開(kāi)課
軍事航空

房產(chǎn)要聞

最強(qiáng)黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

數(shù)碼要聞

掠奪者存儲(chǔ)推出 GP30 RGB 電競(jìng)移動(dòng)固態(tài)硬盤(pán),待機(jī)、讀寫(xiě)不同光效

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

涉伊核機(jī)密情報(bào)再泄露 白宮急了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 昌宁县| 绥阳县| 通江县| 凌源市| 东平县| 民勤县| 娄烦县| 黎城县| 大连市| 辛集市| 广昌县| 栖霞市| 孟州市| 广德县| 襄汾县| 囊谦县| 曲松县| 巫溪县| 永安市| 永和县| 礼泉县| 大埔县| 射阳县| 图木舒克市| 鄂托克前旗| 乐都县| 翁源县| 卓尼县| 梓潼县| 航空| 太白县| 那坡县| 余江县| 阿巴嘎旗| 道孚县| 丰城市| 西乌| 开封县| 博湖县| 宁阳县| 体育|