本項目為AI Geeks、澳洲人工智能研究所、利物浦大學(xué)、拉籌伯大學(xué)的聯(lián)合工作。
我們提出了 PresentAgent,一個能夠?qū)㈤L篇文檔轉(zhuǎn)化為帶解說的演示視頻、多模態(tài)智能體。現(xiàn)有方法大多局限于生成靜態(tài)幻燈片或文本摘要,而我們的方案突破了這些限制,能夠生成高度同步的視覺內(nèi)容和語音解說,逼真模擬人類風(fēng)格的演示。
- 論文標(biāo)題:PresentAgent: Multimodal Agent for Presentation Video Generation
- 論文地址:https://arxiv.org/abs/2507.04036
- 代碼:
- https://github.com/AIGeeksGroup/PresentAgent
為了實(shí)現(xiàn)這一整合,PresentAgent 采用了模塊化流程,如圖 1 所示,包括以下步驟:1. 系統(tǒng)性地對輸入文檔進(jìn)行分段;2. 規(guī)劃并渲染幻燈片風(fēng)格的視覺幀;3. 利用大型語言模型與文本轉(zhuǎn)語音模型生成具有上下文的語音解說;4. 最終將音頻與視覺內(nèi)容精確對齊,無縫組合成完整視頻。
圖 1 PresentAgent 概覽。該系統(tǒng)以文檔(如網(wǎng)頁)為輸入,經(jīng)過以下生成流程:(1)文檔處理、(2)結(jié)構(gòu)化幻燈片生成、(3)同步字幕創(chuàng)建,以及(4) 語音合成。最終輸出為一個結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出。
考慮到這種多模態(tài)輸出的評估難度,我們引入了 PresentEval,一個由視覺-語言模型驅(qū)動的統(tǒng)一評估框架,從以下三個關(guān)鍵維度全面打分:內(nèi)容忠實(shí)度(Content Fidelity)、視覺清晰度(Visual Clarity)和觀眾理解度(Audience Comprehension)。
評估采用基于提示的方式進(jìn)行。我們在一個精心整理的包含 30 對「文檔-演示」樣本的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,PresentAgent 在所有評估指標(biāo)上接近人類水平的表現(xiàn)。
這些結(jié)果展示了可控多模態(tài)智能體在將靜態(tài)文本材料轉(zhuǎn)化為動態(tài)、有效、易獲取的演示格式方面的巨大潛力。
我們的主要貢獻(xiàn)如下:
- 提出新任務(wù):首次提出「文檔到演示視頻生成」這一新任務(wù),旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻,并配有語音解說。
- 設(shè)計 PresentAgent 系統(tǒng):提出一個模塊化生成框架,涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步,實(shí)現(xiàn)可控、可解釋的視頻生成過程。
- 提出 PresentEval 評估框架:構(gòu)建一個由視覺語言模型驅(qū)動的多維度評估機(jī)制,從內(nèi)容、視覺與理解等維度對視頻進(jìn)行提示式評分。
- 構(gòu)建高質(zhì)量評測數(shù)據(jù)集:我們制作了一個包含 30 對真實(shí)文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實(shí)驗(yàn)和消融研究顯示,PresentAgent 不僅接近人類表現(xiàn),且顯著優(yōu)于現(xiàn)有方案。
演示視頻評估基準(zhǔn)(Presentation Benchmark)
圖 2 我們評估基準(zhǔn)中的文檔多樣性
為了支持文檔到演示視頻生成的評估,我們構(gòu)建了一個多領(lǐng)域、多文體的真實(shí)對照數(shù)據(jù)集——Doc2Present Benchmark,其中每對數(shù)據(jù)都包含一個文檔與一個配套的演示視頻。不同于以往只關(guān)注摘要或幻燈片的基準(zhǔn),我們的數(shù)據(jù)包括:
- 商業(yè)報告
- 產(chǎn)品手冊
- 政策簡報
- 教程類文檔等
每篇文檔均配有人工制作的視頻講解,如圖 2 所示。
圖 3 我們的評測方法框架概覽
與 paper2poster 的方法類似,我們設(shè)計了一個測驗(yàn)式評估框架,即通過視覺語言模型僅根據(jù)生成視頻(幻燈片+講解)回答內(nèi)容問題,以模擬觀眾的理解水平,同時我們還引入人工制作的視頻作為參考標(biāo)準(zhǔn),既用于評分校準(zhǔn),也作為性能上限對比。
該評估框架由兩部分組成:
- 客觀測驗(yàn)評估:通過選擇題測量視頻傳遞信息的準(zhǔn)確性;
- 主觀評分評估:從內(nèi)容質(zhì)量、視覺/音頻設(shè)計與理解清晰度等維度,對視頻進(jìn)行 1–5 分等級評分;這兩類指標(biāo)共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系,如圖 3 所示。
PresentAgent
圖 4 PresentAgent 框架概覽
本系統(tǒng)以多種類型的文檔(例如論文、網(wǎng)頁、PDF 等)為輸入,遵循模塊化的生成流程:
- 首先進(jìn)行提綱生成;
- 檢索出最適合的幻燈片模板;
- 然后借助視覺-語言模型生成幻燈片和解說文稿;
- 將解說文稿通過 TTS 轉(zhuǎn)換為音頻,并合成為完整的演示視頻;
- 為了評估視頻質(zhì)量,我們設(shè)計了多個維度的提示語;
- 最后將提示輸入基于視覺語言模型(VLM)的評分模塊,輸出各個維度的指標(biāo)結(jié)果。
為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻,我們設(shè)計了一個多階段的生成框架,模擬人類準(zhǔn)備幻燈片與演講內(nèi)容的流程,如圖 4 所示。該方法分為四步:
- 語義分段;
- 結(jié)構(gòu)化幻燈片生成;
- 口語化講解生成;
- 可視與音頻組合為同步視頻。
該模塊化設(shè)計支持可控性、可解釋性和多模態(tài)對齊,兼顧高質(zhì)量生成與細(xì)粒度評估。下文將分別介紹各模塊。
實(shí)驗(yàn)
我們構(gòu)建了一個包含 30 個長文檔的測試集,每個文檔配有人類手工制作的演示視頻作為參考。這些文檔涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報等主題。
所有生成與人工視頻均使用 PresentEval 框架進(jìn)行評估。由于當(dāng)前尚無模型可完整評估超 2 分鐘的多模態(tài)視頻,我們采用分段評估策略:
- 客觀評估階段:使用 Qwen-VL-2.5-3B 回答固定的多項選擇題,評估內(nèi)容理解;
- 主觀評分階段:提取視頻與音頻片段,使用 Qwen-Omni-7B 針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。
主實(shí)驗(yàn)結(jié)果
在測驗(yàn)準(zhǔn)確率方面,大多數(shù) PresentAgent 的變體與人工基準(zhǔn)結(jié)果(0.56)相當(dāng)甚至更優(yōu)。其中 Claude-3.7-sonnet 取得了最高準(zhǔn)確率 0.64,表明生成內(nèi)容與源文檔之間具有較強(qiáng)的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事實(shí)對齊方面仍有提升空間。
在主觀質(zhì)量方面,由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而,一些 PresentAgent 變體表現(xiàn)出有競爭力的性能。例如,GPT-4o-Mini 在視頻內(nèi)容和視覺吸引力方面獲得了最高分(均接近或達(dá)到 4.8),而 Claude-3.7-sonnet 則在音頻質(zhì)量方面表現(xiàn)最為平衡(均分為 4.53)。
有趣的是,Gemini-2.5-flash 在視覺質(zhì)量上取得了最高得分(5.0),但在理解性方面較低,這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了我們模塊化生成流程的有效性,以及統(tǒng)一評估框架 PresentEval 在捕捉演示質(zhì)量多個維度方面的實(shí)用價值。
案例分析
圖 5 PresentAgent 自動生成演示視頻示例
圖 5 體現(xiàn)了一個完整的 PresentAgent 自動生成演示視頻示例,其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。系統(tǒng)識別出結(jié)構(gòu)性片段(如引言、技術(shù)解釋等),并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片,涵蓋了「并行化工作流」、「代理系統(tǒng)架構(gòu)」等技術(shù)主題,展示了系統(tǒng)在保持技術(shù)準(zhǔn)確性的同時,以清晰、對話式方式傳達(dá)信息的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.