演講生成黑科技，PresentAgent從文本到演講視頻

2025-07-18 18:09:38　來源: 機(jī)器之心Pro

河北舉報

分享至

本項目為AI Geeks、澳洲人工智能研究所、利物浦大學(xué)、拉籌伯大學(xué)的聯(lián)合工作。

我們提出了 PresentAgent，一個能夠?qū)㈤L篇文檔轉(zhuǎn)化為帶解說的演示視頻、多模態(tài)智能體。現(xiàn)有方法大多局限于生成靜態(tài)幻燈片或文本摘要，而我們的方案突破了這些限制，能夠生成高度同步的視覺內(nèi)容和語音解說，逼真模擬人類風(fēng)格的演示。

論文標(biāo)題：PresentAgent: Multimodal Agent for Presentation Video Generation
論文地址：https://arxiv.org/abs/2507.04036
代碼：
https://github.com/AIGeeksGroup/PresentAgent

為了實(shí)現(xiàn)這一整合，PresentAgent 采用了模塊化流程，如圖 1 所示，包括以下步驟：1. 系統(tǒng)性地對輸入文檔進(jìn)行分段；2. 規(guī)劃并渲染幻燈片風(fēng)格的視覺幀；3. 利用大型語言模型與文本轉(zhuǎn)語音模型生成具有上下文的語音解說；4. 最終將音頻與視覺內(nèi)容精確對齊，無縫組合成完整視頻。

圖 1 PresentAgent 概覽。該系統(tǒng)以文檔（如網(wǎng)頁）為輸入，經(jīng)過以下生成流程：（1）文檔處理、（2）結(jié)構(gòu)化幻燈片生成、（3）同步字幕創(chuàng)建，以及（4) 語音合成。最終輸出為一個結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出。

考慮到這種多模態(tài)輸出的評估難度，我們引入了 PresentEval，一個由視覺-語言模型驅(qū)動的統(tǒng)一評估框架，從以下三個關(guān)鍵維度全面打分：內(nèi)容忠實(shí)度（Content Fidelity）、視覺清晰度（Visual Clarity）和觀眾理解度（Audience Comprehension）。

評估采用基于提示的方式進(jìn)行。我們在一個精心整理的包含 30 對「文檔-演示」樣本的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，結(jié)果表明，PresentAgent 在所有評估指標(biāo)上接近人類水平的表現(xiàn)。

這些結(jié)果展示了可控多模態(tài)智能體在將靜態(tài)文本材料轉(zhuǎn)化為動態(tài)、有效、易獲取的演示格式方面的巨大潛力。

我們的主要貢獻(xiàn)如下：

提出新任務(wù)：首次提出「文檔到演示視頻生成」這一新任務(wù)，旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻，并配有語音解說。

設(shè)計 PresentAgent 系統(tǒng)：提出一個模塊化生成框架，涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步，實(shí)現(xiàn)可控、可解釋的視頻生成過程。

提出 PresentEval 評估框架：構(gòu)建一個由視覺語言模型驅(qū)動的多維度評估機(jī)制，從內(nèi)容、視覺與理解等維度對視頻進(jìn)行提示式評分。

構(gòu)建高質(zhì)量評測數(shù)據(jù)集：我們制作了一個包含 30 對真實(shí)文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實(shí)驗(yàn)和消融研究顯示，PresentAgent 不僅接近人類表現(xiàn)，且顯著優(yōu)于現(xiàn)有方案。

演示視頻評估基準(zhǔn)（Presentation Benchmark）

圖 2 我們評估基準(zhǔn)中的文檔多樣性

為了支持文檔到演示視頻生成的評估，我們構(gòu)建了一個多領(lǐng)域、多文體的真實(shí)對照數(shù)據(jù)集——Doc2Present Benchmark，其中每對數(shù)據(jù)都包含一個文檔與一個配套的演示視頻。不同于以往只關(guān)注摘要或幻燈片的基準(zhǔn)，我們的數(shù)據(jù)包括：

商業(yè)報告
產(chǎn)品手冊
政策簡報
教程類文檔等

每篇文檔均配有人工制作的視頻講解，如圖 2 所示。

圖 3 我們的評測方法框架概覽

與 paper2poster 的方法類似，我們設(shè)計了一個測驗(yàn)式評估框架，即通過視覺語言模型僅根據(jù)生成視頻（幻燈片+講解）回答內(nèi)容問題，以模擬觀眾的理解水平，同時我們還引入人工制作的視頻作為參考標(biāo)準(zhǔn)，既用于評分校準(zhǔn)，也作為性能上限對比。

該評估框架由兩部分組成：

客觀測驗(yàn)評估：通過選擇題測量視頻傳遞信息的準(zhǔn)確性；
主觀評分評估：從內(nèi)容質(zhì)量、視覺/音頻設(shè)計與理解清晰度等維度，對視頻進(jìn)行 1–5 分等級評分；這兩類指標(biāo)共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系，如圖 3 所示。

PresentAgent

圖 4 PresentAgent 框架概覽

本系統(tǒng)以多種類型的文檔（例如論文、網(wǎng)頁、PDF 等）為輸入，遵循模塊化的生成流程：

首先進(jìn)行提綱生成；
檢索出最適合的幻燈片模板；
然后借助視覺-語言模型生成幻燈片和解說文稿；
將解說文稿通過 TTS 轉(zhuǎn)換為音頻，并合成為完整的演示視頻；
為了評估視頻質(zhì)量，我們設(shè)計了多個維度的提示語；
最后將提示輸入基于視覺語言模型（VLM）的評分模塊，輸出各個維度的指標(biāo)結(jié)果。

為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻，我們設(shè)計了一個多階段的生成框架，模擬人類準(zhǔn)備幻燈片與演講內(nèi)容的流程，如圖 4 所示。該方法分為四步：

語義分段；
結(jié)構(gòu)化幻燈片生成；
口語化講解生成；
可視與音頻組合為同步視頻。

該模塊化設(shè)計支持可控性、可解釋性和多模態(tài)對齊，兼顧高質(zhì)量生成與細(xì)粒度評估。下文將分別介紹各模塊。

實(shí)驗(yàn)

我們構(gòu)建了一個包含 30 個長文檔的測試集，每個文檔配有人類手工制作的演示視頻作為參考。這些文檔涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報等主題。

所有生成與人工視頻均使用 PresentEval 框架進(jìn)行評估。由于當(dāng)前尚無模型可完整評估超 2 分鐘的多模態(tài)視頻，我們采用分段評估策略：

客觀評估階段：使用 Qwen-VL-2.5-3B 回答固定的多項選擇題，評估內(nèi)容理解；
主觀評分階段：提取視頻與音頻片段，使用 Qwen-Omni-7B 針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。

主實(shí)驗(yàn)結(jié)果

在測驗(yàn)準(zhǔn)確率方面，大多數(shù) PresentAgent 的變體與人工基準(zhǔn)結(jié)果（0.56）相當(dāng)甚至更優(yōu)。其中 Claude-3.7-sonnet 取得了最高準(zhǔn)確率 0.64，表明生成內(nèi)容與源文檔之間具有較強(qiáng)的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低（0.52），表明在事實(shí)對齊方面仍有提升空間。

在主觀質(zhì)量方面，由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而，一些 PresentAgent 變體表現(xiàn)出有競爭力的性能。例如，GPT-4o-Mini 在視頻內(nèi)容和視覺吸引力方面獲得了最高分（均接近或達(dá)到 4.8），而 Claude-3.7-sonnet 則在音頻質(zhì)量方面表現(xiàn)最為平衡（均分為 4.53）。

有趣的是，Gemini-2.5-flash 在視覺質(zhì)量上取得了最高得分（5.0），但在理解性方面較低，這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了我們模塊化生成流程的有效性，以及統(tǒng)一評估框架 PresentEval 在捕捉演示質(zhì)量多個維度方面的實(shí)用價值。

案例分析

圖 5 PresentAgent 自動生成演示視頻示例

圖 5 體現(xiàn)了一個完整的 PresentAgent 自動生成演示視頻示例，其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。系統(tǒng)識別出結(jié)構(gòu)性片段（如引言、技術(shù)解釋等），并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片，涵蓋了「并行化工作流」、「代理系統(tǒng)架構(gòu)」等技術(shù)主題，展示了系統(tǒng)在保持技術(shù)準(zhǔn)確性的同時，以清晰、對話式方式傳達(dá)信息的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.