新智元報道
編輯:LRST
【新智元導(dǎo)讀】PresentAgent可以把論文、報告等長文檔一鍵變成帶真人語音和同步幻燈片的演示視頻,流程像人寫提綱、做PPT、錄音并合成。實驗使用30份文檔與人工視頻對比測試,PresentAgent在內(nèi)容準確、視覺清晰和觀眾理解上都接近人類水準,可幫老師、商務(wù)人士省去大量做PPT和錄音的時間。
演示是一種廣泛使用且行之有效的信息傳達方式。通過結(jié)合視覺元素、結(jié)構(gòu)化的講解和口頭解釋,它能夠使信息逐步展開,從而讓不同受眾更容易理解。
盡管效果顯著,但將長篇文檔(如商業(yè)報告、技術(shù)手冊、政策簡報或?qū)W術(shù)論文)制作成高質(zhì)量演示視頻通常需要耗費大量人工精力。
這個過程涉及內(nèi)容篩選、幻燈片設(shè)計、講稿撰寫、語音錄制,以及將所有內(nèi)容整合成一個連貫的多模態(tài)輸出。
盡管近年來AI在文檔轉(zhuǎn)幻燈片和文本轉(zhuǎn)視頻等領(lǐng)域取得進展,但仍存在一個關(guān)鍵問題:這些方法要么只能生成靜態(tài)的視覺摘要,要么僅能輸出無結(jié)構(gòu)的通用視頻片段,難以勝任需要結(jié)構(gòu)化講述的演示任務(wù)。
為彌補這一空白,澳大利亞人工智能研究所、英國利物浦大學(xué)的研究人員提出了一個新任務(wù):文檔到演示視頻生成(Document-to-Presentation Video Generation),旨在自動將結(jié)構(gòu)化或非結(jié)構(gòu)化文檔轉(zhuǎn)化為配有語音講解和同步幻燈片的視頻演示。
論文鏈接:https://arxiv.org/pdf/2507.04036
代碼鏈接:https://github.com/AIGeeksGroup/PresentAgent
該任務(wù)的挑戰(zhàn)遠超傳統(tǒng)的摘要或文本轉(zhuǎn)語音系統(tǒng),因為它需要選擇性內(nèi)容抽象、基于布局的視覺規(guī)劃,以及視覺與語音的精確多模態(tài)對齊。
圖1:PresentAgent 概覽。該系統(tǒng)以文檔(如網(wǎng)頁)為輸入,經(jīng)過以下生成流程:(1)文檔處理、(2)結(jié)構(gòu)化幻燈片生成、(3)同步字幕創(chuàng)建,以及(4)語音合成。最終輸出為一個結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出
圖2:評估基準中的文檔多樣性
與以往只關(guān)注靜態(tài)幻燈片/圖像生成或單一語音摘要的方法不同,研究人員的目標是構(gòu)建一個完整集成的視頻體驗,模擬現(xiàn)實中人類演講者的信息傳遞方式。
圖3:方法框架概覽
上圖左側(cè)給定多樣的輸入文檔(如論文、網(wǎng)站、博客、幻燈片或 PDF),PresentAgent 能生成帶講解的演示視頻,輸出為同步的幻燈片和音頻。
右側(cè)設(shè)計了PresentEval,一個雙路徑的評估框架:
(1)客觀測驗評估(上),通過 Qwen-VL 進行事實理解檢測;
(2)主觀打分評估(下),借助視覺-語言模型從內(nèi)容質(zhì)量、視覺設(shè)計與語音理解等維度進行評分。
為應(yīng)對上述挑戰(zhàn),研究人員提出了一個模塊化生成框架——PresentAgent,如圖1所示。
其流程包括:
將輸入文檔語義分塊(通過大綱規(guī)劃);
為每個語義塊生成具有布局指導(dǎo)的幻燈片視覺內(nèi)容;
將關(guān)鍵信息重寫為口語化解說文本;
語音合成后,與幻燈片進行時間同步,最終生成一個結(jié)構(gòu)良好、講解清晰的視頻演示。
值得一提的是,整個流程具有可控性和領(lǐng)域適應(yīng)性,適用于多種文檔類型和演示風(fēng)格。
為有效評估此類復(fù)雜多模態(tài)系統(tǒng),研究人員整理了一個涵蓋教育、金融、政策與科研等多個領(lǐng)域的30組人工制作的文檔-演示視頻對的測試集。
同時,研究人員設(shè)計了一個雙路徑評估策略:
一方面使用固定選擇題測試內(nèi)容理解;
另一方面通過視覺語言模型打分,評估視頻的內(nèi)容質(zhì)量、視覺呈現(xiàn)與觀眾理解程度。
實驗結(jié)果表明,該方法生成的視頻流暢、結(jié)構(gòu)合理、信息充分,在內(nèi)容傳達和觀眾理解方面接近人類表現(xiàn)。
這表明將語言模型、視覺布局生成與多模態(tài)合成結(jié)合,能夠?qū)崿F(xiàn)可解釋、可擴展的自動演示生成系統(tǒng)。
主要貢獻如下:
提出新任務(wù):首次提出“文檔到演示視頻生成”這一新任務(wù),旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻,并配有語音解說。
設(shè)計PresentAgent系統(tǒng):提出一個模塊化生成框架,涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步,實現(xiàn)可控、可解釋的視頻生成過程。
提出PresentEval評估框架:構(gòu)建一個由視覺語言模型驅(qū)動的多維度評估機制,從內(nèi)容、視覺與理解等維度對視頻進行提示式評分。
構(gòu)建高質(zhì)量評測數(shù)據(jù)集:制作了一個包含30對真實文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實驗和消融研究顯示,PresentAgent不僅接近人類表現(xiàn),且顯著優(yōu)于現(xiàn)有方案。
演示視頻評估基準
該基準不僅評估視頻的流暢性與信息準確性,還支持對觀眾理解程度的評估。
借鑒Paper2Poster的方法,研究人員設(shè)計了一個測驗式評估,即通過視覺語言模型僅根據(jù)生成視頻(幻燈片+講解)回答內(nèi)容問題,以模擬觀眾的理解水平。
研究人員還引入人工制作的視頻作為參考標準,既用于評分校準,也作為性能上限對比。
如圖2所示,基準涵蓋四種代表性文檔類型(學(xué)術(shù)論文、網(wǎng)頁、技術(shù)博客和幻燈片),均配有真實人工講解視頻,覆蓋教育、科研、商業(yè)報告等多種真實領(lǐng)域。
示例:客觀測驗評估(Objective Quiz Evaluation)
客觀測驗評估中的提示樣例,每組選擇題均基于源文檔真實內(nèi)容手動設(shè)計,重點考查主題識別、結(jié)構(gòu)理解與核心觀點提取能力,用于評估生成視頻是否有效傳達原始信息。
示例:主觀評分維度(Subjective Scoring Prompts)
主觀評分提示示例,其中每項提示關(guān)注一個特定維度,旨在指導(dǎo)視覺語言模型以“人類視角”對視頻進行評分。縮寫說明:Narr. Coh. = 講解連貫性;Comp. Diff. = 理解難度。
研究人員采用一個「統(tǒng)一的模型驅(qū)動評估框架」來對生成的演示視頻進行評分,所有評估均使用視覺語言模型,結(jié)合針對不同維度設(shè)計的提示進行引導(dǎo)。
該評估框架由兩部分組成:
客觀測驗評估:通過選擇題測量視頻傳遞信息的準確性;
主觀評分評估:從內(nèi)容質(zhì)量、視覺/音頻設(shè)計與理解清晰度等維度,對視頻進 1–5分等級評分。
這兩類指標共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系。
Doc2Present數(shù)據(jù)集介紹
為了支持文檔到演示視頻生成的評估,研究人員構(gòu)建了一個多領(lǐng)域、多文體的真實對照數(shù)據(jù)集——Doc2Present Benchmark,其中每對數(shù)據(jù)都包含一個文檔與一個配套的演示視頻。
不同于以往只關(guān)注摘要或幻燈片的基準,數(shù)據(jù)包括商業(yè)報告、產(chǎn)品手冊、政策簡報、教程類文檔等,每篇文檔均配有人工制作的視頻講解。
數(shù)據(jù)來源
研究人員從公開平臺、教育資源庫和專業(yè)演示存檔中收集了30個高質(zhì)量演示視頻樣本,每個視頻都具有清晰結(jié)構(gòu),結(jié)合了幻燈片視覺呈現(xiàn)和同步語音講解。
研究人員手動對齊每個視頻與其源文檔,并確保視頻結(jié)構(gòu)與文檔內(nèi)容一致、幻燈片視覺信息緊湊且結(jié)構(gòu)化、講解與幻燈片在時間上良好同步。
數(shù)據(jù)統(tǒng)計信息
文檔長度:約3000–8000字
視頻長度:1–2分鐘
幻燈片數(shù)量:5–10頁
這一設(shè)置強調(diào)了任務(wù)的核心挑戰(zhàn):如何將密集、領(lǐng)域?qū)俚奈臋n內(nèi)容轉(zhuǎn)化為簡明易懂的多模態(tài)演示內(nèi)容。
PresentEval
為了評估生成的演示視頻的質(zhì)量,研究人員采用了兩種互補的評估策略:客觀選擇題評估(Objective Quiz Evaluation)和主觀評分(Subjective Scoring),如圖3所示。
對于每個視頻,將幻燈片圖像和完整的講解文本作為統(tǒng)一輸入提供給視覺-語言模型,模擬真實觀眾的觀看體驗。
在客觀評估中,模型需回答一組固定的事實性問題,以判斷視頻是否準確傳達了原始文檔中的關(guān)鍵信息。
在主觀評分中,模型從三個維度對視頻進行打分:講解的連貫性、視覺設(shè)計的清晰度與美觀性,以及整體的易理解程度。所有評估都不依賴真實參考,而完全依靠模型對呈現(xiàn)內(nèi)容的理解。
客觀選擇題評估
為了評估生成的視頻是否有效傳達了原始文檔的核心內(nèi)容,采用固定問題的理解評估協(xié)議。
研究人員為每個文檔手動設(shè)計五道多項選擇題,側(cè)重于主題識別、結(jié)構(gòu)理解和論點提取等方面。
如表1所示,評估時,視覺-語言模型接收包含幻燈片和音頻轉(zhuǎn)錄的完整視頻,并回答五個問題。
每題有四個選項,僅有一個正確答案,正確答案基于人工制作的視頻標注,最終理解得分(范圍0-5)反映模型答對了幾題,衡量視頻傳達原始信息的能力。
主觀評分
為評估生成視頻的質(zhì)量,研究人員采用基于提示的視覺-語言模型評估方式,不同于依賴人工參考或固定指標的方法,要求模型從觀眾視角出發(fā),用自身推理與偏好打分。
評分關(guān)注三個方面:講解連貫性、幻燈片視覺效果以及整體理解難度。
模型觀看視頻與音頻內(nèi)容后,分別為每個維度打分(1–5分)并簡要解釋。具體評分提示見表2,針對不同模態(tài)和任務(wù)設(shè)計了不同的提示語,以實現(xiàn)精準評估。
PresentAgent
圖4:PresentAgent框架概覽
該系統(tǒng)以多種類型的文檔(例如論文、網(wǎng)頁、PDF等)為輸入,遵循模塊化的生成流程:
首先進行提綱生成;
接著檢索出最適合的幻燈片模板;
然后借助視覺-語言模型生成幻燈片和解說文稿;
將解說文稿通過TTS轉(zhuǎn)換為音頻,并合成為完整的演示視頻;
為了評估視頻質(zhì)量,設(shè)計了多個維度的提示語;
最后將提示輸入基于視覺語言模型(VLM)的評分模塊,輸出各個維度的指標結(jié)果。
為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻,設(shè)計了一個多階段的生成框架,模擬人類準備幻燈片與演講內(nèi)容的流程。
該方法分為四步:語義分段、結(jié)構(gòu)化幻燈片生成、口語化講解生成、可視與音頻組合為同步視頻。
該模塊化設(shè)計支持可控性、可解釋性和多模態(tài)對齊,兼顧高質(zhì)量生成與細粒度評估。下文將分別介紹各模塊。
問題定義
傳統(tǒng)方法通常直接從文檔片段C生成幻燈片元素S,如下所示:
S={e1,e2,...,en}=f(C)
該方法則視整個文檔D為整體輸入,通過三步生成演示視頻:
基于大綱規(guī)劃生成語義段落序列{C1,...,CK};
對每段生成幻燈片Sk與口語講稿Tk(再轉(zhuǎn)為音頻);
合成帶時間對齊的視頻V:
V=Compose({(S1,T1),...,(SK,TK)})=g(D)
該流程不依賴固定模板,而是從高層結(jié)構(gòu)出發(fā),自底向上生成幻燈片和講解內(nèi)容,支持多模態(tài)對齊與可控生成。
幻燈片規(guī)劃與生成
幻燈片模塊借鑒了PPTAgent的結(jié)構(gòu)化編輯范式,但目標不同——不是輸出.pptx文件,而是為視頻合成生成視覺一致的靜態(tài)幻燈片幀。流程如下:
用輕量級語言模型解析文檔,劃分語義段;
為每段匹配合適的幻燈片類型(如:項目符號、圖文結(jié)合、標題介紹等);
使用規(guī)則和語義信息將內(nèi)容映射至HTML模板;
調(diào)用操作指令(如:replace_text, insert_image})生成最終幻燈片;
使用
python-pptx
或HTML渲染器渲染為靜態(tài)圖像。
講解生成與語音合成
為使幻燈片更具吸引力,研究人員為每頁幻燈片生成講解,并將其合成為語音:
針對每個語義段落,提示語言模型生成自然、簡潔的口語化講稿;
控制長度在30–150秒之間;
使用文本轉(zhuǎn)語音(TTS)系統(tǒng)生成對應(yīng)音頻;
將音頻與幻燈片匹配,形成時間對齊的素材。
視頻合成
最后一步,將靜態(tài)幻燈片圖像與配音音頻合成為完整的視頻:
每頁幻燈片持續(xù)顯示,與其音頻同步;
可添加淡入淡出過渡;
使用
ffmpeg
等視頻處理工具合成視頻軌;輸出標準格式(如
.mp4
),便于分享或編輯。
實驗結(jié)果
研究人員設(shè)計實驗以驗證PresentAgent在生成高質(zhì)量講解視頻方面的有效性。重點不在與已有基線方法比較,而是評估系統(tǒng)在接近人類表現(xiàn)方面的能力,特別是在PresentEval評估任務(wù)中的理解能力。
評估設(shè)置
研究人員構(gòu)建了一個包含30個長文檔的測試集,每個文檔配有人類手工制作的演示視頻作為參考,涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報等主題。
所有生成與人工視頻均使用PresentEval框架進行評估。由于當前尚無模型可完整評估超2分鐘的多模態(tài)視頻,采用分段評估策略:
客觀評估階段:使用Qwen-VL-2.5-3B回答固定的多項選擇題,評估內(nèi)容理解;
主觀評分階段:提取視頻與音頻片段,使用Qwen-Omni-7B針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。
評分依賴維度提示語,覆蓋內(nèi)容完整性、視覺設(shè)計與語音可理解性。
實現(xiàn)細節(jié)
PresentAgent采用高度模塊化的多模態(tài)生成架構(gòu),主要特征如下:
語言理解模塊支持GPT-4o、GPT-4o-mini、Qwen-VL-Max、Gemini-2.5 Flash/Pro、Claude-3.7-Sonnet,并通過動態(tài)路由策略選擇最優(yōu)模型;
VLM評估器使用輕量級Qwen-VL-2.5-3B-Instruct,評估布局合理性、圖表可讀性和跨模態(tài)一致性;
TTS使用MegaTTS3,支持24kHz高保真合成與節(jié)奏/情感控制;
完整流程包括:
結(jié)構(gòu)解析與重排:構(gòu)建主題–子主題樹;
逐頁生成:通過LLM生成含標題、項目符號、圖像占位符和替代文本的幻燈片;
配音合成與合成輸出:支持中英文發(fā)音,最終通過
ffmpeg
腳本合成1080p視頻,含淡入淡出與字幕。
主實驗結(jié)果
表3:五份測試文檔的詳細評估結(jié)果
表3展示了評估結(jié)果,涵蓋了事實理解能力(測驗準確率)以及基于偏好的視頻和音頻輸出質(zhì)量評分。
在測驗準確率方面,大多數(shù)PresentAgent的變體與人工基準結(jié)果(0.56)相當甚至更優(yōu)。其中Claude-3.7-sonnet取得了最高準確率0.64,表明生成內(nèi)容與源文檔之間具有較強的一致性。其他模型如Qwen-VL-Max和Gemini-2.5-flash得分略低(0.52),表明在事實對齊方面仍有提升空間。
在主觀質(zhì)量方面,由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而,一些PresentAgent變體表現(xiàn)出有競爭力的性能。例如,GPT-4o-Mini在視頻內(nèi)容和視覺吸引力方面獲得了最高分(均接近或達到4.8),而Claude-3.7-sonnet則在音頻質(zhì)量方面表現(xiàn)最為平衡(均分為4.53)。
有趣的是,Gemini-2.5-flash在視覺質(zhì)量上取得了最高得分(5.0),但在理解性方面較低,這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了模塊化生成流程的有效性,以及統(tǒng)一評估框架PresentEval在捕捉演示質(zhì)量多個維度方面的實用價值。
案例分析
圖5:自動生成視頻示例
圖5展示了一個完整的PresentAgent自動生成演示視頻示例,其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。
系統(tǒng)識別出結(jié)構(gòu)性片段(如引言、技術(shù)解釋等),并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片,涵蓋了“并行化工作流”“代理系統(tǒng)架構(gòu)”等技術(shù)主題,展示了系統(tǒng)在保持技術(shù)準確性的同時,以清晰、對話式方式傳達信息的能力。
研究人員合成了整合視覺幻燈片、文本解說和語音音頻的演示風(fēng)格視頻,模擬了現(xiàn)實中的多模態(tài)交流場景。目前的評估方法主要關(guān)注各模態(tài)的獨立質(zhì)量,例如視覺清晰度、文本相關(guān)性以及音頻可理解性,這些維度目前被分別對待。
然而,在現(xiàn)實應(yīng)用中,溝通的有效性往往取決于各模態(tài)之間的語義與時間上的協(xié)同一致性。
因此,未來的研究應(yīng)超越孤立評估,邁向融合感知(fusion-aware)的理解與評估,意味著不僅要建模圖像、音頻和文本模態(tài)之間的交互與對齊,還需賦予系統(tǒng)在多模態(tài)語義聯(lián)合下的推理能力。
現(xiàn)有模型如ImageBind提供了多模態(tài)的統(tǒng)一嵌入空間,但在高層推理與語義理解能力方面仍有所不足。
一個有前景的方向是:將表示對齊(representation alignment)與多模態(tài)推理能力(multimodal reasoning)結(jié)合起來,構(gòu)建融合對齊的模態(tài)編碼器與強大的語言模型。
這將使系統(tǒng)具備對復(fù)雜多模態(tài)輸入的聯(lián)合感知、理解與響應(yīng)能力——例如,基于語音解說與視覺線索解釋某個視覺概念,或識別模態(tài)間的不一致性。
開發(fā)此類具有推理能力的融合感知模型,將是推動多模態(tài)理解向真實世界應(yīng)用場景邁進的關(guān)鍵。
局限性與未來工作
該工作目前面臨兩個主要限制:
由于使用商業(yè)LLM/VLM API(如 GPT-4o 和 Gemini-2.5-Pro)存在高計算成本,評估僅限于5篇學(xué)術(shù)論文,可能未能充分代表該基準數(shù)據(jù)集中展示的文檔多樣性;
PresentAgent當前生成的是靜態(tài)幻燈片,尚未支持動態(tài)動畫或轉(zhuǎn)場效果,這主要受到視頻合成架構(gòu)限制以及生成速度與視覺質(zhì)量之間的權(quán)衡約束(正如 ChronoMagic-Bench中關(guān)于時間一致性的研究所指出的)。
未來的研究工作將集中在三個方向:
第一,通過引入更多種類的開源大模型作為基礎(chǔ),包括多種架構(gòu)設(shè)計、能力范圍和微調(diào)策略,拓展至更多類別的文檔,以支持更廣泛的生成與評估任務(wù),覆蓋教育、政策、商業(yè)等實際場景,力求實現(xiàn)系統(tǒng)能力的全面評估;
第二,通過優(yōu)化視頻合成架構(gòu),引入動態(tài)動畫能力,在保證生成效率的同時提升視覺表現(xiàn),適配復(fù)雜的場景轉(zhuǎn)場;
第三,探索輕量級蒸餾方法與具備物理感知能力的渲染引擎,從而提升生成效率、寫實程度和對不同硬件環(huán)境的適應(yīng)性。
結(jié)論
研究人員提出了PresentAgent,一個用于將長篇文本文檔轉(zhuǎn)換為帶有語音講解的演示視頻的模塊化系統(tǒng)。通過系統(tǒng)性地處理幻燈片規(guī)劃、語音解說合成以及視音同步渲染等流程,PresentAgent 支持對多種類型文檔的可控生成與復(fù)用的多模態(tài)輸出。
為支持嚴格評估,研究人員構(gòu)建了文檔–視頻對齊的基準數(shù)據(jù)集,并提出了雙重評估策略:事實問答與基于偏好的視覺語言評分。實驗結(jié)果(包括消融實驗與模型對比)表明,PresentAgent 能夠生成結(jié)構(gòu)清晰、表達生動且信息密集的演示內(nèi)容,整體效果接近人類水準。
結(jié)果展示了融合語言模型與視覺模型在可解釋且面向觀眾的內(nèi)容生成方面的潛力,為未來在教育、商業(yè)、無障礙傳播等場景中的自動化、可控多模態(tài)生成研究奠定了基礎(chǔ)。
參考資料:
https://arxiv.org/pdf/2507.04036
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.