99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

演講生成黑科技,PresentAgent從文本到演講視頻

0
分享至



本項目為AI Geeks、澳洲人工智能研究所、利物浦大學(xué)、拉籌伯大學(xué)的聯(lián)合工作。

我們提出了 PresentAgent,一個能夠?qū)㈤L篇文檔轉(zhuǎn)化為帶解說的演示視頻、多模態(tài)智能體。現(xiàn)有方法大多局限于生成靜態(tài)幻燈片或文本摘要,而我們的方案突破了這些限制,能夠生成高度同步的視覺內(nèi)容和語音解說,逼真模擬人類風(fēng)格的演示。



  • 論文標(biāo)題:PresentAgent: Multimodal Agent for Presentation Video Generation
  • 論文地址:https://arxiv.org/abs/2507.04036
  • 代碼:
  • https://github.com/AIGeeksGroup/PresentAgent

為了實(shí)現(xiàn)這一整合,PresentAgent 采用了模塊化流程,如圖 1 所示,包括以下步驟:1. 系統(tǒng)性地對輸入文檔進(jìn)行分段;2. 規(guī)劃并渲染幻燈片風(fēng)格的視覺幀;3. 利用大型語言模型與文本轉(zhuǎn)語音模型生成具有上下文的語音解說;4. 最終將音頻與視覺內(nèi)容精確對齊,無縫組合成完整視頻。



圖 1 PresentAgent 概覽。該系統(tǒng)以文檔(如網(wǎng)頁)為輸入,經(jīng)過以下生成流程:(1)文檔處理、(2)結(jié)構(gòu)化幻燈片生成、(3)同步字幕創(chuàng)建,以及(4) 語音合成。最終輸出為一個結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出。

考慮到這種多模態(tài)輸出的評估難度,我們引入了 PresentEval,一個由視覺-語言模型驅(qū)動的統(tǒng)一評估框架,從以下三個關(guān)鍵維度全面打分:內(nèi)容忠實(shí)度(Content Fidelity)、視覺清晰度(Visual Clarity)和觀眾理解度(Audience Comprehension)。

評估采用基于提示的方式進(jìn)行。我們在一個精心整理的包含 30 對「文檔-演示」樣本的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,PresentAgent 在所有評估指標(biāo)上接近人類水平的表現(xiàn)。

這些結(jié)果展示了可控多模態(tài)智能體在將靜態(tài)文本材料轉(zhuǎn)化為動態(tài)、有效、易獲取的演示格式方面的巨大潛力。

我們的主要貢獻(xiàn)如下:

  • 提出新任務(wù):首次提出「文檔到演示視頻生成」這一新任務(wù),旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻,并配有語音解說。

  • 設(shè)計 PresentAgent 系統(tǒng):提出一個模塊化生成框架,涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步,實(shí)現(xiàn)可控、可解釋的視頻生成過程。

  • 提出 PresentEval 評估框架:構(gòu)建一個由視覺語言模型驅(qū)動的多維度評估機(jī)制,從內(nèi)容、視覺與理解等維度對視頻進(jìn)行提示式評分。

  • 構(gòu)建高質(zhì)量評測數(shù)據(jù)集:我們制作了一個包含 30 對真實(shí)文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實(shí)驗(yàn)和消融研究顯示,PresentAgent 不僅接近人類表現(xiàn),且顯著優(yōu)于現(xiàn)有方案。

演示視頻評估基準(zhǔn)(Presentation Benchmark)



圖 2 我們評估基準(zhǔn)中的文檔多樣性

為了支持文檔到演示視頻生成的評估,我們構(gòu)建了一個多領(lǐng)域、多文體的真實(shí)對照數(shù)據(jù)集——Doc2Present Benchmark,其中每對數(shù)據(jù)都包含一個文檔與一個配套的演示視頻。不同于以往只關(guān)注摘要或幻燈片的基準(zhǔn),我們的數(shù)據(jù)包括:

  • 商業(yè)報告
  • 產(chǎn)品手冊
  • 政策簡報
  • 教程類文檔等

每篇文檔均配有人工制作的視頻講解,如圖 2 所示。



圖 3 我們的評測方法框架概覽

與 paper2poster 的方法類似,我們設(shè)計了一個測驗(yàn)式評估框架,即通過視覺語言模型僅根據(jù)生成視頻(幻燈片+講解)回答內(nèi)容問題,以模擬觀眾的理解水平,同時我們還引入人工制作的視頻作為參考標(biāo)準(zhǔn),既用于評分校準(zhǔn),也作為性能上限對比。

該評估框架由兩部分組成:

  • 客觀測驗(yàn)評估:通過選擇題測量視頻傳遞信息的準(zhǔn)確性;
  • 主觀評分評估:從內(nèi)容質(zhì)量、視覺/音頻設(shè)計與理解清晰度等維度,對視頻進(jìn)行 1–5 分等級評分;這兩類指標(biāo)共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系,如圖 3 所示。

PresentAgent



圖 4 PresentAgent 框架概覽

本系統(tǒng)以多種類型的文檔(例如論文、網(wǎng)頁、PDF 等)為輸入,遵循模塊化的生成流程:

  1. 首先進(jìn)行提綱生成;
  2. 檢索出最適合的幻燈片模板;
  3. 然后借助視覺-語言模型生成幻燈片和解說文稿;
  4. 將解說文稿通過 TTS 轉(zhuǎn)換為音頻,并合成為完整的演示視頻;
  5. 為了評估視頻質(zhì)量,我們設(shè)計了多個維度的提示語;
  6. 最后將提示輸入基于視覺語言模型(VLM)的評分模塊,輸出各個維度的指標(biāo)結(jié)果。

為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻,我們設(shè)計了一個多階段的生成框架,模擬人類準(zhǔn)備幻燈片與演講內(nèi)容的流程,如圖 4 所示。該方法分為四步:

  1. 語義分段;
  2. 結(jié)構(gòu)化幻燈片生成;
  3. 口語化講解生成;
  4. 可視與音頻組合為同步視頻。

該模塊化設(shè)計支持可控性、可解釋性和多模態(tài)對齊,兼顧高質(zhì)量生成與細(xì)粒度評估。下文將分別介紹各模塊。

實(shí)驗(yàn)

我們構(gòu)建了一個包含 30 個長文檔的測試集,每個文檔配有人類手工制作的演示視頻作為參考。這些文檔涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報等主題。

所有生成與人工視頻均使用 PresentEval 框架進(jìn)行評估。由于當(dāng)前尚無模型可完整評估超 2 分鐘的多模態(tài)視頻,我們采用分段評估策略:

  • 客觀評估階段:使用 Qwen-VL-2.5-3B 回答固定的多項選擇題,評估內(nèi)容理解;
  • 主觀評分階段:提取視頻與音頻片段,使用 Qwen-Omni-7B 針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。

主實(shí)驗(yàn)結(jié)果



在測驗(yàn)準(zhǔn)確率方面,大多數(shù) PresentAgent 的變體與人工基準(zhǔn)結(jié)果(0.56)相當(dāng)甚至更優(yōu)。其中 Claude-3.7-sonnet 取得了最高準(zhǔn)確率 0.64,表明生成內(nèi)容與源文檔之間具有較強(qiáng)的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事實(shí)對齊方面仍有提升空間。

在主觀質(zhì)量方面,由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而,一些 PresentAgent 變體表現(xiàn)出有競爭力的性能。例如,GPT-4o-Mini 在視頻內(nèi)容和視覺吸引力方面獲得了最高分(均接近或達(dá)到 4.8),而 Claude-3.7-sonnet 則在音頻質(zhì)量方面表現(xiàn)最為平衡(均分為 4.53)。

有趣的是,Gemini-2.5-flash 在視覺質(zhì)量上取得了最高得分(5.0),但在理解性方面較低,這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了我們模塊化生成流程的有效性,以及統(tǒng)一評估框架 PresentEval 在捕捉演示質(zhì)量多個維度方面的實(shí)用價值。

案例分析



圖 5 PresentAgent 自動生成演示視頻示例

圖 5 體現(xiàn)了一個完整的 PresentAgent 自動生成演示視頻示例,其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。系統(tǒng)識別出結(jié)構(gòu)性片段(如引言、技術(shù)解釋等),并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片,涵蓋了「并行化工作流」、「代理系統(tǒng)架構(gòu)」等技術(shù)主題,展示了系統(tǒng)在保持技術(shù)準(zhǔn)確性的同時,以清晰、對話式方式傳達(dá)信息的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
柯慶施到底是個什么樣的人?馬達(dá)同志坦言:他的這個有點(diǎn)不能否定

柯慶施到底是個什么樣的人?馬達(dá)同志坦言:他的這個有點(diǎn)不能否定

文史旺旺旺
2025-07-10 20:57:22
美記:有時楊瀚森已精疲力盡 球隊可能為了觀眾想讓其再堅持一下

美記:有時楊瀚森已精疲力盡 球隊可能為了觀眾想讓其再堅持一下

直播吧
2025-07-18 12:20:49
名宿維蘭德盛贊辛納:他的技術(shù)水平至少領(lǐng)先當(dāng)今男子網(wǎng)壇五到十年

名宿維蘭德盛贊辛納:他的技術(shù)水平至少領(lǐng)先當(dāng)今男子網(wǎng)壇五到十年

網(wǎng)球之家
2025-07-17 23:50:20
涉“長和出售港口”最新報道,外交部回應(yīng)

涉“長和出售港口”最新報道,外交部回應(yīng)

每日經(jīng)濟(jì)新聞
2025-07-18 17:01:55
攻不了守不住,在西藏上空被印度空軍足足欺負(fù)了40年的中國空軍

攻不了守不住,在西藏上空被印度空軍足足欺負(fù)了40年的中國空軍

小雪的運(yùn)動之心
2025-07-17 05:19:42
特朗普出訪行程公布,專機(jī)將飛往中國家門口,訪華已是水到渠成?

特朗普出訪行程公布,專機(jī)將飛往中國家門口,訪華已是水到渠成?

愛史紀(jì)
2025-07-18 21:24:31
卡尼想討好美國卻被征稅,轉(zhuǎn)身捅刀中國,最大訂單被送給澳洲

卡尼想討好美國卻被征稅,轉(zhuǎn)身捅刀中國,最大訂單被送給澳洲

井普椿的獨(dú)白
2025-07-18 22:50:24
跳水能拿世界冠軍,卻治不了鄰居“坐地起價”,這是什么道理?

跳水能拿世界冠軍,卻治不了鄰居“坐地起價”,這是什么道理?

暮光視界
2025-07-17 12:22:14
歷史第二!688585,換手率飆升,股價還能飛多久?

歷史第二!688585,換手率飆升,股價還能飛多久?

大眾證券報
2025-07-18 18:09:30
最新后續(xù)!施幼珍早年錄音被曝,宗慶后屬于女員工,與保姆是謠言

最新后續(xù)!施幼珍早年錄音被曝,宗慶后屬于女員工,與保姆是謠言

叮當(dāng)當(dāng)科技
2025-07-18 20:46:04
父親任外交部長,兒子當(dāng)國防部長,朝野震動!

父親任外交部長,兒子當(dāng)國防部長,朝野震動!

品藏天下
2025-07-18 10:21:51
美記:楊瀚森賽后輕拍手腕,示意已準(zhǔn)備好與利拉德一同迎接“利拉德時刻”

美記:楊瀚森賽后輕拍手腕,示意已準(zhǔn)備好與利拉德一同迎接“利拉德時刻”

雷速體育
2025-07-18 10:57:17
中方罕見發(fā)大火,向日本提嚴(yán)正交涉,日方說了特朗普都不敢說的話

中方罕見發(fā)大火,向日本提嚴(yán)正交涉,日方說了特朗普都不敢說的話

史紀(jì)文譚
2025-07-18 22:52:09
老年暴走團(tuán)強(qiáng)行阻攔!救護(hù)車被迫讓路,多方回應(yīng):是景區(qū)內(nèi)道路

老年暴走團(tuán)強(qiáng)行阻攔!救護(hù)車被迫讓路,多方回應(yīng):是景區(qū)內(nèi)道路

奇思妙想草葉君
2025-07-18 16:56:21
15分鐘鎖單破萬,華為最牛技術(shù)跳過“五界”給了嵐圖

15分鐘鎖單破萬,華為最牛技術(shù)跳過“五界”給了嵐圖

國際金融報
2025-07-16 23:05:28
演唱會屏幕竟拍到已婚男CEO摟抱女下屬畫面,兩人嚇得立馬把臉藏起來,主唱:你們是在出軌嗎?

演唱會屏幕竟拍到已婚男CEO摟抱女下屬畫面,兩人嚇得立馬把臉藏起來,主唱:你們是在出軌嗎?

極目新聞
2025-07-18 10:47:51
7月20入頭伏,傳統(tǒng)吃餃子,提醒:3餡不上桌,福氣不進(jìn)門,正當(dāng)季

7月20入頭伏,傳統(tǒng)吃餃子,提醒:3餡不上桌,福氣不進(jìn)門,正當(dāng)季

小茉莉美食記
2025-07-18 07:05:03
官宣:高校大規(guī)模裁員!

官宣:高校大規(guī)模裁員!

超級數(shù)學(xué)建模
2025-07-18 22:36:17
可口可樂公司謝絕聽從特朗普“改配方”后,百事可樂公司表態(tài):我們可以改

可口可樂公司謝絕聽從特朗普“改配方”后,百事可樂公司表態(tài):我們可以改

環(huán)球網(wǎng)資訊
2025-07-18 18:23:44
馬斯克回歸,汽車市場將再掀風(fēng)浪,特斯拉或成全球銷量冠軍

馬斯克回歸,汽車市場將再掀風(fēng)浪,特斯拉或成全球銷量冠軍

陳博世財經(jīng)
2025-07-18 10:30:40
2025-07-18 23:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10898文章數(shù) 142385關(guān)注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

體育要聞

夏聯(lián)-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認(rèn)自己水性楊花

財經(jīng)要聞

娃哈哈爭產(chǎn)大戰(zhàn):杜建英的進(jìn)擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達(dá)/車載無人機(jī)

態(tài)度原創(chuàng)

家居
房產(chǎn)
游戲
親子
時尚

家居要聞

簡構(gòu)智居 現(xiàn)代功能美學(xué)

房產(chǎn)要聞

一梯一戶純板樓!斷貨三年,海口這一核心區(qū),硬貨出場!

小福兔錦衣3.16萬成交創(chuàng)新高,22億夢幻西游幣鑒定過百件靈飾

親子要聞

瑞典女嬰出生10月竟長出“丁丁”?體內(nèi)雄性激素異常,醫(yī)生:都怪她爹…

這么丑的五指鞋,會是OOTD新風(fēng)向嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 商河县| 汉阴县| 临西县| 张北县| 永平县| 佳木斯市| 深圳市| 望江县| 花莲县| 柳林县| 汕尾市| 察雅县| 昭平县| 河北省| 饶河县| 华坪县| 调兵山市| 额尔古纳市| 嘉鱼县| 依安县| 托克逊县| 化德县| 清流县| 乐昌市| 静安区| 环江| 凤阳县| 金秀| 沙湾县| 伊金霍洛旗| 琼结县| 泗阳县| 随州市| 四平市| 岳西县| 武汉市| 石阡县| 瑞安市| 盐源县| 建始县| 莱州市|