99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不愁了!開源智能體Paper2Poster「一鍵生成」學(xué)術(shù)海報

0
分享至



做海報有多痛苦?

大家做學(xué)術(shù)應(yīng)該都懂那種感覺:臨近 DDL 前熬夜趕制海報,得把上萬字的論文濃縮進一頁 PPT,還要圖文并茂兼顧美觀。一不小心排版崩了、字體太小或者信息太多,導(dǎo)師改起來也是花樣百出,直呼「再精簡!」……可以說,做學(xué)術(shù)海報是科研工作中讓人頭禿的環(huán)節(jié)之一。

要是有個工具能替我們自動把論文變成海報就好了?

還別說,真的有科研團隊朝這個方向努力了!2025 年 5 月,來自滑鐵盧大學(xué)、新加坡國立大學(xué)和牛津大學(xué)的研究者發(fā)布了一個有趣的系統(tǒng)——Paper2Poster。顧名思義,它試圖用大型語言模型(LLM)當(dāng)助手,把長篇論文內(nèi)容自動生成一張精美的學(xué)術(shù)海報。



  • 論文標(biāo)題:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
  • 論文地址:https://arxiv.org/pdf/2505.21497
  • 項目主頁:https://paper2poster.github.io/
  • Github:https://github.com/Paper2Poster/Paper2Poster

這個工作開創(chuàng)了學(xué)術(shù)海報自動生成的新領(lǐng)域:一方面,它提出了首個從論文生成海報的完整框架,能夠智能提煉論文并排版;另一方面,作者還搭建了配套的評測基準(zhǔn)和指標(biāo)體系,來量化評估 AI 生成海報的效果。換句話說,不僅要讓 AI 會「畫」海報,還要知道它畫得好不好,這可是前所未有的嘗試。



插圖 1:Figure 1,Paper2Poster 任務(wù)概覽:將長篇論文(左)自動生成一頁學(xué)術(shù)海報(右)。

Paper2Poster 想解決啥問題?

用 AI 自動生成海報,說起來容易做起來難。這項任務(wù)的核心痛點在于需要大幅壓縮和重新組織信息:我們要把包含幾千詞、幾十頁、夾雜著圖表公式的論文,濃縮到一張版面有限的海報上,而且讀起來還得通俗易懂、視覺美觀。作者總結(jié)了其中三大挑戰(zhàn):

  • 長文壓縮,語義連貫:學(xué)術(shù)論文往往篇幅很長,涵蓋背景、方法、實驗等諸多細(xì)節(jié)。如何在保留核心內(nèi)容的同時砍掉冗余,并確保生成的海報前后連貫,是個難點。這需要模型具備層次化概括長文本的能力,而不能簡單截斷拼湊。

  • 多模態(tài)信息抽取:論文中穿插大量圖、表、公式,圖文交織。成功的海報離不開這些直觀的視覺要素,因此模型必須讀懂論文里的圖片和對應(yīng)文本,挑選出最重要的圖表并匹配相應(yīng)解說放進海報。也就是說,得讓 AI 同時當(dāng)文字編輯和美工。

  • 版面布局規(guī)劃:最終產(chǎn)出是一張定制尺寸的海報,這不像生成一篇純文本摘要那么簡單。模型需要考慮空間限制,合理安排多個內(nèi)容板塊的位置,保證閱讀順序和視覺平衡。如果布局失衡,不是文字?jǐn)D出框,就是大片留白,那海報質(zhì)量就大打折扣了。

正是因為以上這些挑戰(zhàn),過去雖然有人做自動幻燈片生成等工作,但自動生成學(xué)術(shù)海報幾乎是空白。有了大模型的加持,Paper2Poster 團隊才嘗試向這一「無人區(qū)」發(fā)起沖擊。

大模型怎么把論文變海報?PosterAgent 方法

解決這項任務(wù),Paper2Poster 提出了一個名為PosterAgent的多模塊多智能體方法。它不是讓一個大模型閉門造車地「一口氣生成」海報,而是模仿人類制作海報的流程,將任務(wù)拆解成多個智能體協(xié)作完成。整個系統(tǒng)采取自頂向下、視覺反饋循環(huán)的設(shè)計,如下圖所示:



插圖 2:Figure 2,PosterAgent 多智能體架構(gòu)示意圖。(a)Parser 解析論文,(b)Planner 生成布局,(c)Painter–Commenter 循環(huán)繪制和優(yōu)化海報面板。

具體而言,PosterAgent 包含串行的三個階段:

  • Parser(解析器)——全局內(nèi)容提煉。首先,PosterAgent 接收完整論文的 PDF。Parser 會利用文檔解析工具將 PDF 轉(zhuǎn)換為結(jié)構(gòu)化文本,比如提取章節(jié)標(biāo)題、段落內(nèi)容和插圖等信息,再借助 LLM 對文本進行分析歸納,生成論文的層次大綱和摘要。同時,它提取出論文中的圖表等視覺素材,將圖像和對應(yīng)標(biāo)題/說明整理出來。經(jīng)過這一階段,模型得到一個結(jié)構(gòu)化的「素材庫」,包含各章節(jié)的精簡文字段落和相關(guān)聯(lián)的圖像素材。可以認(rèn)為,Parser 完成了對原論文的粗提煉,把大而全的內(nèi)容變成可管理的提綱。

  • Planner(規(guī)劃器)——版面布局規(guī)劃。接下來,Planner 要決定哪些內(nèi)容和圖片上海報,以及如何擺放。它首先利用 LLM 將 Parser 輸出的文本摘要和圖像進行語義匹配,找出哪些圖對應(yīng)哪些段落內(nèi)容,生成一組組(章節(jié)摘要,相關(guān)圖片)對。然后,Planner 會采用一種二叉樹版面布局算法:根據(jù)每個章節(jié)文本的字?jǐn)?shù)多少、相關(guān)圖片的尺寸等,遞歸地把海報頁面劃分為若干「板塊」,為每個內(nèi)容對分配一個矩形區(qū)域坐標(biāo),同時保證排版順序符合閱讀習(xí)慣,整體布局均衡美觀。簡單來說,Planner 相當(dāng)于畫好了海報的版面草圖。接著在每個板塊內(nèi),Planner 讓 LLM 對對應(yīng)的章節(jié)摘要進一步精簡潤色,提煉出層次清晰的要點列表(如 bullet points),這樣既凸顯重點又節(jié)省空間。經(jīng)過 Planner 階段,一張海報的內(nèi)容規(guī)劃基本成型:哪些板塊放哪些文字圖片、每塊的大概位置和大小都確定了。

  • Painter–Commenter 循環(huán)(繪制器-評論員)——面板繪制與視覺優(yōu)化。有了布局規(guī)劃,最后一步就是把它渲染成具體海報。這里采用「畫家+評論家」的 AI 雙角色循環(huán):Painter相當(dāng)于美工,負(fù)責(zé)把每個板塊的文字和圖片轉(zhuǎn)換成可執(zhí)行的繪制代碼(基于 python-pptx 庫),生成海報板塊的初始圖像。然后,Commenter上場,它是一個視覺語言模型(VLM),扮演「審稿人」的角色,檢查生成的板塊圖像并給出反饋。例如,Commenter 可能指出某個板塊文字溢出框了,或版面留白太多影響觀感等。值得一提的是,為了讓 VLM 評論得靠譜,作者設(shè)計了「區(qū)域放大+參考提示」的策略:讓 Commenter 聚焦于當(dāng)前板塊圖像的局部細(xì)節(jié),并提供理想版式和常見錯誤的參考例子,盡量減少大模型在視覺判斷上的幻想偏差。收到反饋后,Painter 會根據(jù)提示修改板塊代碼重新渲染,Commenter 再評估,如此循環(huán)迭代,直到板塊質(zhì)量達(dá)標(biāo)或者達(dá)到最大迭代次數(shù)為止。經(jīng)過這個 Painter–Commenter 雙人組的反復(fù)打磨,每個板塊都被優(yōu)化得清晰、美觀且信息完整。最終,將所有板塊拼合,一個完整的海報就新鮮出爐啦。

整個 PosterAgent 方法充分利用了大模型的語言理解和視覺判斷能力,把復(fù)雜的大任務(wù)分解為若干可控的小步驟。這種多智能體協(xié)作的范式相比讓一個 GPT 模型從頭到尾單挑,更加高效且可控。事實證明,PosterAgent 不但能生成初步可用的海報成品,還方便后續(xù)人工微調(diào)(因為它支持導(dǎo)出為可編輯的 .pptx 文件)。對于科研人員來說,相當(dāng)于有了一個聰明又聽話的「海報小助手」。

生成效果如何?能打過 GPT-4o 嗎?

有了方法,大家肯定關(guān)心:AI 自動畫的海報到底好不好?Paper2Poster 的作者為此構(gòu)建了一個基準(zhǔn)數(shù)據(jù)集,收集了 100 篇近期頂會論文及其作者制作的官方海報,用來評測模型的生成效果。評估指標(biāo)則從視覺、文本、信息傳遞等多個角度出發(fā):

  • 視覺質(zhì)量(Visual Quality):比較 AI 海報和人工海報的視覺相似度。例如用CLIP模型提取圖像嵌入向量,看生成海報與作者海報在視覺特征上有多接近,并評估海報中圖像與對應(yīng)論文內(nèi)容的相關(guān)性。直觀來說,就是看機器海報的版面風(fēng)格像不像人類的成果,圖放得對不對。

  • 文本連貫性(Textual Coherence):衡量海報文字的語言通順程度。這里用困惑度(Perplexity)作為指標(biāo)——如果模型生成的句子怪異拗口,PPL 值就會偏高。畢竟再好的排版,文字讀不通順也不行。

  • 整體質(zhì)量(Holistic Assessment):讓視覺語言模型當(dāng)評委,從美學(xué)和信息兩個方面給海報打分。美學(xué)維度包括元素質(zhì)量、布局平衡、讀者吸引力(Engagement);信息維度包括內(nèi)容清晰度、完整性、邏輯流暢等。這些細(xì)粒度打分綜合起來,可以全面反映一張海報在視覺設(shè)計和內(nèi)容呈現(xiàn)上的完成度。

  • 論文問答(PaperQuiz):這是作者的核心設(shè)計,也是評價海報傳達(dá)信息有效性的硬指標(biāo)。具體做法是:讓 LLM 根據(jù)論文自動生成若干選擇題(包括直接細(xì)節(jié)題和深層理解題各 50%),然后用不同水平的 VLM 「讀」生成的海報去回答這些題目。如果海報涵蓋了論文的重要內(nèi)容,VLM 答題得分就會高,反之則分?jǐn)?shù)低。最終還引入長度懲罰,防止模型通過堆砌大段文字作弊。PaperQuiz 相當(dāng)于模擬讀者提問,考核「這張海報能把論文講明白多少」。



有了以上評測框架,作者比較了多種方案下自動海報的效果,包括:直接讓 GPT-4o 當(dāng)作繪圖機器人輸出圖像(GPT-4o-image)或生成 HTML 再渲染(GPT-4o-html),以及幾個開源多智能體系統(tǒng)(如OWL、PPTAgent 等)。

結(jié)果發(fā)現(xiàn)一些有趣的現(xiàn)象:

首先,GPT-4o 直接生成的海報遠(yuǎn)沒想象中完美。例如,讓 GPT-4o 輸出圖像版海報的話,縮略圖看著五顏六色似乎有模有樣,但一放大細(xì)看,其中的文字不是亂碼就是模糊不清,很多細(xì)節(jié)完全無法閱讀;這是由于GPT-4o通過pixel來生成文本,因此萬一出錯,會導(dǎo)致文字內(nèi)容失效,所以GPT-4o生成的文字PPL特別高。讓 GPT-4o 輸出 HTML 版本又怎樣呢?得到的往往是一頁密密麻麻的純文本,版式更像長篇博客而非海報。

同樣,其他一些基于 GPT-4o 的多智能體方案也問題頻出:例如PPTAgent常常布局失控導(dǎo)致部分內(nèi)容丟失。

相比之下,PosterAgent 生成的海報在結(jié)構(gòu)和可讀性上要合理得多:版面干凈清爽,沒有冗余的長段落,文字提煉得精簡到位,而且圖文對齊恰當(dāng)。下圖給出了不同方法為同一論文生成海報的直觀對比,可以看到 PosterAgent 的輸出在清晰度和要點覆蓋上都更勝一籌。



插圖 3:Figure 3,不同方法對同一論文生成海報的對比示例。PosterAgent(右)生成的海報用更少的文字傳達(dá)了論文核心內(nèi)容,版面結(jié)構(gòu)清晰。

更令人驚喜的是,PosterAgent基于開源模型的版本(稱為 PosterAgent-Qwen,采用 Qwen-2.5-7B 系列大模型)在幾乎所有評價指標(biāo)上都超越了基于 GPT-4o 的方案,而 PosterAgent 基于閉源模型的版本 PosterAgent-4o 更是同時在論文問答準(zhǔn)確性和海報美觀度上均達(dá)到最高水平,真正做到了既智能精準(zhǔn),又設(shè)計出眾。





并且,由于流水線設(shè)計高效,PosterAgent-Qwen 生成一張海報所消耗的 tokens 數(shù)量比 OWL 動輒上百 k 的調(diào)用少了將近87%!這直接帶來速度和成本優(yōu)勢:據(jù)統(tǒng)計,轉(zhuǎn)換一篇 22 頁長的論文為可編輯的海報(.pptx 格式)大約只需花費 $0.005 美元的 API 成本。短短幾分鐘,就能讓 AI 替你畫海報,想想還有點小激動呢。

更關(guān)鍵的是,作者已將完整代碼、模型權(quán)重和數(shù)據(jù)集開源出來,任何人都可以在HuggingFace和 GitHub 上使用這個工具。或許不久的將來,在家用一塊常規(guī)顯卡,你就能讓 Paper2Poster 來幫忙出海報初稿,然后人類再稍加潤色即可。



當(dāng)然,目前 Paper2Poster 也有一些局限。比如,Painter-Commenter 循環(huán)還是串行逐塊優(yōu)化,效率上可能成為瓶頸,未來可以考慮并行加速。另外,AI 生成的海報在視覺美感和創(chuàng)意上與人類設(shè)計尚有差距——尤其是讀者吸引力(Engagement)這一維度現(xiàn)在仍是短板。畢竟很多作者自己做海報時會精心挑選直觀的示意圖、配色和排版技巧,讓觀眾一眼抓住重點;而 AI 模型主要靠提煉文字和現(xiàn)有圖片,缺少「錦上添花」的點睛之筆。

所以,將來如何讓模型更好地利用視覺元素傳達(dá)信息,也是值得探索的方向。論文作者也提出,可以考慮融入外部知識和素材(比如課題組模板、會議 logo 等),或者讓人機協(xié)作共同完善海報設(shè)計。這些展望無疑為后續(xù)研究指明了道路。

展望:科研輔助,從海報走向未來

Paper2Poster 的出現(xiàn),表明大模型在學(xué)術(shù)傳播場景中有了實用的一席之地。從寫論文摘要,到自動生成學(xué)術(shù)海報,再到未來可能的自動論文審稿人、科研助理,AI 正在逐步滲透科研工作的方方面面。

也許再過幾年,我們真的可以按下一個鍵,就讓 AI 替我們把論文變成海報、幻燈片,甚至一篇面向大眾的科普稿。同時,人類研究者則可以把更多精力放在創(chuàng)造新的想法、設(shè)計實驗和推演理論上,而把繁瑣的格式調(diào)整、版面美化交給智能助手處理。

總的來說,Paper2Poster 帶來了一個令人興奮的開端:學(xué)術(shù)海報這樣的「小事」今后或許不再需要我們反復(fù)糾結(jié)版式和措辭,大模型已經(jīng)展現(xiàn)出接手這些任務(wù)的潛力。當(dāng)然,AI 工具終究是輔助,真正的科研妙筆仍需人類去書寫。但可以預(yù)見,隨著這類科研輔助系統(tǒng)的發(fā)展成熟,我們離「讓科研更專注,讓雜事交給 AI」的理想又近了一步。期待未來會有更多類似 Paper2Poster 的創(chuàng)新,讓科研工作變得更加高效、有趣。

PosterAgent 生成樣例:

Differentially Private CutMix for Split Learning with Vision Transformer:



A Neural Tangent Kernel Perspective of Infinite Tree Ensembles:



彩蛋:讓Paper2Poster為Paper2Poster生成一張Poster



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
52歲袁立和老公巴黎度假,小11歲老公變洋氣了,跟袁立身后像助理

52歲袁立和老公巴黎度假,小11歲老公變洋氣了,跟袁立身后像助理

鄭丁嘉話
2025-06-10 09:14:52
震驚!網(wǎng)傳某工程局6月1日起,只發(fā)基本工資,沒有績效的發(fā)40%…

震驚!網(wǎng)傳某工程局6月1日起,只發(fā)基本工資,沒有績效的發(fā)40%…

火山詩話
2025-06-09 20:59:04
“存款100萬啥檔次”?銀行員工直言:真相扎心,普通人難以企及

“存款100萬啥檔次”?銀行員工直言:真相扎心,普通人難以企及

小談食刻美食
2025-06-09 16:51:11
數(shù)十億血汗錢被卷走!國內(nèi)最大“靈修”騙局洗腦上萬人!

數(shù)十億血汗錢被卷走!國內(nèi)最大“靈修”騙局洗腦上萬人!

財經(jīng)三分鐘pro
2025-06-10 14:45:54
俄羅斯發(fā)射38枚導(dǎo)彈,澤連斯基藏身地被發(fā)現(xiàn),斬首行動有三個理由

俄羅斯發(fā)射38枚導(dǎo)彈,澤連斯基藏身地被發(fā)現(xiàn),斬首行動有三個理由

近史談
2025-06-10 11:20:41
沉默4天,中方為C919出頭,法德將帶歷史大單訪華,波音即將衰落

沉默4天,中方為C919出頭,法德將帶歷史大單訪華,波音即將衰落

議紀(jì)史
2025-06-09 20:00:07
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
原帥制勝三分,遼寧男籃逆轉(zhuǎn)北京4連勝,趙繼偉送10助攻 付豪22+6

原帥制勝三分,遼寧男籃逆轉(zhuǎn)北京4連勝,趙繼偉送10助攻 付豪22+6

替補席看球
2025-06-10 19:07:44
喜鵲報喜!三大生肖六月運勢開掛,財運逆襲幸福滿堂

喜鵲報喜!三大生肖六月運勢開掛,財運逆襲幸福滿堂

人閒情事
2025-06-10 21:41:19
有一技之長是有多吃香,網(wǎng)友:掌握一門技術(shù)真的夠吃一輩子

有一技之長是有多吃香,網(wǎng)友:掌握一門技術(shù)真的夠吃一輩子

阿康四歲啦
2025-06-09 15:14:16
高考最后一天,惡心的一幕還是出現(xiàn)了,網(wǎng)友不淡定了

高考最后一天,惡心的一幕還是出現(xiàn)了,網(wǎng)友不淡定了

鋭娛之樂
2025-06-09 15:11:24
不反對統(tǒng)一,美軍態(tài)度巨變,唯一條件已開出,不想和解放軍作對

不反對統(tǒng)一,美軍態(tài)度巨變,唯一條件已開出,不想和解放軍作對

藍(lán)涇看一看
2025-06-10 11:10:46
你無意中看到了什么不該看的東西?網(wǎng)友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網(wǎng)友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
石川佳純談乒超聯(lián)賽:那是世界最高水平的聯(lián)賽

石川佳純談乒超聯(lián)賽:那是世界最高水平的聯(lián)賽

懂球帝
2025-06-10 21:07:45
新戶存5萬以上送LABUBU盲盒 平安銀行多地分支行跟進 工作人員:是行里統(tǒng)一的 進貨渠道不清楚

新戶存5萬以上送LABUBU盲盒 平安銀行多地分支行跟進 工作人員:是行里統(tǒng)一的 進貨渠道不清楚

閃電新聞
2025-06-09 22:35:20
剛剛,以色列確認(rèn)已將愛國者防空系統(tǒng)移交烏克蘭

剛剛,以色列確認(rèn)已將愛國者防空系統(tǒng)移交烏克蘭

山河路口
2025-06-09 23:31:27
最擅長左邊鋒!伊萬和卡內(nèi)達(dá)都曾將王鈺棟用于錯誤的位置

最擅長左邊鋒!伊萬和卡內(nèi)達(dá)都曾將王鈺棟用于錯誤的位置

直播吧
2025-06-10 21:04:44
曝湖南一男生高考失利,抑郁癥發(fā)作跳樓輕生,母親悲痛發(fā)聲!

曝湖南一男生高考失利,抑郁癥發(fā)作跳樓輕生,母親悲痛發(fā)聲!

古希臘掌管松餅的神
2025-06-10 08:50:02
重磅!中國最新糖尿病數(shù)據(jù)出爐,患病率急劇上升,每6個人就有1個,北京、天津、上海患病率最高

重磅!中國最新糖尿病數(shù)據(jù)出爐,患病率急劇上升,每6個人就有1個,北京、天津、上海患病率最高

醫(yī)諾維
2025-06-10 17:13:24
中國女牌手Britney曬與巴特勒合照,定位顯示已到拉斯維加斯

中國女牌手Britney曬與巴特勒合照,定位顯示已到拉斯維加斯

懂球帝
2025-06-09 09:48:13
2025-06-10 23:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10615文章數(shù) 142336關(guān)注度
往期回顧 全部

科技要聞

"液態(tài)玻璃"新皮膚,能挽救"AI差生"蘋果嗎

頭條要聞

美國多地聯(lián)動抗議 華爾街大佬:美國即將進入真正內(nèi)戰(zhàn)

頭條要聞

美國多地聯(lián)動抗議 華爾街大佬:美國即將進入真正內(nèi)戰(zhàn)

體育要聞

17歲攀上最高的山!亞馬爾身價 2年從0飆至2億歐

娛樂要聞

唐嫣卷入熱巴換角風(fēng)波 只能給熱巴加戲

財經(jīng)要聞

連續(xù)4個月提"漲工資",背后有何深意?

汽車要聞

激光雷達(dá)+9氣囊 一汽豐田bZ5售12.98萬起

態(tài)度原創(chuàng)

健康
手機
房產(chǎn)
公開課
軍事航空

減重專家破解減肥九大謠言!

手機要聞

曝華為Pura80系列搭載行業(yè)首創(chuàng)雙鏡長焦 支持可調(diào)節(jié)風(fēng)格化拍攝

房產(chǎn)要聞

45億!突然,又一民企巨頭殺入海南舊改!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏開始交換首批25歲以下被俘軍人

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 南宫市| 玉林市| 清新县| 怀化市| 乌兰县| 左权县| 甘洛县| 乐东| 龙井市| 白河县| 馆陶县| 汤阴县| 水富县| 固原市| 新巴尔虎左旗| 佛教| 康平县| 驻马店市| 昭通市| 那曲县| 白水县| 枣强县| 桐乡市| 文水县| 大洼县| 囊谦县| 绵阳市| 安陆市| 舞钢市| 浮梁县| 福清市| 东丰县| 海晏县| 改则县| 渝中区| 眉山市| 河曲县| 顺义区| 普安县| 惠东县| 嵊泗县|