做海報有多痛苦?
大家做學(xué)術(shù)應(yīng)該都懂那種感覺:臨近 DDL 前熬夜趕制海報,得把上萬字的論文濃縮進一頁 PPT,還要圖文并茂兼顧美觀。一不小心排版崩了、字體太小或者信息太多,導(dǎo)師改起來也是花樣百出,直呼「再精簡!」……可以說,做學(xué)術(shù)海報是科研工作中讓人頭禿的環(huán)節(jié)之一。
要是有個工具能替我們自動把論文變成海報就好了?
還別說,真的有科研團隊朝這個方向努力了!2025 年 5 月,來自滑鐵盧大學(xué)、新加坡國立大學(xué)和牛津大學(xué)的研究者發(fā)布了一個有趣的系統(tǒng)——Paper2Poster。顧名思義,它試圖用大型語言模型(LLM)當(dāng)助手,把長篇論文內(nèi)容自動生成一張精美的學(xué)術(shù)海報。
- 論文標(biāo)題:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
- 論文地址:https://arxiv.org/pdf/2505.21497
- 項目主頁:https://paper2poster.github.io/
- Github:https://github.com/Paper2Poster/Paper2Poster
這個工作開創(chuàng)了學(xué)術(shù)海報自動生成的新領(lǐng)域:一方面,它提出了首個從論文生成海報的完整框架,能夠智能提煉論文并排版;另一方面,作者還搭建了配套的評測基準(zhǔn)和指標(biāo)體系,來量化評估 AI 生成海報的效果。換句話說,不僅要讓 AI 會「畫」海報,還要知道它畫得好不好,這可是前所未有的嘗試。
插圖 1:Figure 1,Paper2Poster 任務(wù)概覽:將長篇論文(左)自動生成一頁學(xué)術(shù)海報(右)。
Paper2Poster 想解決啥問題?
用 AI 自動生成海報,說起來容易做起來難。這項任務(wù)的核心痛點在于需要大幅壓縮和重新組織信息:我們要把包含幾千詞、幾十頁、夾雜著圖表公式的論文,濃縮到一張版面有限的海報上,而且讀起來還得通俗易懂、視覺美觀。作者總結(jié)了其中三大挑戰(zhàn):
- 長文壓縮,語義連貫:學(xué)術(shù)論文往往篇幅很長,涵蓋背景、方法、實驗等諸多細(xì)節(jié)。如何在保留核心內(nèi)容的同時砍掉冗余,并確保生成的海報前后連貫,是個難點。這需要模型具備層次化概括長文本的能力,而不能簡單截斷拼湊。
- 多模態(tài)信息抽取:論文中穿插大量圖、表、公式,圖文交織。成功的海報離不開這些直觀的視覺要素,因此模型必須讀懂論文里的圖片和對應(yīng)文本,挑選出最重要的圖表并匹配相應(yīng)解說放進海報。也就是說,得讓 AI 同時當(dāng)文字編輯和美工。
- 版面布局規(guī)劃:最終產(chǎn)出是一張定制尺寸的海報,這不像生成一篇純文本摘要那么簡單。模型需要考慮空間限制,合理安排多個內(nèi)容板塊的位置,保證閱讀順序和視覺平衡。如果布局失衡,不是文字?jǐn)D出框,就是大片留白,那海報質(zhì)量就大打折扣了。
正是因為以上這些挑戰(zhàn),過去雖然有人做自動幻燈片生成等工作,但自動生成學(xué)術(shù)海報幾乎是空白。有了大模型的加持,Paper2Poster 團隊才嘗試向這一「無人區(qū)」發(fā)起沖擊。
大模型怎么把論文變海報?PosterAgent 方法
解決這項任務(wù),Paper2Poster 提出了一個名為PosterAgent的多模塊多智能體方法。它不是讓一個大模型閉門造車地「一口氣生成」海報,而是模仿人類制作海報的流程,將任務(wù)拆解成多個智能體協(xié)作完成。整個系統(tǒng)采取自頂向下、視覺反饋循環(huán)的設(shè)計,如下圖所示:
插圖 2:Figure 2,PosterAgent 多智能體架構(gòu)示意圖。(a)Parser 解析論文,(b)Planner 生成布局,(c)Painter–Commenter 循環(huán)繪制和優(yōu)化海報面板。
具體而言,PosterAgent 包含串行的三個階段:
- Parser(解析器)——全局內(nèi)容提煉。首先,PosterAgent 接收完整論文的 PDF。Parser 會利用文檔解析工具將 PDF 轉(zhuǎn)換為結(jié)構(gòu)化文本,比如提取章節(jié)標(biāo)題、段落內(nèi)容和插圖等信息,再借助 LLM 對文本進行分析歸納,生成論文的層次大綱和摘要。同時,它提取出論文中的圖表等視覺素材,將圖像和對應(yīng)標(biāo)題/說明整理出來。經(jīng)過這一階段,模型得到一個結(jié)構(gòu)化的「素材庫」,包含各章節(jié)的精簡文字段落和相關(guān)聯(lián)的圖像素材。可以認(rèn)為,Parser 完成了對原論文的粗提煉,把大而全的內(nèi)容變成可管理的提綱。
- Planner(規(guī)劃器)——版面布局規(guī)劃。接下來,Planner 要決定哪些內(nèi)容和圖片上海報,以及如何擺放。它首先利用 LLM 將 Parser 輸出的文本摘要和圖像進行語義匹配,找出哪些圖對應(yīng)哪些段落內(nèi)容,生成一組組(章節(jié)摘要,相關(guān)圖片)對。然后,Planner 會采用一種二叉樹版面布局算法:根據(jù)每個章節(jié)文本的字?jǐn)?shù)多少、相關(guān)圖片的尺寸等,遞歸地把海報頁面劃分為若干「板塊」,為每個內(nèi)容對分配一個矩形區(qū)域坐標(biāo),同時保證排版順序符合閱讀習(xí)慣,整體布局均衡美觀。簡單來說,Planner 相當(dāng)于畫好了海報的版面草圖。接著在每個板塊內(nèi),Planner 讓 LLM 對對應(yīng)的章節(jié)摘要進一步精簡潤色,提煉出層次清晰的要點列表(如 bullet points),這樣既凸顯重點又節(jié)省空間。經(jīng)過 Planner 階段,一張海報的內(nèi)容規(guī)劃基本成型:哪些板塊放哪些文字圖片、每塊的大概位置和大小都確定了。
- Painter–Commenter 循環(huán)(繪制器-評論員)——面板繪制與視覺優(yōu)化。有了布局規(guī)劃,最后一步就是把它渲染成具體海報。這里采用「畫家+評論家」的 AI 雙角色循環(huán):Painter相當(dāng)于美工,負(fù)責(zé)把每個板塊的文字和圖片轉(zhuǎn)換成可執(zhí)行的繪制代碼(基于 python-pptx 庫),生成海報板塊的初始圖像。然后,Commenter上場,它是一個視覺語言模型(VLM),扮演「審稿人」的角色,檢查生成的板塊圖像并給出反饋。例如,Commenter 可能指出某個板塊文字溢出框了,或版面留白太多影響觀感等。值得一提的是,為了讓 VLM 評論得靠譜,作者設(shè)計了「區(qū)域放大+參考提示」的策略:讓 Commenter 聚焦于當(dāng)前板塊圖像的局部細(xì)節(jié),并提供理想版式和常見錯誤的參考例子,盡量減少大模型在視覺判斷上的幻想偏差。收到反饋后,Painter 會根據(jù)提示修改板塊代碼重新渲染,Commenter 再評估,如此循環(huán)迭代,直到板塊質(zhì)量達(dá)標(biāo)或者達(dá)到最大迭代次數(shù)為止。經(jīng)過這個 Painter–Commenter 雙人組的反復(fù)打磨,每個板塊都被優(yōu)化得清晰、美觀且信息完整。最終,將所有板塊拼合,一個完整的海報就新鮮出爐啦。
整個 PosterAgent 方法充分利用了大模型的語言理解和視覺判斷能力,把復(fù)雜的大任務(wù)分解為若干可控的小步驟。這種多智能體協(xié)作的范式相比讓一個 GPT 模型從頭到尾單挑,更加高效且可控。事實證明,PosterAgent 不但能生成初步可用的海報成品,還方便后續(xù)人工微調(diào)(因為它支持導(dǎo)出為可編輯的 .pptx 文件)。對于科研人員來說,相當(dāng)于有了一個聰明又聽話的「海報小助手」。
生成效果如何?能打過 GPT-4o 嗎?
有了方法,大家肯定關(guān)心:AI 自動畫的海報到底好不好?Paper2Poster 的作者為此構(gòu)建了一個基準(zhǔn)數(shù)據(jù)集,收集了 100 篇近期頂會論文及其作者制作的官方海報,用來評測模型的生成效果。評估指標(biāo)則從視覺、文本、信息傳遞等多個角度出發(fā):
- 視覺質(zhì)量(Visual Quality):比較 AI 海報和人工海報的視覺相似度。例如用CLIP模型提取圖像嵌入向量,看生成海報與作者海報在視覺特征上有多接近,并評估海報中圖像與對應(yīng)論文內(nèi)容的相關(guān)性。直觀來說,就是看機器海報的版面風(fēng)格像不像人類的成果,圖放得對不對。
- 文本連貫性(Textual Coherence):衡量海報文字的語言通順程度。這里用困惑度(Perplexity)作為指標(biāo)——如果模型生成的句子怪異拗口,PPL 值就會偏高。畢竟再好的排版,文字讀不通順也不行。
- 整體質(zhì)量(Holistic Assessment):讓視覺語言模型當(dāng)評委,從美學(xué)和信息兩個方面給海報打分。美學(xué)維度包括元素質(zhì)量、布局平衡、讀者吸引力(Engagement);信息維度包括內(nèi)容清晰度、完整性、邏輯流暢等。這些細(xì)粒度打分綜合起來,可以全面反映一張海報在視覺設(shè)計和內(nèi)容呈現(xiàn)上的完成度。
- 論文問答(PaperQuiz):這是作者的核心設(shè)計,也是評價海報傳達(dá)信息有效性的硬指標(biāo)。具體做法是:讓 LLM 根據(jù)論文自動生成若干選擇題(包括直接細(xì)節(jié)題和深層理解題各 50%),然后用不同水平的 VLM 「讀」生成的海報去回答這些題目。如果海報涵蓋了論文的重要內(nèi)容,VLM 答題得分就會高,反之則分?jǐn)?shù)低。最終還引入長度懲罰,防止模型通過堆砌大段文字作弊。PaperQuiz 相當(dāng)于模擬讀者提問,考核「這張海報能把論文講明白多少」。
有了以上評測框架,作者比較了多種方案下自動海報的效果,包括:直接讓 GPT-4o 當(dāng)作繪圖機器人輸出圖像(GPT-4o-image)或生成 HTML 再渲染(GPT-4o-html),以及幾個開源多智能體系統(tǒng)(如OWL、PPTAgent 等)。
結(jié)果發(fā)現(xiàn)一些有趣的現(xiàn)象:
首先,GPT-4o 直接生成的海報遠(yuǎn)沒想象中完美。例如,讓 GPT-4o 輸出圖像版海報的話,縮略圖看著五顏六色似乎有模有樣,但一放大細(xì)看,其中的文字不是亂碼就是模糊不清,很多細(xì)節(jié)完全無法閱讀;這是由于GPT-4o通過pixel來生成文本,因此萬一出錯,會導(dǎo)致文字內(nèi)容失效,所以GPT-4o生成的文字PPL特別高。讓 GPT-4o 輸出 HTML 版本又怎樣呢?得到的往往是一頁密密麻麻的純文本,版式更像長篇博客而非海報。
同樣,其他一些基于 GPT-4o 的多智能體方案也問題頻出:例如PPTAgent常常布局失控導(dǎo)致部分內(nèi)容丟失。
相比之下,PosterAgent 生成的海報在結(jié)構(gòu)和可讀性上要合理得多:版面干凈清爽,沒有冗余的長段落,文字提煉得精簡到位,而且圖文對齊恰當(dāng)。下圖給出了不同方法為同一論文生成海報的直觀對比,可以看到 PosterAgent 的輸出在清晰度和要點覆蓋上都更勝一籌。
插圖 3:Figure 3,不同方法對同一論文生成海報的對比示例。PosterAgent(右)生成的海報用更少的文字傳達(dá)了論文核心內(nèi)容,版面結(jié)構(gòu)清晰。
更令人驚喜的是,PosterAgent基于開源模型的版本(稱為 PosterAgent-Qwen,采用 Qwen-2.5-7B 系列大模型)在幾乎所有評價指標(biāo)上都超越了基于 GPT-4o 的方案,而 PosterAgent 基于閉源模型的版本 PosterAgent-4o 更是同時在論文問答準(zhǔn)確性和海報美觀度上均達(dá)到最高水平,真正做到了既智能精準(zhǔn),又設(shè)計出眾。
并且,由于流水線設(shè)計高效,PosterAgent-Qwen 生成一張海報所消耗的 tokens 數(shù)量比 OWL 動輒上百 k 的調(diào)用少了將近87%!這直接帶來速度和成本優(yōu)勢:據(jù)統(tǒng)計,轉(zhuǎn)換一篇 22 頁長的論文為可編輯的海報(.pptx 格式)大約只需花費 $0.005 美元的 API 成本。短短幾分鐘,就能讓 AI 替你畫海報,想想還有點小激動呢。
更關(guān)鍵的是,作者已將完整代碼、模型權(quán)重和數(shù)據(jù)集開源出來,任何人都可以在HuggingFace和 GitHub 上使用這個工具。或許不久的將來,在家用一塊常規(guī)顯卡,你就能讓 Paper2Poster 來幫忙出海報初稿,然后人類再稍加潤色即可。
當(dāng)然,目前 Paper2Poster 也有一些局限。比如,Painter-Commenter 循環(huán)還是串行逐塊優(yōu)化,效率上可能成為瓶頸,未來可以考慮并行加速。另外,AI 生成的海報在視覺美感和創(chuàng)意上與人類設(shè)計尚有差距——尤其是讀者吸引力(Engagement)這一維度現(xiàn)在仍是短板。畢竟很多作者自己做海報時會精心挑選直觀的示意圖、配色和排版技巧,讓觀眾一眼抓住重點;而 AI 模型主要靠提煉文字和現(xiàn)有圖片,缺少「錦上添花」的點睛之筆。
所以,將來如何讓模型更好地利用視覺元素傳達(dá)信息,也是值得探索的方向。論文作者也提出,可以考慮融入外部知識和素材(比如課題組模板、會議 logo 等),或者讓人機協(xié)作共同完善海報設(shè)計。這些展望無疑為后續(xù)研究指明了道路。
展望:科研輔助,從海報走向未來
Paper2Poster 的出現(xiàn),表明大模型在學(xué)術(shù)傳播場景中有了實用的一席之地。從寫論文摘要,到自動生成學(xué)術(shù)海報,再到未來可能的自動論文審稿人、科研助理,AI 正在逐步滲透科研工作的方方面面。
也許再過幾年,我們真的可以按下一個鍵,就讓 AI 替我們把論文變成海報、幻燈片,甚至一篇面向大眾的科普稿。同時,人類研究者則可以把更多精力放在創(chuàng)造新的想法、設(shè)計實驗和推演理論上,而把繁瑣的格式調(diào)整、版面美化交給智能助手處理。
總的來說,Paper2Poster 帶來了一個令人興奮的開端:學(xué)術(shù)海報這樣的「小事」今后或許不再需要我們反復(fù)糾結(jié)版式和措辭,大模型已經(jīng)展現(xiàn)出接手這些任務(wù)的潛力。當(dāng)然,AI 工具終究是輔助,真正的科研妙筆仍需人類去書寫。但可以預(yù)見,隨著這類科研輔助系統(tǒng)的發(fā)展成熟,我們離「讓科研更專注,讓雜事交給 AI」的理想又近了一步。期待未來會有更多類似 Paper2Poster 的創(chuàng)新,讓科研工作變得更加高效、有趣。
PosterAgent 生成樣例:
Differentially Private CutMix for Split Learning with Vision Transformer:
A Neural Tangent Kernel Perspective of Infinite Tree Ensembles:
彩蛋:讓Paper2Poster為Paper2Poster生成一張Poster
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.