鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
你好研究僧,聽說剛剛中了頂會,卻還在愁怎么做Poster(學術海報)?
別急,容在下為你推薦一款新時代科研黨神器——PosterAgent,幫你一鍵從paper.pdf跳轉poster.pptx。
相比GPT-4o,PosterAgent生成指標更優,同時token使用量減少87%,還只需要0.0045美元,就可將22頁的論文轉化為可編輯的 “.pptx” 終稿海報。
來自滑鐵盧大學的聯合研究團隊,還精心構建了首個學術海報評估標準Paper2Poster,解決了長上下文、多模態壓縮的評估空白。
話不多說,先給大家展示一波效果,以下面這篇CV論文為例。
先喂給GPT-4o-image,得到的是這樣的:
顯然學術海報三要素(吸睛標題、重點突出、色彩排版),GPT-4o-image通通都沒有。
不妨交給PosterAgent試試:
視覺更連貫、信息還高效,難怪連已經畢業了的師兄師姐們都在X上哭訴,憑什么我們當年沒有它。
這下媽媽再也不用擔心我做不好Poster,被老板在群里奪命call了(狗頭)。
下面來講講它為啥這么好用。
多模態海報自動生成
Poster在學術會議里的重要性不言而喻,需要讓與會者在幾分鐘內就迅速從中掌握核心內容,這就很考驗制作者的論文濃縮能力,以及文本和圖形的排版功底。
為了幫大家解放雙手,以及更一目了然地評估海報效果,研究團隊提出了評估基準Paper2Poster以及基于此構建的多智能體框架PosterAgent。
Paper2Poster:首個學術海報評估基準
Paper2Poster的數據包含100對AI領域論文和作者設計的海報,涵蓋計算機視覺(19%)、自然語言處理(17%)和強化學習(10%)等子領域的280個不同主題,論文平均22頁,生成海報的文本壓縮比約為14.4倍,圖形減少比約為2.6倍。
評估指標覆蓋四個基本維度:
- 視覺質量:使用CLIP圖像嵌入測量生成海報與作者設計海報之間的視覺相似度,再計算圖像和文本的相關性,以確保圖像屬于有效整合。
- 文本連貫性:計算文本在Llama-2-7b-hf下的標準困惑度(PPL),衡量文字流暢度。
- 整體評估:選擇一個VLM(如GPT-4o),從美學(元素質量、布局平衡、參與度)信息(清晰度、完整性、邏輯流)兩個方面進行1到5分打分。
- PaperQuiz:這是團隊專門設計的評估指標,以模擬作者和讀者的交流。讓代表不同專業水平(例如學生和教授)的VLMs閱讀每張海報并回答測驗,獲得最高平均分的海報被認為在傳達論文內容方面最有效。
PosterAgent:多階段自動生成框架
根據Paper2Poster的要求,團隊設計了一個采用自上而下設計理念的多智能體流程PosterAgent。
首先全局地將整個文檔重組為簡潔、連貫的章節,然后進行局部精煉,以實現顆粒度對齊。
具體包含三個關鍵組件:
- 解析器(Parser):將工具和基于LLM的摘要相結合,提取關鍵文本和視覺內容,生成結構化摘要庫(如各章要點、重要圖表)
- 規劃器(Planner):匹配文本與圖表,并用二叉樹布局策略將其連貫排列,通過放大(zoom-in)機制迭代生成面板。
- 繪制器-評論器(Painter-Commenter):繪制器將內容轉為簡潔的要點列表和用于渲染的可執行代碼,而VLM作為評論器提供布局反饋,確保整體連貫性和避免溢出。
超越GPT-4o?
眼見為實,為驗證PosterAgent生成效果,研究人員用Paper2Poster評估了四類基線方法:
- 理想化方法(Oracle methods):包含原始PDF和作者設計的海報GT Poster,作為最佳呈現基準。
- 端到端方法(End-to-end methods):使用GPT-4o
- 多智能體工作流(Multi-agent work flows):使用OWLPPTAgent
- PosterAgent:框架變體分兩種,PosterAgent-4o在內部LLM 和VLM評論器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,評論器則使用Qwen-2.5-VL-7B。
實驗結果表明,在視覺質量和文本連貫性上,雖然4o-Image達到了最高的視覺相似度,但它也記錄了最差的困惑度,說明生成的海報可能乍一看吸引人,但實際細看全是嘈雜或不連貫的文本。
PosterAgent則實現了最高的圖形相關性,在視覺相似度上也緊隨人類設計的海報。
當VLM評判時,PosterAgent-4o的平均得分為3.72,達到了與人類設計海報相當的水平,而PPTAgent因為經常生成無意義的文本或大片空白區域,因此得分都較低。
在PaperQuiz上,也能發現PosterAgent變體始終取得最佳分數。
值得注意的是,PosterAgent-4o雖然依據GPT-4o實現了冗長輸出,但基于開源的Qwen-2.5系統變體在原始準確率上更勝一籌,說明PaperQuiz在評估時,內容量很重要,但呈現質量更重要。
團隊還計算了不同方法下的平均token成本,PosterAgent僅使用101.1K和47.6Ktoken,相較于OWL-4o成本降低了60%-87%,相當于每張海報只需要0.55美元(基于4o)或0.0045美元(基于Qwen)。
最后為了方便大家更直觀地了解幾種方法的海報生成效果,咱再舉個例子。
這是論文作者自己做的,主題明確,重點突出,色彩搭配也和諧。
這張來自GPT-4o-image,看起來好像還行?但是仔細看文字,里面還是有不少亂碼。
這張由GPT-4o-html生成,圖片嵌入失敗,文本也缺少排版。
這張出自PPTAgent,生成了大量空白區域。
下面這張來自OWL,同樣缺少圖像,甚至沒有多余色彩填充。
最后是咱們的PostAgent,對比下來,海報結構清晰明了,圖表與文字匹配度也相當高,在視覺效果上更接近作者設計的海報。
擴展一下思路,也許PosterAgent還可以用于制作課程學習資料。
公司里的PPT也未嘗不能一試。
所以感興趣的小伙伴們速速收藏起來這個海報神器~接下來的CVPR、ACL剛好都可以用上。
論文鏈接:https://arxiv.org/abs/2505.21497
代碼鏈接:https://github.com/Paper2Poster/Paper2Poster
項目鏈接:https://paper2poster.github.io/
參考鏈接:
[1]https://x.com/real_weipang/status/1927797168171254006
[2]https://x.com/_akhaliq/status/1927721150584390129
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.