2025年6月6日星期五

科研人神器,论文秒变海报!Paper2Poster:一键生成顶会级学术Poster,再也不用为赶会熬夜做PPT啦。

由滑铁卢大学、新加坡国立大学、牛津大学提出的面向科学论文的多模式海报自动化生成方法Paper2Poster,主




由滑铁卢大学、新加坡国立大学、牛津大学提出的面向科学论文的多模式海报自动化生成方法Paper2Poster,主要解决了如何根据论文创建海报以及如何评估海报。

图片

AI能否根据论文设计出精美的海报?

图片

GPT-4o 或开源多智能体如何表现?

图片
GPT-4o-image 的布局乍一看还算可以接受,但仔细观察放大区域后会发现文本渲染效果不佳,导致细粒度细节的可读性较差。GPT -4o-HTML和OWL生成的海报类似博客,文本密集,但视觉可读性较低。PPTAgent 的布局控制存在问题,经常导致面板缺失。
GPT-4o-image 的布局乍一看还算可以接受,但仔细观察放大区域后会发现文本渲染效果不佳,导致细粒度细节的可读性较差。GPT -4o-HTML和OWL生成的海报类似博客,文本密集,但视觉可读性较低。PPTAgent 的布局控制存在问题,经常导致面板缺失。

海报由 PosterAgent 生成

相比之下,PosterAgent可以生成结构连贯且可读的海报,同时使用的文字却少得多。
相比之下,PosterAgent可以生成结构连贯且可读的海报,同时使用的文字却少得多。

有哪些挑战?

  • 长语境长视野任务:科学论文篇幅浩大,字数众多。要总结关键见解并保持连贯性,需要层层理解和选择性抽象。论文的复杂性进一步要求论文具备长视野推理能力和多次迭代交互,这使得这项任务极具挑战性。
  • 交错多模态输入:论文整合了大量的图形、表格和图表,每个都与周围的文本语义关联。成功的海报生成需要能够以符合语境的方式提取、解读和对齐这些多模态元素。
  • 布局感知的多模态输出:与仅关注文本(例如博客)或视觉的任务不同,海报生成需要在受限的空间布局内生成交错的文本和图像输出。这需要对语言、视觉内容和布局进行联合推理,以防止溢出、不平衡和逻辑错位。

如何制作海报👉PosterAgent

自上而下、视觉循环、高效的多代理管道。 (a)解析器将论文提炼成结构化资产库;(b)规划器将文本-视觉对对齐为二叉树布局,以保持阅读顺序和空间平衡;(c)画家-评论者循环通过执行渲染代码并使用 VLM 反馈来消除溢出并确保对齐,从而细化每个面板。
自上而下、视觉循环、高效的多代理管道。 (a)解析器将论文提炼成结构化资产库;(b)规划器将文本-视觉对对齐为二叉树布局,以保持阅读顺序和空间平衡;(c)画家-评论者循环通过执行渲染代码并使用 VLM 反馈来消除溢出并确保对齐,从而细化每个面板。

如何评估海报👉PaperQuiz

好的海报应该以视觉的方式传达论文的核心内容。 左图:论文使用 LLM (o3) 自动生成每篇论文的多项选择题,构成 PaperQuiz 的评估。 右图:在 PaperQuiz 中,论文模拟多个读者,允许代表不同专业水平(例如学生、教授)的 VLM 阅读每张生成的海报并回答测验。获得最高平均分数的海报被认为最有效地传达了论文的内容。
好的海报应该以视觉的方式传达论文的核心内容。 左图:论文使用 LLM (o3) 自动生成每篇论文的多项选择题,构成 PaperQuiz 的评估。 右图:在 PaperQuiz 中,论文模拟多个读者,允许代表不同专业水平(例如学生、教授)的 VLM 阅读每张生成的海报并回答测验。获得最高平均分数的海报被认为最有效地传达了论文的内容。

相关链接

  • 论文:https://arxiv.org/abs/2505.21497
  • 代码:https://github.com/Paper2Poster/Paper2Poster
  • 项目:https://paper2poster.github.io
  • 试用:https://huggingface.co/papers/2505.21497

论文介绍

图片学术海报生成是科学交流中一项至关重要但又颇具挑战性的任务,需要将长上下文交错的文档压缩成单个视觉上连贯的页面。为了应对这一挑战,我们推出了第一个海报生成的基准和指标套件,该套件将近期会议论文与作者设计的海报配对,并评估以下方面的输出:(i) 视觉质量——与人类海报的语义对齐,(ii) 文本连贯性——语言流畅性,(iii) 整体评估——由 VLM 作为评判员评分的六个细粒度的美学和信息标准,以及值得注意的是 (iv) PaperQuiz——海报传达核心论文内容的能力,由 VLM 回答生成的测验来衡量。

在此基准的基础上,论文提出了 PosterAgent,这是一个自上而下、视觉在环的多智能体管道:(a) Parser 将论文提炼为结构化资产库;(b) Planner 将文本-视觉对对齐成二叉树布局,以保持阅读顺序和空间平衡; (c)Painter-Commenter 循环通过执行渲染代码并使用 VLM 反馈来优化每个面板,以消除溢出并确保对齐。在我们的综合评估中,我们发现 GPT-4o 的输出——尽管乍一看很有视觉吸引力——通常会出现文本噪声和较差的 PaperQuiz 分数,并且我们发现读者参与度是主要的审美瓶颈,因为人工设计的海报很大程度上依赖于视觉语义来传达意义。我们完全开源的 Paper2Poster 流水线在几乎所有指标上都优于基于 GPT-4o 的系统,同时消耗的 token 减少了 87%。这些发现为下一代全自动海报生成模型指明了明确的方向。

方法概述

图片方法概述。 论文解决了科学海报生成中的两个核心挑战:

  • 左图:如何根据论文创建海报——论文提出了 PosterAgent,这是一个将长文本科学论文(超过 2 万个 token)转换为结构化视觉海报的框架;

  • 右图:如何评估海报质量——论文引入了 Paper2Poster 基准测试,该基准测试可以系统地比较代理生成的海报和作者设计的海报。

数据统计

(a)词云展示了研究主题的多样性。(b)输入论文与作者提供的海报的文本标记统计和图形计数统计。
(a)词云展示了研究主题的多样性。(b)输入论文与作者提供的海报的文本标记统计和图形计数统计。

现有解决方案的主要结果

Paper2Poster 的详细评估。
Paper2Poster 的详细评估。
Paper2Poster 上的 PaperQuiz 评估。
Paper2Poster 上的 PaperQuiz 评估。
效率和成本分析证明了 PosterAgent 的强大效率和低 API 成本。
效率和成本分析证明了 PosterAgent 的强大效率和低 API 成本。

更多示例

图片
图片

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

开源:基于计算机视觉的交通路口智能监控系统

基于计算机视觉的交通路口智能监控系统 源代码 https://www.gitpp.com/lerobot/projects06078009 项目主要由三个模块组成,分别是:SRS流媒体服务器,云端GPU服务器,本地客户端. 首先,网络摄像机将交通路口的监控视频实时上传到 SR...