由滑铁卢大学、新加坡国立大学、牛津大学提出的面向科学论文的多模式海报自动化生成方法Paper2Poster,主
由滑铁卢大学、新加坡国立大学、牛津大学提出的面向科学论文的多模式海报自动化生成方法Paper2Poster,主要解决了如何根据论文创建海报以及如何评估海报。
AI能否根据论文设计出精美的海报?
GPT-4o 或开源多智能体如何表现?
海报由 PosterAgent 生成
有哪些挑战?
长语境长视野任务:科学论文篇幅浩大,字数众多。要总结关键见解并保持连贯性,需要层层理解和选择性抽象。论文的复杂性进一步要求论文具备长视野推理能力和多次迭代交互,这使得这项任务极具挑战性。 交错多模态输入:论文整合了大量的图形、表格和图表,每个都与周围的文本语义关联。成功的海报生成需要能够以符合语境的方式提取、解读和对齐这些多模态元素。 布局感知的多模态输出:与仅关注文本(例如博客)或视觉的任务不同,海报生成需要在受限的空间布局内生成交错的文本和图像输出。这需要对语言、视觉内容和布局进行联合推理,以防止溢出、不平衡和逻辑错位。
如何制作海报👉PosterAgent
如何评估海报👉PaperQuiz
相关链接
论文:https://arxiv.org/abs/2505.21497 代码:https://github.com/Paper2Poster/Paper2Poster 项目:https://paper2poster.github.io 试用:https://huggingface.co/papers/2505.21497
论文介绍
学术海报生成是科学交流中一项至关重要但又颇具挑战性的任务,需要将长上下文交错的文档压缩成单个视觉上连贯的页面。为了应对这一挑战,我们推出了第一个海报生成的基准和指标套件,该套件将近期会议论文与作者设计的海报配对,并评估以下方面的输出:(i) 视觉质量——与人类海报的语义对齐,(ii) 文本连贯性——语言流畅性,(iii) 整体评估——由 VLM 作为评判员评分的六个细粒度的美学和信息标准,以及值得注意的是 (iv) PaperQuiz——海报传达核心论文内容的能力,由 VLM 回答生成的测验来衡量。
在此基准的基础上,论文提出了 PosterAgent,这是一个自上而下、视觉在环的多智能体管道:(a) Parser 将论文提炼为结构化资产库;(b) Planner 将文本-视觉对对齐成二叉树布局,以保持阅读顺序和空间平衡; (c)Painter-Commenter 循环通过执行渲染代码并使用 VLM 反馈来优化每个面板,以消除溢出并确保对齐。在我们的综合评估中,我们发现 GPT-4o 的输出——尽管乍一看很有视觉吸引力——通常会出现文本噪声和较差的 PaperQuiz 分数,并且我们发现读者参与度是主要的审美瓶颈,因为人工设计的海报很大程度上依赖于视觉语义来传达意义。我们完全开源的 Paper2Poster 流水线在几乎所有指标上都优于基于 GPT-4o 的系统,同时消耗的 token 减少了 87%。这些发现为下一代全自动海报生成模型指明了明确的方向。
方法概述
方法概述。 论文解决了科学海报生成中的两个核心挑战:
左图:如何根据论文创建海报——论文提出了 PosterAgent,这是一个将长文本科学论文(超过 2 万个 token)转换为结构化视觉海报的框架;
右图:如何评估海报质量——论文引入了 Paper2Poster 基准测试,该基准测试可以系统地比较代理生成的海报和作者设计的海报。
数据统计
现有解决方案的主要结果
更多示例
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论