2025年7月1日星期二

一键生成高质量美学海报!港科大&美团提出PosterCraft,文字渲染与艺术融合,从创意到成品只需一步!

今天给大家介绍一款由香港科技大学和美团联合开发的创新性海报生成模型框架:PosterCraft,其擅长精确的文




今天给大家介绍一款由香港科技大学和美团联合开发的创新性海报生成模型框架:PosterCraft,其擅长精确的文本渲染、抽象艺术的无缝集成、醒目的布局和风格的和谐。PosterCraft 的设计理念是统一且灵活的框架。可以轻松地在自定义工作流程或其他兼容框架中使用 PosterCraft。

图片

图片

什么是 PosterCraft?

图片

相关链接

  • 论文:https://arxiv.org/pdf/2506.10741
  • 代码:https://github.com/Ephemeral182/PosterCraft
  • 主页:https://ephemeral182.github.io/PosterCraft
  • 数据集:https://huggingface.co/PosterCraft
  • 试用:https://huggingface.co/spaces/Ephemeral182/PosterCraft

论文介绍

图片生成美观的海报比简单的设计图像更具挑战性: 它不仅需要精确的文本渲染,还需要无缝整合抽象的艺术内容、醒目的布局以及整体风格的和谐。

为了解决这个问题,论文提出了 PosterCraft,这是一个统一的框架,它摒弃了之前的模块化流程和僵化的预定义布局,使模型能够自由探索连贯且视觉上引人入胜的构图。PosterCraft 采用精心设计的级联工作流程来优化高美感海报的生成:

  1. 在新推出的 Text-Render-2M 数据集上进行大规模文本渲染优化;
  2. 在 HQ-Poster-100K 数据集上进行区域感知的监督微调;
  3. 通过 best-of-n 偏好优化进行美观文本强化学习;
  4. 视觉与语言反馈的联合优化。

每个阶段都由根据其特定需求定制的全自动数据构建流程支持,无需复杂的架构修改即可实现稳健的训练。经过多次实验评估,PosterCraft 在渲染精度、布局一致性和整体视觉吸引力方面显著优于开源基线,接近 SOTA 商业系统的质量。

方法概述

图片通过四个关键阶段实现美观海报生成的统一优化工作流程

图片

数据集

Text-Render-2M

图片

一个包含 200 万个高质量示例的综合文本渲染数据集。它支持多实例文本渲染、多样化文本选择(大小、数量、位置和旋转方向均可调整),以及通过基于模板和随机字符串的方法生成动态内容。对于在海报生成中开发强大的文本渲染能力至关重要

HQ-poster-100K

图片

精心挑选的 10 万张高质量海报合集,拥有完善的处理流程。融合了先进的过滤技术(MD5、Hash)、多模态评分系统、Gemini 驱动的蒙版生成以及详细的图文说明。为训练美观的海报生成模型奠定了基础。

Poster-Preference-100K

图片

一个包含 10 万张海报图片的专用偏好学习数据集。这些图片由用户提示生成,并使用高级美学评估器和 Gemini 进行严格评估,通过区分高质量和低质量样本来形成偏好对。这一过程对于学习细微的审美偏好和生成符合人类审美的海报至关重要。

Poster-Reflect-120K

图片

该数据集由 12 万张海报组成,这些海报用于组成反思对。每对海报都附有相应的文本反思,用于分析海报内容和审美风格。通过将丰富的视觉信息与文本反思相结合,该数据集实现了视觉-语言反馈的迭代改进。它使模型能够从两种模态中学习,从而获得更具美感的海报。

文本优化结果

先进的海报生成功能展示多样化的长文本渲染

图片
图片

强化学习结果

美学——文本偏好优化,通过高阶美学和文本准确性提高海报质量

图片
图片
图片

通过反射进行细化

了解 PosterCraft 如何利用视觉语言反射根据内容和审美建议来提高海报质量。图片

实验结果

综合评估展现了PosterCraft在多个维度上的卓越性能。

模型性能比较

通过四个关键维度的定量评估,展示了 PosterCraft 在最先进的海报生成模型中的出色表现。

图片

用户研究结果

人类专家评估展示了 PosterCraft 在四个关键维度上相对于基线模型的胜率。

图片
图片
图片

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

5 个 AI 操纵手机的 GitHub 项目,牛逼了。

在过去,如果我们想自动化操作手机,通常需要使用 Appium 或 Airtest 这样的工具,但这要求开发者必须深入了解 APP 的底层元素 ID,比如   resource-id  或   xpath 。 一旦 APP 更新,ID 变了,脚本就废了。 现在有了 AI 大模型...