2026年2月26日星期四

PosterOmni开源AI海报设计模型:统一6大设计任务,媲美闭源商业方案

PosterOmni是一个开源的多任务AI海报生成模型,能够基于参考图完成扩图、补全、改比例、风格迁移、布局迁移等6类设计任务。该模型通过任务蒸馏与统一奖励训练,在保持主体一致性的同时,实现高质量的全局风格与布局再创作,性能接近先进商业系统。适合设计师、内容创作者及开发者用于海报改稿与自动化设计工作流。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Sixiang Chen等

解读:AI生成未来
图片
  • 🌐 Project Page / Website:https://ephemeral182.github.io/PosterOmni/
  • 🧑‍💻 GitHub:https://github.com/MeiGen-AI/PosterOmni
  • 🤗 Hugging Face (Weights) :https://huggingface.co/MeiGen-AI/PosterOmni_v1
  • 📄 arXiv:https://arxiv.org/abs/2602.12127

很多AI 海报生成默认从一句 prompt 出发(Text-to-Poster)。但在真实设计流程里,更常见的起点其实是一张参考图/旧海报/产品主视觉:你希望在保留关键主体的前提下,完成扩图、补全、改比例、换风格、换布局等操作,最终得到一张"更像成品海报"的结果。

PosterOmni 围绕的核心一句话是:

one model for generalized multi-task image/poster-to-poster generation

用同一个开源模型,统一覆盖常见设计侧需求:既能做精细编辑,也能做高层次的风格与版式再创作。

  • 传统很多方案更像"一套修图工具 + 一套生成工具"拼在一起,能做但经常割裂;
  • PosterOmni 更像一个"从参考稿出发的设计助理":你给它一张参考图,它既能细修,又能按风格/布局意图重构。
图片

亮点直击

1)统一"图生海报"范式:一个模型覆盖六类典型设计任务

PosterOmni 不把海报能力拆成多个模型/插件,而是把 image/poster-to-poster 的典型需求系统化为 6 类任务,并统一在单一模型中:

  • 局部编辑(精修类):Extend(扩图)、Fill(补全)、Rescale(改比例)、Identity-driven(ID 保持)
  • 全局创作(再设计类):Style-driven(风格参考)、Layout-driven(布局参考)

重点不在"任务列表",而在它们共同对应一个现实工作流:

给定参考图/旧海报 → 按需求做编辑/重排/换风格/换布局 → 输出新海报

图片

2)"数据—蒸馏—奖励"闭环:让 one model 同时兼顾精修与创作,减少多任务互相干扰

多任务最难的问题之一是干扰:局部编辑强调像素一致、主体自然保持;全局创作强调整体风格抽象与版式结构的重创作。直接混在一起训练,常见结果是模型"都会一点,但不够稳定"。

PosterOmni 的训练路线更克制:

  • 先分别训练 局部编辑专家 与 全局创作专家
  • 再用 任务蒸馏 融合能力到一个学生模型(PosterOmni-SFT)
  • 最后引入统一奖励与强化学习,把"审美偏好"和"编辑精度/指令遵循"一起对齐
图片

3)PosterOmni-Bench:用统一基准把"设计侧常见需求"比清楚

我们建立了多任务基准 PosterOmni-Bench(中英文共 1020 条测试提示,覆盖六任务),并进行系统评测。结果显示 PosterOmni 在六类任务上整体更均衡,尤其在需要高阶理解的 布局迁移/风格迁移 上提升更明显;在 改比例/ID 保持 等局部任务上也更稳定。在公平的评测与打分方式下,整体表现也超过了部分先进的商业系统,与最先进的商业模型较为接近。

图片

总览:PosterOmni 能解决哪些"设计侧常见需求"?

真实工作流的"双重挑战":比例要改、版式要动;风格要学、内容不能抄;主体要稳、细节要自然

PosterOmni 聚焦的并不是"生成一张好看的图",而是更接近设计侧的需求组合。

例如:

  • Rescale(改比例):不是简单裁剪/拉伸,而是更接近"比例变了,布局跟着重排"。比如把竖版活动海报改成方图社媒封面,标题层级、留白、元素间距需要一起调整,同时主体不能漂。
  • Style-driven(风格参考):在保留user prompt需求的同时,更希望学到"配色/质感/光影/字体气质"等抽象风格,而不是把参考图的具体元素直接 copy 过去(现存的商业模型在某些场景下也容易出现这种"拼贴式拷贝"的现象)。
  • Layout-driven(布局参考):在保留user prompt需求的同时,复用的是结构逻辑(视觉中心、信息分区、层级关系),而不是硬套模板导致生硬拼装。

PosterOmni 把"精修"和"再设计"都放进同一个 image/poster-to-poster 引擎里,让常见设计操作可以在一个模型内完成。

方法论

PosterOmni 的核心目标,是把真实设计里常见的"一张参考图 + 一句指令"统一成 one model for generalized multi-task image/poster-to-poster generation:既能做局部精修(比如扩图、补全、缩放、ID保持),也能做全局创作(布局迁移、风格迁移),并且在同一个模型里做到"既改得准、又改得好看"。

为了让同一个模型同时具备这两类能力,我们设计了一条完整的 数据—专家—蒸馏的SFT训练管线,在最后用 Omni-Edit 强化学习把"审美"和"任务完成度"一起对齐,避免常见的多任务互相干扰。

阶段 1:自动化数据构建与 PosterOmni-200K

高质量、多任务、可控的配对数据,是统一模型的地基。PosterOmni 先用一套全自动合成管线生成 PosterOmni-200K,并同步构建评测集 PosterOmni-Bench。整个数据构建流程把"创意提示生成—候选图生成—多模态过滤—任务特定配对"串成一个闭环:先生成具有真实海报语境的 prompts 和 base images,再做严格筛选,最后按任务生成输入输出对再过滤,组成训练与评测数据套件。

图片

(1) 提示词与基图生成(更像"真实设计 brief")

PosterOmni不是用简单 caption,而是组合"主体/品类 + 场景 + 风格标签",再让 VLM(如 GPT、Qwen3)写成带排版与美学约束的结构化提示(例如标题/副标题/位置、整体风格意图等),再用强 T2I 生成器(如 Qwen-Image 等)渲染多个候选图,提前剔除缺主体、文字崩坏、布局塌陷的样本。

这一步的意义是:让后续所有任务都围绕"设计侧真实需求"展开,而不只是通用图像编辑。

图片

(2) 多模态过滤(保证"能训练、也能评测")

合成数据最大的问题不是规模,而是噪声。我们做了分层过滤:

  • 训练集:用 PaddleOCR 做文字可读性/关键词一致性检查,再用 Jina-clip-v2 做图文一致性,去掉错字、错语种、错语义、排版不合理样本。
  • 评测集:在 OCR 之外再引入 Gemini-2.5-Flash 判断"任务适配性"(例如布局迁移任务必须有可解析的布局结构),保证 benchmark 的可比性与可靠性。
  • 同时用 SAM-2 做分割/区域生成,为后续"填充/扩图"等任务提供 mask 级监督信号。

(3) 六类任务的配对构建(把常见设计需求"落到数据上")

在通过过滤的"文本→海报"基语料上,我们按六类任务生成 image/poster-to-poster 的训练对:Extending / Filling / Rescaling / ID-driven / Layout-driven / Style-driven,分别对应空间补全、比例重排、主体一致性、布局复用与风格迁移等真实需求。并在后续使用VLM/人工过滤保证每个任务的质量。

实现上,每个任务走一个模块化的数据构建器:

  • extending/filling 用 SAM2 生成局部区域或缺失 mask;
  • rescaling 用 BrushNet 类/闭源方法构造"比例变化→内容重排"的监督对;
  • ID-driven 用 PaddleDet 抽主体并结合强编辑器形成"保 ID 的变化";
  • layout/style-driven 则通过 prompt-controlled rerendering 构造"复用布局/风格但不复制内容"的训练对。
图片

阶段 2:任务蒸馏(先分治,再统一:让"精修"和"创作"在一个模型里共存)

图片

直接把六个任务混在一起训练,最容易出现的就是任务干扰:局部任务追求像素对齐,全局任务追求构图与风格抽象,两者在同一参数空间里会互相拉扯,导致模型难以优化收敛。PosterOmni 的做法是:先训练专家,再蒸馏到学生模型

(1) 专家训练:局部专家 + 全局专家

  • 局部编辑专家:侧重 extending / filling / rescaling / ID-driven,强调实体一致性、边界自然、文字清晰等"可控编辑"。

  • 全局创作专家:侧重 layout-driven / style-driven,学习抽象布局逻辑与风格调性,输出更像"重新设计"的结果。

    同时,我们还会引入辅助文本渲染相关的训练信号,避免模型在专注某些编辑任务时牺牲文字可读性(因为海报任务里"写对字"是底线能力)。

(2) 蒸馏到单一学生:PosterOmni-SFT

最终统一模型不是靠"参数硬融合",而是训练一个学生网络去对齐专家的速度场/预测行为:总损失由两部分组成——

  • 一部分是辅助文本渲染损失(保证文字稳定、清晰);
  • 另一部分是任务蒸馏损失(让学生输出逼近对应任务专家的输出)。

论文里把它写成一个总目标(含 Auxiliary Text Rendering Loss + Task Distillation Loss),学生的预测记作 ,专家输出记作 ,从而把"局部精修的确定性"和"全局创作的生成性"一起迁移进同一个 backbone。

这一阶段结束后的 PosterOmni-SFT,可以理解成"一个模型同时继承了两类老师的长处":既能做严格受控的局部编辑,又能执行抽象的布局/风格指令,而不是依赖多个模型串联。

阶段 3:统一奖励模型训练(  :把"好看 + 做对任务"变成可优化信号)

监督微调能让模型"学会做",但很难让模型"学会做得更好看、更像设计师"。不同于 SFT 阶段往往存在"审美、保真、任务目标"等目标相互拉扯的情况,最终海报的评价在各个子任务之间其实共享一套通用原则(如构图平衡、层级清晰、色彩和谐、文本可读性等)于是我们训练一个统一奖励模型 ,同时输出通用审美任务特定完成度的综合奖励,用来驱动后面的强化学习。

(1) 偏好数据怎么来

我们用 PosterOmni-SFT 对同一条 image-to-poster prompt 生成成对结果,先用 Gemini-2.5-Pro 做筛选,再让标注者选择"更美观且更符合任务"的那张。更关键的是,我们加入了一个很实用的 negative-pair 策略:把"输入参考图"当作 rejected,把"模型编辑后的输出"当作 chosen,强迫奖励模型认识到"有意义的改动"本身也是价值,避免模型在某些任务里学会投机——比如 layout/style 任务里直接把参考图 copy 过去。

图片

(2) 模型形式与训练目标

  基于 Qwen3-VL 编码器 + 轻量 MLP head,同时编码"视觉质量 + 指令 + 任务类型",用 Bradley–Terry 目标把偏好对转成可优化的排序损失: 促使 chosen 的分数高于 rejected。

结果就是:  学到的不只是"好看",还学到"对这个任务来说什么算做对、什么算偷懒"。

阶段 4:Omni-Edit 强化学习

有了奖励模型之后,关键问题是:如何把奖励真正"写回"扩散/流匹配模型里,并且训练稳定。PosterOmni 沿用 DiffusionNFT 这类思路:不走传统逆过程的策略梯度(容易不稳定),而是在正向扩散过程上做直接优化,用一种对比式 diffusion loss 把速度预测器推向高奖励行为、远离低奖励行为。DiffusionNFT 会从旧策略  构造隐式正/负策略 ,并用奖励 加权的目标函数,把更新方向稳定地约束在"更高奖励"的区域;奖励还会做归一化以稳定尺度。

  1. DiffusionNFT 本身提供的是"在正向扩散/流匹配过程中做对比式更新"的稳定范式;我们的贡献在于把它适配到 image-to-poster 的条件输入形式(输入图 + 指令 + 任务类型),并形成一套可落地的 Omni-Edit RL 训练流程:让速度预测器在同一训练机制下同时处理"局部编辑 + 全局创作"的两类任务。

  2. 很多工作会直接把强 VLM 的 logits / 打分当作通用编辑奖励,但这类奖励往往不理解 poster 任务的"完成标准",容易出现"看起来像、但没按任务做"的投机解。PosterOmni 的核心区别是:我们用  给出 task-aware 的分数,在统一的奖励尺度下同时编码审美质量任务对齐/完成度,从而让 RL 更新方向不仅"更好看",也"更像完成这个任务"。

  3. Poster 评价在跨任务上有大量共性(构图平衡、层级、可读性、配色等),因此我们用 统一奖励模型去优化这些共享质量维度;同时通过 task tags / task descriptions 把不同任务的差异化标准显式条件化,避免某个任务的偏好干扰另一个任务。

实验:PosterOmni 到底强在哪里?

我们把评测拆成三块:统一基准(PosterOmni-Bench)→ 自动评测与对比 →  关键模块消融

1) PosterOmni-Bench:把"设计侧常见需求"系统化成可评测基准

我们首先做了一个专门面向 image/poster-to-poster 的多任务基准 PosterOmni-Bench,覆盖六类任务:Extend / Fill / Rescale / ID-driven / Layout-driven / Style-driven

为了更贴近真实使用场景,Bench 同时包含中英文提示540 条中文 + 480 条英文,共 1020 条,并且在六大主题(产品、美食、活动/旅行、自然、教育、娱乐)上均匀分布,既有单参考图也有多参考图的输入形式。

评测方式上,我们采用强 VLM(Gemini-2.5-Pro)对结果进行打分:

  • 既看审美(整体视觉和谐、构图平衡、风格一致性等)

  • 也看任务完成度(是否按指令完成编辑/迁移、是否保持需要保持的内容)

    并在 1–5 分范围内给出综合评分(加权汇总为最终指标)。

直观理解:这个基准不是在测"会不会画图",而是在测"会不会像设计师一样做海报改稿/再设计"。

2) 定量对比:六项任务全线领先,开源里断层,闭源里逼近

在 PosterOmni-Bench 上,我们对比了主流开源系统(如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)以及强闭源系统(如 Seedream 系列)。结果非常一致:PosterOmni对比所有开源模型 在六项任务上全部拿到最高分,在整体评价上也超过现有的部分闭源模型,并且提升不只来自某一个任务,而是"局部精修 + 全局创作"两条能力线同时变强。

  • 对比 Qwen-Image-Edit:PosterOmni 在 Extend / Fill / Rescale / ID / Layout / Style 六项上均明显提升,尤其在 Layout-driven / Style-driven 这类需要高阶设计理解的任务上提升更大(不是"贴图式迁移",而是更像"学到布局/风格的规则再生成")。
  • 对比 Seedream-4.0:整体上 PosterOmni 的平均表现已经超过,这点证明把开源的单模型直接把复杂需求做到了可用级别。

3) 定性对比:为什么说它"学风格/学布局"不是"直接 copy"?

定性结果里最典型的两类失败,我们在很多 baseline(包括部分闭源系统)上都能反复看到:

  • Style-driven:一些模型会把参考图里的局部元素直接"贴"过来,导致"看起来像拼贴",甚至把不该复制的具体物体也搬运过去;PosterOmni 更偏向去学习配色、材质感、笔触/光影、字体气质这些"风格本质",再把它迁移到新主体上。
  • Rescale / Layout-driven:很多系统只能做到裁剪/拉伸,或简单把元素挤压到新画布;PosterOmni 更像在做"改比例→重排版":标题层级、留白、元素间距会跟着一起调整,主体也更稳定。
图片

4) 消融实验:每个模块到底贡献了什么?

我们做了系统消融,核心想回答:PosterOmni 的提升来自哪里——是"多训点数据"还是"确实解决了多任务互相干扰 + 审美对齐"。

(a) 任务蒸馏 vs 直接混训:

我们对比了:

  • 基座模型(如 Qwen-Image-Edit)
  • 六任务直接混训(Mixed Training)
  • 只训局部专家 / 只训全局专家
  • 先训专家再蒸馏到学生(Task Distillation)
  • 再加上辅助文本渲染损失(PosterOmni-SFT)

结果显示:

  • 直接混训能涨一点,但仍会被"局部精修 vs 全局构图"拉扯;
  • 单独的局部/全局专家会明显偏科;
  • 蒸馏后的学生模型最稳,并且加上辅助文本渲染后,文字清晰度进一步提升(对海报任务很关键)。

(b) 专家融合方式:为什么"参数硬融合"不行?

我们还对比了常见的 LoRA 融合方式(线性插值、ZipLoRA 等)和我们的蒸馏策略:

  • 参数融合容易出现"塌向某个专家"、或者干脆"直接 copy 参考图"的失败;
  • 蒸馏是让学生去学行为(输出分布),而不是在参数空间硬拼,所以更能保持互补能力。
图片

小结:为什么这套方法能支撑"one model for generalized multi-task image/poster-to-poster generation"

  • 数据把六类真实设计需求系统化成训练对(且有严格过滤),保证模型学到的是"可用的设计能力"。
  • 蒸馏把局部专家与全局专家的优势迁移到单一学生,避免多任务硬混导致的能力互相牵制。
  • 奖励 + RL用统一的  把"好看 + 做对"变成可优化信号,再用 DiffusionNFT 的稳定正向优化注入模型,让最终模型既不投机 copy。

参考文献

[1] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

Windows 部署 OpenClaw 保姆级教程:从 Kimi 到 GML5 全接入,五步完成配置

本文提供在 Windows 系统(含 WSL2 与宿主机两种方案)上部署最新 OpenClaw 的详细步骤,涵盖环境配置(Node.js 22+)、安装启动、UI 访问及常见问题解决。适合希望整合 Kimi、Claude 等 AI 工具至本地工作流的开发者与效率用户,无需编程基础...