AI I024: PosterOmni开源AI海报设计模型：统一6大设计任务，媲美闭源商业方案

PosterOmni是一个开源的多任务AI海报生成模型，能够基于参考图完成扩图、补全、改比例、风格迁移、布局迁移等6类设计任务。该模型通过任务蒸馏与统一奖励训练，在保持主体一致性的同时，实现高质量的全局风格与布局再创作，性能接近先进商业系统。适合设计师、内容创作者及开发者用于海报改稿与自动化设计工作流。

Tags:

AI海报生成

PosterOmni

图像编辑模型

设计自动化

开源AI工具

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Sixiang Chen等

解读：AI生成未来

🌐 Project Page / Website：https://ephemeral182.github.io/PosterOmni/
🧑‍💻 GitHub：https://github.com/MeiGen-AI/PosterOmni
🤗 Hugging Face (Weights) ：https://huggingface.co/MeiGen-AI/PosterOmni_v1
📄 arXiv：https://arxiv.org/abs/2602.12127

很多AI 海报生成默认从一句 prompt 出发（Text-to-Poster）。但在真实设计流程里，更常见的起点其实是一张参考图/旧海报/产品主视觉：你希望在保留关键主体的前提下，完成扩图、补全、改比例、换风格、换布局等操作，最终得到一张"更像成品海报"的结果。

PosterOmni 围绕的核心一句话是：

one model for generalized multi-task image/poster-to-poster generation
用同一个开源模型，统一覆盖常见设计侧需求：既能做精细编辑，也能做高层次的风格与版式再创作。

传统很多方案更像"一套修图工具 + 一套生成工具"拼在一起，能做但经常割裂；
PosterOmni 更像一个"从参考稿出发的设计助理"：你给它一张参考图，它既能细修，又能按风格/布局意图重构。

亮点直击

1）统一"图生海报"范式：一个模型覆盖六类典型设计任务

PosterOmni 不把海报能力拆成多个模型/插件，而是把 image/poster-to-poster 的典型需求系统化为 6 类任务，并统一在单一模型中：

局部编辑（精修类）：Extend（扩图）、Fill（补全）、Rescale（改比例）、Identity-driven（ID 保持）
全局创作（再设计类）：Style-driven（风格参考）、Layout-driven（布局参考）

重点不在"任务列表"，而在它们共同对应一个现实工作流：

给定参考图/旧海报 → 按需求做编辑/重排/换风格/换布局 → 输出新海报。

2）"数据—蒸馏—奖励"闭环：让 one model 同时兼顾精修与创作，减少多任务互相干扰

多任务最难的问题之一是干扰：局部编辑强调像素一致、主体自然保持；全局创作强调整体风格抽象与版式结构的重创作。直接混在一起训练，常见结果是模型"都会一点，但不够稳定"。

PosterOmni 的训练路线更克制：

先分别训练 局部编辑专家 与 全局创作专家
再用 任务蒸馏 融合能力到一个学生模型（PosterOmni-SFT）
最后引入统一奖励与强化学习，把"审美偏好"和"编辑精度/指令遵循"一起对齐

3）PosterOmni-Bench：用统一基准把"设计侧常见需求"比清楚

我们建立了多任务基准 PosterOmni-Bench（中英文共 1020 条测试提示，覆盖六任务），并进行系统评测。结果显示 PosterOmni 在六类任务上整体更均衡，尤其在需要高阶理解的 布局迁移/风格迁移 上提升更明显；在 改比例/ID 保持 等局部任务上也更稳定。在公平的评测与打分方式下，整体表现也超过了部分先进的商业系统，与最先进的商业模型较为接近。

总览：PosterOmni 能解决哪些"设计侧常见需求"？

真实工作流的"双重挑战"：比例要改、版式要动；风格要学、内容不能抄；主体要稳、细节要自然

PosterOmni 聚焦的并不是"生成一张好看的图"，而是更接近设计侧的需求组合。

例如:

Rescale（改比例）：不是简单裁剪/拉伸，而是更接近"比例变了，布局跟着重排"。比如把竖版活动海报改成方图社媒封面，标题层级、留白、元素间距需要一起调整，同时主体不能漂。
Style-driven（风格参考）：在保留user prompt需求的同时，更希望学到"配色/质感/光影/字体气质"等抽象风格，而不是把参考图的具体元素直接 copy 过去（现存的商业模型在某些场景下也容易出现这种"拼贴式拷贝"的现象）。
Layout-driven（布局参考）：在保留user prompt需求的同时，复用的是结构逻辑（视觉中心、信息分区、层级关系），而不是硬套模板导致生硬拼装。

PosterOmni 把"精修"和"再设计"都放进同一个 image/poster-to-poster 引擎里，让常见设计操作可以在一个模型内完成。

方法论

PosterOmni 的核心目标，是把真实设计里常见的"一张参考图 + 一句指令"统一成 one model for generalized multi-task image/poster-to-poster generation：既能做局部精修（比如扩图、补全、缩放、ID保持），也能做全局创作（布局迁移、风格迁移），并且在同一个模型里做到"既改得准、又改得好看"。

为了让同一个模型同时具备这两类能力，我们设计了一条完整的 数据—专家—蒸馏的SFT训练管线，在最后用 Omni-Edit 强化学习把"审美"和"任务完成度"一起对齐，避免常见的多任务互相干扰。

阶段 1：自动化数据构建与 PosterOmni-200K

高质量、多任务、可控的配对数据，是统一模型的地基。PosterOmni 先用一套全自动合成管线生成 PosterOmni-200K，并同步构建评测集 PosterOmni-Bench。整个数据构建流程把"创意提示生成—候选图生成—多模态过滤—任务特定配对"串成一个闭环：先生成具有真实海报语境的 prompts 和 base images，再做严格筛选，最后按任务生成输入输出对再过滤，组成训练与评测数据套件。

(1) 提示词与基图生成（更像"真实设计 brief"）

PosterOmni不是用简单 caption，而是组合"主体/品类 + 场景 + 风格标签"，再让 VLM（如 GPT、Qwen3）写成带排版与美学约束的结构化提示（例如标题/副标题/位置、整体风格意图等），再用强 T2I 生成器（如 Qwen-Image 等）渲染多个候选图，提前剔除缺主体、文字崩坏、布局塌陷的样本。

这一步的意义是：让后续所有任务都围绕"设计侧真实需求"展开，而不只是通用图像编辑。

(2) 多模态过滤（保证"能训练、也能评测"）

合成数据最大的问题不是规模，而是噪声。我们做了分层过滤：

训练集：用 PaddleOCR 做文字可读性/关键词一致性检查，再用 Jina-clip-v2 做图文一致性，去掉错字、错语种、错语义、排版不合理样本。
评测集：在 OCR 之外再引入 Gemini-2.5-Flash 判断"任务适配性"（例如布局迁移任务必须有可解析的布局结构），保证 benchmark 的可比性与可靠性。
同时用 SAM-2 做分割/区域生成，为后续"填充/扩图"等任务提供 mask 级监督信号。

(3) 六类任务的配对构建（把常见设计需求"落到数据上"）

在通过过滤的"文本→海报"基语料上，我们按六类任务生成 image/poster-to-poster 的训练对：Extending / Filling / Rescaling / ID-driven / Layout-driven / Style-driven，分别对应空间补全、比例重排、主体一致性、布局复用与风格迁移等真实需求。并在后续使用VLM/人工过滤保证每个任务的质量。

实现上，每个任务走一个模块化的数据构建器：

extending/filling 用 SAM2 生成局部区域或缺失 mask；
rescaling 用 BrushNet 类/闭源方法构造"比例变化→内容重排"的监督对；
ID-driven 用 PaddleDet 抽主体并结合强编辑器形成"保 ID 的变化"；
layout/style-driven 则通过 prompt-controlled rerendering 构造"复用布局/风格但不复制内容"的训练对。

阶段 2：任务蒸馏（先分治，再统一：让"精修"和"创作"在一个模型里共存）

直接把六个任务混在一起训练，最容易出现的就是任务干扰：局部任务追求像素对齐，全局任务追求构图与风格抽象，两者在同一参数空间里会互相拉扯，导致模型难以优化收敛。PosterOmni 的做法是：先训练专家，再蒸馏到学生模型。

(1) 专家训练：局部专家 + 全局专家

局部编辑专家：侧重 extending / filling / rescaling / ID-driven，强调实体一致性、边界自然、文字清晰等"可控编辑"。
全局创作专家：侧重 layout-driven / style-driven，学习抽象布局逻辑与风格调性，输出更像"重新设计"的结果。
同时，我们还会引入辅助文本渲染相关的训练信号，避免模型在专注某些编辑任务时牺牲文字可读性（因为海报任务里"写对字"是底线能力）。

(2) 蒸馏到单一学生：PosterOmni-SFT

最终统一模型不是靠"参数硬融合"，而是训练一个学生网络去对齐专家的速度场/预测行为：总损失由两部分组成——

一部分是辅助文本渲染损失（保证文字稳定、清晰）；
另一部分是任务蒸馏损失（让学生输出逼近对应任务专家的输出）。

论文里把它写成一个总目标（含 Auxiliary Text Rendering Loss + Task Distillation Loss），学生的预测记作，专家输出记作，从而把"局部精修的确定性"和"全局创作的生成性"一起迁移进同一个 backbone。

这一阶段结束后的 PosterOmni-SFT，可以理解成"一个模型同时继承了两类老师的长处"：既能做严格受控的局部编辑，又能执行抽象的布局/风格指令，而不是依赖多个模型串联。

阶段 3：统一奖励模型训练（：把"好看 + 做对任务"变成可优化信号）

监督微调能让模型"学会做"，但很难让模型"学会做得更好看、更像设计师"。不同于 SFT 阶段往往存在"审美、保真、任务目标"等目标相互拉扯的情况，最终海报的评价在各个子任务之间其实共享一套通用原则（如构图平衡、层级清晰、色彩和谐、文本可读性等）于是我们训练一个统一奖励模型 ，同时输出通用审美与任务特定完成度的综合奖励，用来驱动后面的强化学习。

(1) 偏好数据怎么来

我们用 PosterOmni-SFT 对同一条 image-to-poster prompt 生成成对结果，先用 Gemini-2.5-Pro 做筛选，再让标注者选择"更美观且更符合任务"的那张。更关键的是，我们加入了一个很实用的 negative-pair 策略：把"输入参考图"当作 rejected，把"模型编辑后的输出"当作 chosen，强迫奖励模型认识到"有意义的改动"本身也是价值，避免模型在某些任务里学会投机——比如 layout/style 任务里直接把参考图 copy 过去。

(2) 模型形式与训练目标

基于 Qwen3-VL 编码器 + 轻量 MLP head，同时编码"视觉质量 + 指令 + 任务类型"，用 Bradley–Terry 目标把偏好对转成可优化的排序损失：促使 chosen 的分数高于 rejected。

结果就是：学到的不只是"好看"，还学到"对这个任务来说什么算做对、什么算偷懒"。

阶段 4：Omni-Edit 强化学习

有了奖励模型之后，关键问题是：如何把奖励真正"写回"扩散/流匹配模型里，并且训练稳定。PosterOmni 沿用 DiffusionNFT 这类思路：不走传统逆过程的策略梯度（容易不稳定），而是在正向扩散过程上做直接优化，用一种对比式 diffusion loss 把速度预测器推向高奖励行为、远离低奖励行为。DiffusionNFT 会从旧策略构造隐式正/负策略、，并用奖励加权的目标函数，把更新方向稳定地约束在"更高奖励"的区域；奖励还会做归一化以稳定尺度。

DiffusionNFT 本身提供的是"在正向扩散/流匹配过程中做对比式更新"的稳定范式；我们的贡献在于把它适配到 image-to-poster 的条件输入形式（输入图 + 指令 + 任务类型），并形成一套可落地的 Omni-Edit RL 训练流程：让速度预测器在同一训练机制下同时处理"局部编辑 + 全局创作"的两类任务。
很多工作会直接把强 VLM 的 logits / 打分当作通用编辑奖励，但这类奖励往往不理解 poster 任务的"完成标准"，容易出现"看起来像、但没按任务做"的投机解。PosterOmni 的核心区别是：我们用 给出 task-aware 的分数，在统一的奖励尺度下同时编码审美质量与任务对齐/完成度，从而让 RL 更新方向不仅"更好看"，也"更像完成这个任务"。
Poster 评价在跨任务上有大量共性（构图平衡、层级、可读性、配色等），因此我们用 统一奖励模型去优化这些共享质量维度；同时通过 task tags / task descriptions 把不同任务的差异化标准显式条件化，避免某个任务的偏好干扰另一个任务。

实验：PosterOmni 到底强在哪里？

我们把评测拆成三块：统一基准（PosterOmni-Bench）→ 自动评测与对比 → 关键模块消融。

1) PosterOmni-Bench：把"设计侧常见需求"系统化成可评测基准

我们首先做了一个专门面向 image/poster-to-poster 的多任务基准 PosterOmni-Bench，覆盖六类任务：Extend / Fill / Rescale / ID-driven / Layout-driven / Style-driven。

为了更贴近真实使用场景，Bench 同时包含中英文提示：540 条中文 + 480 条英文，共 1020 条，并且在六大主题（产品、美食、活动/旅行、自然、教育、娱乐）上均匀分布，既有单参考图也有多参考图的输入形式。

评测方式上，我们采用强 VLM（Gemini-2.5-Pro）对结果进行打分：

既看审美（整体视觉和谐、构图平衡、风格一致性等）
也看任务完成度（是否按指令完成编辑/迁移、是否保持需要保持的内容）
并在 1–5 分范围内给出综合评分（加权汇总为最终指标）。

直观理解：这个基准不是在测"会不会画图"，而是在测"会不会像设计师一样做海报改稿/再设计"。

2) 定量对比：六项任务全线领先，开源里断层，闭源里逼近

在 PosterOmni-Bench 上，我们对比了主流开源系统（如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等）以及强闭源系统（如 Seedream 系列）。结果非常一致：PosterOmni对比所有开源模型在六项任务上全部拿到最高分,在整体评价上也超过现有的部分闭源模型，并且提升不只来自某一个任务，而是"局部精修 + 全局创作"两条能力线同时变强。

对比 Qwen-Image-Edit：PosterOmni 在 Extend / Fill / Rescale / ID / Layout / Style 六项上均明显提升，尤其在 Layout-driven / Style-driven 这类需要高阶设计理解的任务上提升更大（不是"贴图式迁移"，而是更像"学到布局/风格的规则再生成"）。
对比 Seedream-4.0：整体上 PosterOmni 的平均表现已经超过，这点证明把开源的单模型直接把复杂需求做到了可用级别。

3) 定性对比：为什么说它"学风格/学布局"不是"直接 copy"？

定性结果里最典型的两类失败，我们在很多 baseline（包括部分闭源系统）上都能反复看到：

Style-driven：一些模型会把参考图里的局部元素直接"贴"过来，导致"看起来像拼贴"，甚至把不该复制的具体物体也搬运过去；PosterOmni 更偏向去学习配色、材质感、笔触/光影、字体气质这些"风格本质"，再把它迁移到新主体上。
Rescale / Layout-driven：很多系统只能做到裁剪/拉伸，或简单把元素挤压到新画布；PosterOmni 更像在做"改比例→重排版"：标题层级、留白、元素间距会跟着一起调整，主体也更稳定。

4) 消融实验：每个模块到底贡献了什么？

我们做了系统消融，核心想回答：PosterOmni 的提升来自哪里——是"多训点数据"还是"确实解决了多任务互相干扰 + 审美对齐"。

(a) 任务蒸馏 vs 直接混训：

我们对比了：

基座模型（如 Qwen-Image-Edit）
六任务直接混训（Mixed Training）
只训局部专家 / 只训全局专家
先训专家再蒸馏到学生（Task Distillation）
再加上辅助文本渲染损失（PosterOmni-SFT）

结果显示：

直接混训能涨一点，但仍会被"局部精修 vs 全局构图"拉扯；
单独的局部/全局专家会明显偏科；
蒸馏后的学生模型最稳，并且加上辅助文本渲染后，文字清晰度进一步提升（对海报任务很关键）。

(b) 专家融合方式：为什么"参数硬融合"不行？

我们还对比了常见的 LoRA 融合方式（线性插值、ZipLoRA 等）和我们的蒸馏策略:

参数融合容易出现"塌向某个专家"、或者干脆"直接 copy 参考图"的失败；
蒸馏是让学生去学行为（输出分布），而不是在参数空间硬拼，所以更能保持互补能力。

小结：为什么这套方法能支撑"one model for generalized multi-task image/poster-to-poster generation"

数据把六类真实设计需求系统化成训练对（且有严格过滤），保证模型学到的是"可用的设计能力"。
蒸馏把局部专家与全局专家的优势迁移到单一学生，避免多任务硬混导致的能力互相牵制。
奖励 + RL用统一的把"好看 + 做对"变成可优化信号，再用 DiffusionNFT 的稳定正向优化注入模型，让最终模型既不投机 copy。

参考文献

[1] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2026年2月26日星期四

PosterOmni开源AI海报设计模型：统一6大设计任务，媲美闭源商业方案

Tags:

AI海报生成

PosterOmni

图像编辑模型

设计自动化

开源AI工具