文章链接:https://arxiv.org/pdf/2510.04201 Git链接:https://github.com/mhson-kyle/World-To-Image
效果展示 亮点直击
智能体 式优化框架 。提出了一种诊断与选择 智能体 ,它在语义分解、概念替换和基于网页证据的多模态对齐之间进行选择。 面向T2I的世界知识注入 。将提示词优化扩展到文本之外,通过整合图像检索与条件生成来处理新概念,在无需重新训练的情况下实现语义保真度SOTA。 总结速览 解决的问题 T2I 模型的知识时效性问题 :由于预训练数据存在知识截止点,模型在面对 新颖或分布外(OOD)概念 时生成质量显著下降。 现有 提示词优化(prompt optimization) 方法只在文本表层调整,无法弥补模型缺乏语义理解的问题。 提出的方案 提出 WORLD-TO-IMAGE (W2I) 框架,通过 智能体 驱动的世界知识 弥补T2I模型的知识盲区。 将提示词优化扩展为 一个智能决策过程(agentic decision process) ,包含: 针对语义缺失, 动态调用外部知识源(网页检索) 以弥补模型认知。 不修改基础模型权重,仅通过优化输入提示及多模态信息增强生成语义对齐。 应用的技术 Web Agent 检索机制 :自动在网络上搜索与新概念相关的 文本定义 与 代表性图像 。
对提示语进行语义分解(semantic decomposition),提取核心概念。 对模型不熟悉的概念进行 概念替换(concept substitution) ,用模型可理解的同义表达重写提示。 多模态视觉对齐 :通过检索到的图像进行 视觉条件输入(reference-based conditioning) ,增强生成的语义真实性。
轻量化失败分析 :利用探测性生成(probe generations)和概念覆盖检测判断模型理解风险。
自动化评估 :采用 LLM-Grader 和 ImageReward 等现代指标评估语义保真度。
达到的效果 语义一致性显著提升 :在自建的 NICE benchmark 上,提示语准确率提升 +8.1% 。 视觉美学质量保持领先 :在语义对齐的同时,生成图像的视觉质量依然与SOTA模型相当。 可扩展性强 :无需修改或微调基础生成模型,即可使T2I系统 动态反映现实世界变化 。 WORLD-TO-IMAGE:基于 智能体 的世界知识驱动 T2I 生成 本研究的目标是使 T2I 模型能够结合外部世界知识,从而扩展在预训练过程中未被观察到的嵌入空间区域。由于模型在训练期间未接触过新颖概念,其在包含此类概念的提示词 上的性能通常会下降,需要额外的时间和迭代才能生成有意义的图像。
本文提出了 WORLD-TO-IMAGE(W2I) ,一个基于 智能体 的 迭代式 T2I 生成优化框架,能够动态利用世界知识。给定初始提示词 ,系统首先在没有示例的情况下生成基线图像 ,其中 。在每次迭代 中,该框架由一个协调 智能体 (Orchestrator Agent)控制,该 智能体 接收状态 ,其中 是结合语义一致性与美学质量的评估得分。基于该状态,协调 智能体 决定是否激活提示词优化 智能体 (Prompt Optimizer Agent, POA)或图像检索 智能体 (Image Retriever Agent, IRA)。
如下图 2 所示,当 时,POA 通过增强描述性内容(例如替换特定领域术语或重构文化引用)将提示词 优化为 ,同时保持示例集不变( )。相反,当 时,IRA 基于 检索更新后的示例集 ,以对未见过的实体或风格等新概念进行语义对齐,同时保持提示词不变( )。最后,该框架支持联合激活模式,即两个 智能体 顺序工作。在此模式下,POA 首先生成优化后的提示词 ,随后 IRA 立即利用该提示词检索更具上下文感知的示例集 。这使得在单次迭代中同时更新语言和视觉输入成为可能。
更新后的提示词–示例对 随后被传递给生成器,生成新图像 。图像通过 进行评估,循环持续直到收敛。收敛定义为当 时,输出 ;或者当达到最大迭代次数预算 时,返回所有迭代中得分最高的图像:
将 分解为语义对齐、关键词覆盖(由 LLM 评分)和美学质量。
关键词集合 。从提示词 (以及在适用时从 中提取的参考描述符)中,形成一个规范的必需标记集合 ,包括实体、属性、关系、风格和约束(例如,角色名称、地点、色板、时代、相机)。本文通过基于规则的解析(POS/NER)结合 LLM 处理来获得 ,该处理会合并同义词并删除冗余项。
LLM 关键词评分 。LLM 接收 并返回每个关键词的判断 ,对应 {存在、部分存在、缺失},并附简短理由。关键词覆盖得分为:
可选加权:如果协调 智能体 标记某些关键词为关键,则对其加权(权重重新归一化为 1)。
美学质量 。 衡量感知吸引力(例如,构图、光照、色彩和谐)。它可以由自动质量模型或 LLM 美学评分标准计算;得分归一化到 。
通过这种方式,本文整合了语言空间优化(通过提示词精炼)和视觉空间优化(通过示例检索),使 T2I 模型在推理过程中能够适应新概念。假设这种语言空间与视觉空间的联合优化相辅相成,并产生强大的协同效应。本文的方法在算法 1 中进行了形式化说明。
实验 本节首先描述实验设置,然后呈现结果分析,并将其与本文的假设对齐。
实验设置 模型 。本文比较了七个系统:Stable Diffusion 1.4、Stable Diffusion 2.1、Stable Diffusion XL(Base)、OmniGen2、使用 Stable Diffusion XL(Base)和 OmniGen2 的 Promptist 提示词优化pipeline,以及本文的 智能体 式pipeline World-To-Image。
SDXL-Base 在通用提示词上略优于 OmniGen2。然而,在需要为不熟悉的实体或细粒度属性进行条件对齐的参考条件设置中,OmniGen2 展现出更强的条件一致性和稳定性,从而实现更高的提示词准确率(Accuracy-to-Prompt)。因此,采用 OmniGen2 作为 智能体 式pipeline的生成骨干,同时报告 SDXL-Base、SD2.1、SD1.4 和 Promptist 作为完整性的基线。本文包含 SDXL-Base、SD2.1 和 SD1.4,因为它们在图像生成社区中仍被广泛采用,是强有力的基线,并为比较现代系统提供了代表性基准。
数据集 。为了评估本文的 智能体 式图像生成pipeline——系统会调用 API 获取基础生成器不太可能理解的概念的参考图像——使用三个数据集:Lexica、DiffusionDB 和 NICE(Niche Concept Evaluation)基准。虽然现有基准主要关注通用提示词,NICE 专门针对稀有、组合性和时间敏感的概念,提供了一个严苛的环境来测试检索和对齐能力。对于每个子类别,搜索了流行和新兴主题,并使用 GPT-5 对其进行优化,确保提示词的清晰性和多样性。
通用基线 。Lexica 和 DiffusionDB 被广泛用于对文本到图像系统在广泛、分布内提示词上的基准测试。虽然它们包含偶尔的知识产权或名人提及,但这些情况是偶发的,而不是这些语料库的主要关注点;因此,它们低估了本文的pipeline针对的长尾、时间敏感或组合性概念。
策划的 NICE 基准。为了严格测试检索能力,本文构建了一个包含 100 条提示词的评估集,涵盖五个子类别: (1) Meme,(2) 实时新闻与事件,(3) 流行文化与知识产权,(4) 艺术家/名人/影响者,(5) 小众概念(每类 20 条提示词)。提示词旨在 (i) 混合两个不同概念,或 (ii) 引用 2024 年以后的实体和事件,形成分布外案例,这些案例需要外部视觉证据。此设计迫使协调 智能体 调用图像检索 API,并基于检索到的示例进行生成对齐。
评估指标 。本文在通常对基础生成器而言属于分布外的困难/小众提示词上评估本文的增强检索 智能体 pipeline。为了在大规模上捕捉语义保真度和人类感知质量,报告了 LLM Grader 和人类偏好奖励(Promptist Reward 与 ImageReward),以及 HPSv2。
LLM Grader 。遵循相关方法,基于 LLM 的评判者对五个维度进行评分:提示词准确性(Accuracy-to-Prompt)、创造性与原创性(Creativity & Originality)、视觉质量与真实感(Visual Quality & Realism)、一致性与连贯性(Consistency & Cohesion)、情感/主题共鸣(Emotional/Thematic Resonance),并给出总体汇总。在涉及小众、组合性或时间敏感概念时衡量语义对齐的主要指标。
人类偏好 。Promptist Reward 和 ImageReward 是基于人类偏好数据训练的奖励模型,用于评估文本–图像对;将它们的总和作为人类偏好奖励(Human Preference Reward)。HPSv2 是另一种基于人类偏好的评分模型。这些作为感知质量和用户偏好的自动 智能体 ,与 LLM Grader 互补,以实现大规模、可重复的比较。
实现细节 。本文pipeline中的所有 智能体 均使用 作为其骨干模型。默认进行两次优化迭代,使用 OmniGen2 作为基础图像生成器。在图像检索方面,本文利用 Google SERP API 获取用于对齐的相关参考图像。协调 智能体 监控进展,并可能在不预期有进一步改进时提前终止循环;否则,它会执行完整的两次迭代优化计划。
结果 主要结果总结如下表 1 所示。在研究的所有三个数据集上,本文提出的方法 W2I 一致优于所有基线。总体性能提升在 NICE 数据集上最为显著(+5.8%),相比之下,在更广泛的 DiffusionDB 上提升 +2.4%,在 Lexica 上提升 +3.4%。这验证了本文的 智能体 pipeline在处理其设计目标的分布外提示词时特别有效。在提示词准确性(Accuracy-to-Prompt)方面,提升最为显著:W2I 在本文的数据集上将得分提升了 +8.1%,而在 DiffusionDB 上提升 +3.4%,在 Lexica 上提升 +6.4%。这与本文的核心假设一致,即涉及新概念的提示词最受益于多模态对齐,而 W2I 通过联合利用检索与文本优化实现了这一点。
图像质量与人类偏好 。在下表 2 中,本文研究了多模态提示词优化对图像质量的影响。本文关注客观图像质量得分和基于人类偏好的评估。W2I 在这两个维度上均保持了强劲表现,优于所有其他基线。这些发现表明,本文的方法在追求语义准确性的同时并未牺牲视觉保真度,而是实现了两者之间的良好平衡。
新概念上的表现 。为了进一步验证本文框架在分布外提示词上的有效性,分析了其在 NICE 基准五个不同子类别中的表现。如下图 5 所示,本文的方法在每个类别中均持续优于所有基线,包括强大的 Promptist 优化器和基础 OmniGen2 模型——从 Meme、实时事件到小众知识产权。这一结果证明了框架的鲁棒性,并确认其优越性能源自通过 智能体 检索与对齐处理广泛未见概念的专门能力。
消融研究 。为了区分本文优化pipeline中不同组件的贡献,对优化pipeline的每个组件进行了消融(下表 3)。本文的完整pipeline在我们提出的数据集上取得了最佳结果。仅依赖图像检索在处理更复杂的提示词时可能失败,因为生成过程可能过度依赖参考图像而未能完全对齐任务规范。相反,仅进行提示词优化只能改善与文本指令的一致性,但图像条件可以为模型提供更具体的参考。结合这两个组件的协同作用在所有指标上产生了显著的提升,这表明虽然每种方法单独强调不同的改进方向,只有它们的结合才能释放基础模型的全部潜力。
增加优化步骤的影响 。 本文还分析了将优化步骤扩展到 10 步的影响,并在下图 6 中绘制了每次迭代的性能提升曲线。性能在各迭代中持续提升,前两次迭代的提升最为显著。这支持了我们默认使用两步迭代的决策,在性能与效率之间取得了平衡。我们还观察到 IRA 通常在早期迭代中被调用,而 POA 主要在后期迭代中调用,这表明图像检索在早期提供了强有力的提升,而随后的提示词优化则细化了输出以获得进一步的提升。
讨论 本文的发现引发了几个重要的讨论点。新概念上的显著提升表明,预训练生成模型往往已经具备表示新实体的潜在能力,但需要合适的多模态信号来激活它们。这提示了一个更广泛的机会:不仅仅是扩展模型本身,改进接口机制(如检索和自适应提示)可能释放显著的性能提升。
此外,消融研究显示了基于文本和图像的优化之间的强协同作用,有效地将提示词优化的视野扩展到多模态提示,以利用它们的互补优势。
参考文献 [1] World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge