2026年4月2日星期四

AI图像生成新突破:Gen-Searcher多跳搜索智能体开源,知识密集型场景提升16分

Gen-Searcher是首个经过训练的多模态深度搜索智能体,通过监督微调和智能体强化学习(双奖励反馈)增强图像生成,支持多跳推理和网络搜索。开源了训练数据集Gen-Searcher-SFT-10k和RL-6k,并引入KnowGen基准。实验表明,在Qwen-Image上K-Score提升约16.5分,并可迁移至Seedream 4.5等模型。适用于AI研究者与开发者。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Kaituo Feng等

解读:AI生成未来
图片

文章链接:https://arxiv.org/abs/2603.28767 
项目链接:https://gen-searcher.vercel.app/
代码链接:https://github.com/tulerfeng/Gen-Searcher

图片

亮点直击

  • Gen-Searcher:首次探索并训练了一种用于图像生成的多模态深度搜索智能体。我们已将该项目完全开源,希望 Gen-Searcher 能为未来的相关研究提供开放的基础架构。
  • 构建数据pipeline与基准测试:为了支持模型训练,开发了专门的数据pipeline来构建"搜索密集型"图像生成数据,并由此产生了两个训练数据集:Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外还引入了 KnowGen,这是一个极具挑战性的新基准,专门用于评估在知识密集型真实场景下,基于搜索增强的图像生成能力。
  • 实验验证有效性:广泛的实验证明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基准上提升了约 16个点,在 WISE 基准上提升了约 15个点。

总结速览

解决的问题

现有的图像生成模型虽能生成高保真图像,但根本上受限于预训练阶段获得的固定内部知识,在需要丰富世界知识或最新信息的真实场景中经常失效。

提出的方案

Gen-Searcher——首个经过训练的搜索增强图像生成智能体,能够执行多跳推理和搜索,收集文本知识和参考图像以支撑有根据的生成。该工作还构建了专门的数据pipeline,策划了两个高质量数据集(Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k),并引入了KnowGen基准用于评估。

应用的技术

采用两阶段训练方案,先进行监督微调(SFT),再进行基于智能体的强化学习(agentic RL)。RL阶段采用双奖励反馈机制,结合基于文本的奖励(,评估输出文本包含信息的充分性、正确性和生成相关性)和基于图像的奖励(,即K-Score,评估最终生成图像质量),最终奖励计算公式为 。优化使用GRPO算法,优势函数计算为 

达到的效果

Gen-Searcher在不同图像生成主干网络上均带来显著提升,如Qwen-Image在KnowGen上的K-Score从14.98提升至31.52(约16.5分提升)。更值得注意的是,训练于Qwen-Image的Gen-Searcher可直接应用于Seedream 4.5和Nano Banana Pro而无需额外训练,分别带来约16分和3分的提升,展现出强大的可迁移性。在WISE基准上,Gen-Searcher将Qwen-Image从0.62提升至0.77。

方法架构

数据集构建

高质量训练数据对于开发能够执行多跳深度搜索和推理以进行图像生成的搜索智能体至关重要。然而,此类数据并非天然存在,因为它需要对齐的搜索密集型提示、智能体搜索轨迹和有根据的图像的三元组。

为解决这一挑战,工作设计了一个专门的数据pipeline,自动构建用于搜索支撑图像生成的训练数据。整体pipeline包含四个阶段:文本提示构建、智能体轨迹生成、有根据的图像合成,以及数据筛选与策划。如下图3所示为该数据策划pipeline的示意图。

图片

文本提示构建。首先构建需要在图像生成前进行深度网络搜索的文本提示。为确保多样性和真实的搜索难度,采用两种互补策略。主要方法使用精心设计的提示工程指导Gemini 3 Pro生成跨广泛类别的多跳搜索密集型提示,包括动漫、建筑、艺术、天文、生物、名人、化学、文化、工程、电影、游戏、地理、历史、工业、医学、物理、政治、海报、宗教和体育。这些提示明确设计为所需信息无法通过单轮搜索获得,而需要跨网络的多步证据聚合和分析。

作为补充策略,工作将现有深度研究问答数据集中的样本转换为面向图像生成的提示。具体而言,使用Gemini 3 Pro将信息寻求问题转换为需要生成被查询实体或事件的有根据视觉描述的提示。这一策略主要贡献与一般新闻相关的提示,进一步扩展了多样化知识场景的覆盖范围。

智能体轨迹生成。给定构建的文本提示,生成智能体搜索轨迹以执行深度搜索并收集足够的证据,用于生成最终的搜索支撑提示以及与所选参考图像一起提供准确视觉特征。同时,这些轨迹也作为后续监督微调的宝贵监督数据。

具体而言,工作以多轮方式使用Gemini 3 Pro配合一组搜索工具。工具集包括search用于从网络检索文本信息、image_search用于通过文本查询搜索相关图像,以及browse用于阅读和分析检索网页的详细内容。在此过程中,智能体持续分析来自环境的文本和视觉反馈,识别有用的证据和参考图像,并相应地规划下一步行动。通过这个多轮推理和搜索过程,智能体在最终生成用于图像合成的有根据提示和一组相关参考图像之前,逐步聚合来自多个来源的信息。

真实图像合成。获得最终有根据的提示和视觉参考后,使用专有图像生成模型Nano Banana Pro合成相应图像。生成的图像作为训练搜索智能体的合成真实值。此过程产生约30K原始样本,包括提示、搜索轨迹、有根据的提示、参考图像和真实图像。

数据筛选与基准构建。为确保数据质量,进一步采用另一个强大的专有模型Seed1.8从多个角度对生成样本进行评分,包括提示是否真正需要搜索、生成内容的正确性、对提示的忠实度、视觉美学、文本渲染清晰度和安全性考虑。这些基于模型的分数与基于规则的筛选相结合,例如移除token长度过长或搜索结果不一致的提示。筛选后获得约17K高质量样本。

从这个策划的数据集中,选择630个人工验证的样本来构建一个名为KnowGen的留岀基准,该基准将在后文介绍。剩余的16K样本用于训练,并被分成两个数据集:Gen-Searcher-SFT-10k用于监督微调和Gen-Searcher-RL-6k用于智能体强化学习。工作严格确保训练数据和评估基准之间不存在重叠。

KnowGen基准

为进行评估,工作引入了KnowGen,一个旨在评估知识密集型真实场景中搜索支撑图像生成的综合基准。与主要强调提示遵循或视觉质量的传统文本到图像基准不同,KnowGen明确关注知识密集型和搜索依赖型生成场景,其中解决提示通常需要从网络检索和聚合证据。

KnowGen中的每个样本都被构建为需要非平凡的外部知识,许多样本还需要在多个来源上进行多跳搜索。为确保可靠性,所有评估样本都经过人工验证。

类别组成。为提供对不同类型搜索支撑生成任务的广泛覆盖,工作将KnowGen中的630个样本分成两个高级子集:Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下类别:天文、生物、化学、物理、工程、医学、工业、建筑、历史、地理、宗教、政治、文化、艺术和体育。这些任务通常需要事实性世界知识、实体消歧或领域特定信息,且经常涉及必须正确视觉或文本实现的细粒度有根据细节。

Pop Culture & News子集涵盖与动漫、游戏、电影、名人、海报和一般新闻相关的提示。与第一个子集相比,这些任务更频繁地涉及快速变化的现实世界信息、流行文化实体,以及必须准确渲染的提示要求的文本或外观细节。这种两部分设计使KnowGen能够在统一基准内评估相对稳定的知识密集型场景和动态的、高更新的真实场景。如下图4所示为该基准的类别和示例概览。

图片

评估指标。为评估KnowGen上的生成质量,工作引入了K-Score,一个旨在从多个角度评估搜索支撑图像生成的指标。采用GPT-4.1作为评估模型输出的评判者,遵循WISE基准的做法。对于每个样本,评估器接收原始文本提示、真实参考图像和模型生成图像作为输入,并从四个维度对生成结果进行评分:faithfulness(忠实度)、visual_correctness(视觉正确性)、text_accuracy(文本准确性)和aesthetics(美学)。

忠实度衡量生成图像在场景结构级别是否遵循提示,包括要求的主题、关系、设置和请求的格式。视觉正确性评估关键有根据的视觉属性相对于目标概念是否与参考图像一致且正确,如主题外观、物体特征或其他外部可验证的视觉线索。文本准确性衡量图像中任何提示要求的可读文本是否存在、清晰且正确;当提示不要求可读文本时,该维度被视为不适用且不计入平均分。美学衡量生成图像的整体视觉质量和艺术吸引力,包括构图、色彩和谐、光照等,评估图像是否呈现视觉精致和美学愉悦。

按照评估设计,每个维度使用三级离散量表  进行评分。具体而言,分数1表示生成图像完全满足该维度的要求,0.5表示该维度大致正确或满足但包含轻微问题或部分不匹配,0表示生成未能满足该维度的关键要求。最终K-Score计算为这些四维度的加权组合:

图片

该加权强调了搜索支撑图像生成最关键的两个方面,即正确渲染有根据的视觉属性和准确再现要求的文本内容,同时仍考虑整体提示遵循度和图像美学。工作分别报告两个高级子集的K-Score以及KnowGen上的总体平均值。

训练方案

本节训练Gen-Searcher作为多模态深度搜索智能体,能够从网络迭代收集外部知识和视觉证据以进行图像生成。训练方案遵循两阶段pipeline,包括SFT和智能体RL。

搜索工具。Gen-Searcher配备三种搜索工具。第一个是search,执行网络文本搜索并返回每个查询的top-k相关网页URL及其短片段。该工具主要用于验证事实信息,如实体名称、事件细节、日期、位置和简洁描述。第二个是image_search,检索给定文本查询的top-k相关图像,连同图像URL和简要描述,使智能体能够确定身份、物体、地标、服装和其他细粒度外观细节。第三个是browse,接收网页URL作为输入并返回页面内容摘要;在实现中,该摘要由Qwen3-VL-30B-A3B-Instruct生成。当浅层搜索结果不足且智能体需要从网页提取具体证据时使用此工具。在每一步,智能体观察当前提示和累积的搜索反馈,然后决定是否继续搜索、检索视觉参考、浏览页面获取更多细节,或以最终有根据的提示和所选参考图像终止。如下图5所示为Gen-Searcher的代表性推理轨迹示例。

图片

两阶段训练。工作从Qwen3-VL-8B-Instruct初始化Gen-Searcher。在第一阶段,在Gen-Searcher-SFT-10k上进行监督微调,教授模型执行多轮工具使用,包括发出搜索查询、解释文本和视觉反馈、选择有用的参考图像,以及撰写最终搜索支撑的提示。在第二阶段,在Gen-Searcher-RL-6k上通过强化学习进一步优化模型,使其能够学习更有效的搜索策略并产生改进的工具调用轨迹。值得注意的是,在训练期间图像生成器保持固定;工作仅优化Qwen3-VL-8B-Instruct以生成搜索支撑的提示以及相应的参考图像。

双奖励反馈设计。在该设置中进行RL的自然选择是直接使用基于图像的奖励(如K-Score)来评估最终生成图像。然而,仅依赖图像奖励会导致大量噪声和不稳定性。这是因为最终图像质量不仅取决于检索证据的正确性,还取决于下游图像生成器的能力和随机性。特别是对于开源生成器如Qwen-Image,即使智能体已收集正确信息,复杂提示仍可能无法产生高质量图像,且即使相似的有根据提示也可能导致明显不同的生成结果。因此,纯基于图像的奖励引入大方差并使策略优化不稳定。

为解决此问题,工作引入额外的基于文本的奖励,记为 ,其评估最终输出文本是否包含用于合成目标图像的充分、正确且与生成相关的信息。同样使用GPT-4.1作为评判者,以五级量表对该奖励进行评分,取值为 。与图像奖励相比,文本奖励为信息收集和证据聚合的质量提供更直接的监督。然而,仅使用文本奖励也不充分,因为表面上包含充分信息的文本不一定支持高质量图像生成。仅优化文本奖励将因此忽略实际最终任务生成结果,并可能鼓励文本信息丰富但对生成实际无效的输出。相应提示可在附录B中找到。

因此,工作结合两种信号并采用双反馈奖励设计,其中基于文本的奖励监督所收集信息的质量,基于图像的奖励反映最终生成性能。最终奖励计算为:

图片

其中  是平衡超参数。这里工作简单设置  并使用K-Score作为 

优化。计算最终奖励后,工作使用GRPO优化策略。对于查询  下采样的每个输出 ,通过将其奖励与采样组内奖励的均值和标准差进行归一化来计算优势:

图片

最终策略更新遵循标准GRPO目标:

图片

其中变量和超参数按照原始GRPO算法定义。

实验分析

实验设置。工作使用8块NVIDIA H800 GPU训练Gen-Searcher-8B,以Qwen3-VL-8B-Instruct作为基础模型。首先在Gen-Searcher-SFT-10k上进行监督微调,然后在Gen-Searcher-RL-6k上进行智能体RL训练。SFT和RL均使用AdamW作为优化器,SFT学习率设为 ,RL学习率设为 ,批量大小均设为8。

RL训练期间,额外在16块H800 GPU上部署Qwen-Image-Edit-2509以支持rollout图像生成,因为发现2509版本比2511版本提供更优的文本渲染质量。同时还在8块H800 GPU上部署Qwen3-VL-30B-Instruct-A3B作为browse工具的摘要模型。为提升效率,设置组大小为6,最大交互轮数限制为10,每轮最多返回5张图像,最大上下文长度设为36K,每轮模型响应长度限制为4K。按照先前做法,在训练中屏蔽过长rollout和重复响应的rollout。训练过程消耗约一天时间。

KnowGen基准结果。如下文表1所示为不同模型在KnowGen基准上的性能。总体而言,KnowGen对当前图像生成模型(尤其是开源模型)而言是一个极具挑战性的基准。即使是强大的开源基线如Qwen-Image、HunyuanImage-3.0、FLUX和Z-Image,K-Score也仅达到9到15分左右,表明知识密集型和搜索支撑图像生成仍远超出标准文本到图像系统的能力范围。相比之下,专有模型表现显著更好,Nano Banana Pro实现了最强的基线结果50.38,GPT-Image-1.5达到44.97。这一巨大差距表明KnowGen在背景知识检索和忠实视觉实现方面都提出了重大挑战,也突显了开源和专有系统在处理此类任务方面的明显差异。

该方法在不同图像生成主干网络上均带来显著提升。与Qwen-Image结合时,Gen-Searcher-8B将总体K-Score从14.98提升至31.52,获得16.54分的提升。这一大幅提升表明Gen-Searcher能够通过主动从网络收集有根据的文本证据和视觉参考,大幅弥补开源图像生成器内置搜索能力的不足。更重要的是,Gen-Searcher不仅仅是学习特定生成器的提示启发式,而是学习可迁移的搜索- grounding策略,能够泛化到不同的下游图像生成器。

值得注意的是,尽管Gen-Searcher在RL期间使用Qwen-Image作为rollout生成器进行训练,但它在测试时能够很好地迁移到其他生成器。特别是,它将Seedream 4.5从31.01提升至47.29,获得16.28分的提升,并进一步将Nano Banana Pro从50.38提升至53.30,达到表中最佳总体结果。这些结果不仅展示了搜索智能体的有效性,还展示了其在具有非常不同原生能力的图像生成器间的强大可迁移性和鲁棒性。

对四个评估维度的分析表明,Gen-Searcher带来的增益主要来自visual correctness和text accuracy的提升,这也是KnowGen中最重要的两个组成部分。这表明该搜索框架使图像生成器能够更好地生成需要现实世界知识的准确视觉属性和文本内容。在某些情况下,观察到美学分数略有下降,这可能源于生成器需要整合来自多个检索参考图像的信息,因此无法始终产生最理想或视觉最愉悦的构图。

工作还发现Nano Banana Pro上有趣的模式:其提升主要来自visual correctness,而text accuracy几乎保持不变。一种可能的解释是Nano Banana Pro已经在内部支持基于文本的搜索,这有助于保持与文本相关的性能,但它不检索视觉参考图像,在确定细粒度视觉属性方面留下了 substantial 的改进空间。

WISE基准结果。如下表2所报告为不同模型在WISE基准上的性能。与KnowGen相比,WISE是一个相对更简单的基准,但仍需要一定量的世界知识以进行正确的图像生成。

图片

Gen-Searcher-8B与Qwen-Image结合在WISE上取得最佳总体性能0.77,显著优于原始Qwen-Image基线的0.62,提升0.15。它也超越了所有其他开源模型,包括LongCat-Image、HunyuanImage-3.0和FLUX.1-dev。观察各个类别,该方法在Cultural、Time、Space、Biology以及特别是Chemistry上带来明显提升,其中Chemistry分数从0.40提升至0.75。这些结果进一步证明Gen-Searcher能够超越KnowGen进行泛化,并有效增强基于知识的图像生成基准上的图像生成能力。

消融实验。为验证Gen-Searcher中不同组件的有效性并更好理解每个设计选择在整体框架中的作用,工作比较了以下变体:(1)无任何搜索增强的原始Qwen-Image基线;(2)Qwen-Image + workflow,使用Qwen3-VL-8B-Instruct作为搜索智能体,采用手动设计的基于提示的搜索工作流而无需任何额外训练;(3)Qwen-Image + Gen-Searcher-SFT,仅应用监督微调训练Gen-Searcher而无需强化学习;(4)Qwen-Image + Gen-Searcher w.o. text reward,移除基于文本的奖励,RL训练期间仅使用基于图像的奖励;(5)Qwen-Image + Gen-Searcher w.o. image reward,移除基于图像的奖励,RL训练期间仅使用基于文本的奖励;(6)完整的Gen-Searcher模型,包括SFT初始化和提出的智能体RL训练期间的双奖励反馈设计。

如下表3所示,所有组件都对最终性能有积极贡献。与原始Qwen-Image基线相比,基于提示的工作流将KnowGen分数从14.98提升至22.91,表明仅引入外部搜索就能为知识密集型图像生成带来收益。用Gen-Searcher-SFT替换基于提示的工作流进一步提升分数至28.15,证明了直接从轨迹数据学习工具使用行为相对于依赖手动设计提示规则的优势。这表明在策划的搜索轨迹上进行监督学习使模型能够更好地组织搜索行动、整合检索证据,并为生成产生更有效的有根据提示。

图片

智能体强化学习在SFT基础上带来额外收益,完整的Gen-Searcher达到最佳性能31.52。这表明虽然SFT为基本工具使用提供了强大的初始化,但RL对于进一步优化长程搜索行为和提升所收集证据及最终输出的整体质量仍然至关重要。此外,移除文本奖励或图像奖励都会导致明显下降,分数分别降至29.59和29.36。这证实了两个奖励信号发挥互补作用。文本奖励为智能体是否在文本层面收集了充分且正确的信息提供更直接的监督,而图像奖励将策略与最终生成结果对齐,并鼓励所收集证据对图像合成实际有用。总体而言,消融结果验证了整体框架的有效性,包括学习的搜索行为、智能体RL优化和提出的双奖励设计。

定性可视化分析。如下图6所示为KnowGen基准上的代表性定性示例。总体而言,Gen-Searcher在不同下游生成器上持续提升生成图像的质量和正确性在知识密集型、真实场景中。首先,观察到Nano Banana Pro在生成真实、知识密集型场景的准确细粒度视觉属性方面仍有不足,因为它无法执行图像搜索以获取精确的视觉参考。因此,即使某些文本信息正确,生成的身份、物体外观或建筑细节也可能偏离目标。相比之下,Gen-Searcher通过搜索相关参考图像并用更准确的有根据视觉证据确定生成过程,从而改进Nano Banana Pro。

图片

一个有趣的发现是,对于Qwen-Image,即使搜索智能体已收集正确信息,由于图像生成器本身的限制(如多主题一致性问题、文本渲染不佳问题),最终生成有时仍可能不准确。如上文图6的第四行提供了这样一个示例,其中搜索内容正确但生成的图像仍未能忠实地实现所需的多角色细节。总之,这些示例表明Gen-Searcher能够通过为有根据的文本和视觉证据提供支撑,大幅改进强大的专有模型Nano Banana Pro和开源模型Qwen-Image的生成质量,而某些失败案例也表明下游图像生成器的能力仍是一个挑战。

参数分析。工作进一步分析了双反馈设计中基于文本奖励和基于图像奖励之间的平衡系数 。如下图7所示为使用不同  进行RL训练的Gen-Searcher性能。观察到设置  或  都会导致明显的性能下降,表明两个奖励信号对于有效训练都是必需的。这与动机一致:仅依赖图像奖励由于下游生成器的随机性和有限能力而引入高方差,而仅依赖文本奖励忽略所收集信息是否实际支持高质量图像合成。相比之下,发现当  设置在0.3到0.6范围内时性能持续强劲,表明该方法对该超参数在相对广泛的范围内相对不敏感。

图片

结论

该工作提出了Gen-Searcher,这是首个尝试使用智能体强化学习训练多模态深度搜索智能体用于知识密集型图像生成的研究。为实现这一设置,工作构建了专门的数据pipeline,创建了两个训练数据集Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k,并引入了KnowGen基准以及K-Score用于评估真实世界知识密集型图像生成。基于这些资源,工作通过监督微调和具有双奖励反馈的智能体强化学习的两阶段方案训练Gen-Searcher。

大量实验表明,Gen-Searcher在KnowGen和WISE上都为不同图像生成主干网络带来大幅提升,同时在图像生成器间展现出强大的可迁移性。该工作期望这一研究能够成为真实世界图像生成搜索智能体未来研究的开放基础。

参考文献

[1] Gen-Searcher: Reinforcing Agentic Search for Image Generation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

一键生成20秒长视频

Tags: