2025年4月16日星期三

Seedream 3。0技术细节重磅发布!中文图文生成再进化,2K高清+爆改文字渲染,远超Canva!


点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:字节Seed团队等

解读:AI生成未来

文章链接:https://arxiv.org/pdf/2504.11346 
官方链接:https://team.doubao.com/tech/seedream3_0  

亮点直击

  • 相比Seedream 2.0能力全面增强:在用户偏好测试中表现出色,在图文对齐、构图结构、美学质量和文字渲染等关键能力方面有重大突破。
  • 文本渲染性能提升显著:在中英文小尺寸字符生成和高美学长文本排版方面表现优异。小文本生成与美学排版难题的开创性方案,在图文设计输出上超越 Canva 等平台的人设模板。
  • 图像美学提升:图像美学质量显著提升,在电影场景和人像写实度方面表现卓越。
  • 原生高分辨率输出:支持 2K 分辨率的原生输出,免除后处理需求,同时兼容更高分辨率并可适配多种长宽比。
  • 推理成本高效:多项模型加速技术,3.0 秒内生成一张 1K 分辨率图像(不含位置编码),推理速度远超其他商用模型。

解决的问题

  • 复杂提示词对齐不佳:在处理多目标、多关系的复杂提示词时,精确性和一致性不足。

  • 精细文字生成能力弱:在生成小尺寸字体、多行排版、复杂文字排版方面存在明显短板。

  • 图像美学与真实感不足:特别是在电影感画面和人像肌理的生成方面表现欠佳。

  • 原生分辨率限制:此前只能生成 512×512px 小图,需要后处理进行超分辨率提升。

提出的方案

  • 数据层改进:使用缺陷感知训练机制和双轴协同采样框架,将数据集规模提升至原来的两倍。

  • 预训练阶段改进:引入四项关键训练策略:

    • 混合分辨率训练(Mixed-Resolution Training)

    • 跨模态 RoPE(Cross-Modality Rotary Position Embedding)

    • 表征对齐损失(Representation Alignment Loss)

    • 分辨率感知时间步采样(Resolution-Aware Timestep Sampling)

  • 后训练阶段优化:在 SFT 中引入多样化审美描述,并利用基于视觉语言模型(VLM)的奖励机制进行调优。

  • 推理加速策略:通过一致噪声预期与重要性感知采样策略,在保持画质的同时实现 4-8 倍速度提升。

Seedream 3.0 已于 2025 年 4 月初集成进多个平台,包括豆包和即梦。殷切希望 Seedream 3.0 能成为提升工作与生活各方面生产力的实用工具。

技术细节

数据

在 Seedream 2.0 中,采用了一种严格的数据过滤策略,系统性地剔除包含轻微缺陷(如水印、覆盖文字、字幕、马赛克等)的图像数据。这种严格的过滤显著限制了训练所用数据量,尤其考虑到此类缺陷样本约占原始数据集的 35%。为解决这一问题,Seedream 3.0 引入了一种创新的"缺陷感知训练范式"。该范式包含一个专门训练的缺陷检测器,基于 15,000 张由主动学习引擎挑选并人工标注的样本构建。该检测器可通过边界框预测精确定位缺陷区域。

当检测出的缺陷区域总面积小于图像空间的 20%(可配置阈值)时,我们保留这些此前被剔除的样本,同时实施掩码潜空间优化。具体来说,在潜空间的扩散损失计算中,我们采用空间注意力掩码机制,将来自缺陷区域的特征梯度排除在外。这种创新方法在保持模型稳定性的同时,将有效训练数据集扩展了 21.7%。

为优化数据分布,我们提出了一种"双轴协同数据采样框架",从视觉形态和语义分布两个维度联合优化。在视觉模态方面,我们继续采用分层聚类方法,确保不同视觉模式的平衡表达。在文本语义层面,我们通过词频-逆文档频率(TF-IDF)实现语义平衡,有效解决描述文本的长尾分布问题。为进一步增强数据生态的协同性,我们开发了一个跨模态检索系统,为图文对构建联合嵌入空间。该系统在所有基准测试中均达到最先进水平。

该检索增强框架通过以下方式动态优化数据集:

  • 通过目标概念检索注入专家知识;
  • 通过相似度加权采样进行分布校准;
  • 利用检索到的邻近对进行跨模态增强。

模型预训练

模型架构

核心架构设计延续自 Seedream 2.0,该版本采用 MMDiT 处理图像和文本 token,并捕捉两种模态之间的关系。在 Seedream 3.0 中,扩大了基础模型的总参数量,并引入了多项改进,从而提升了模型的可扩展性、泛化能力以及图文对齐效果。

混合分辨率训练。 Transformer原生支持可变长度 token 输入,并已在基于 ViT 的视觉识别任务中被证实有效。在 Seedream 3.0 中,在每次训练阶段将不同长宽比和分辨率的图像打包在一起进行混合分辨率训练。具体来说,我们首先以平均分辨率为 256²(含多种长宽比)进行预训练,然后在更高分辨率图像(512² 到 2048²)上进行微调。同时,引入尺寸嵌入作为附加条件,使模型感知目标分辨率。混合分辨率训练显著提升了数据多样性,提高了模型对未见分辨率的泛化能力。

跨模态旋转位置编码(RoPE)。 在 Seedream 2.0 中,引入了可缩放 RoPE,使模型更好地泛化至未训练的长宽比与分辨率。在 Seedream 3.0 中,将该技术扩展为"跨模态 RoPE",进一步提升视觉-文本 token 的对齐效果。我们将文本 token 视为形状为 [1, L] 的二维 token,并对其应用二维 RoPE [22]。文本 token 的列向位置 ID 被顺序赋值于图像 token 之后。跨模态 RoPE 有效建模了模态内和模态间的关系,对提升图文对齐与文本渲染精度至关重要。

模型训练细节

训练目标 在 Seedream 3.0 中,采用了 Flow Matching训练目标,以及表示对齐损失(REPA):

其中使用线性插值形式:

该方法遵循了[3, 13] 中的通用实践。表示对齐损失是通过MMDiT 的中间特征与预训练视觉编码器 DINOv2-L的特征之间的余弦距离计算的,损失权重为 。发现,引入表示对齐目标可以加速大规模文本生成图像模型的收敛过程。

分辨率感知的时间步采样 如公式 (1) 所示,时间步是从一个适应于数据集𝐷的分布  中采样的。类似于[3],通过先从 logit-normal 分布采样,然后根据训练分辨率进行时间步偏移来设计时间步分布。

一般来说,在高分辨率训练时,我们会将分布向低信噪比(SNR)方向偏移以增加其采样概率。在训练过程中,计算数据集𝐷的平均分辨率以确定偏移后的时间步分布。在推理阶段,根据目标分辨率和宽高比计算偏移因子。

模型后训练

类似于 Seedream 2.0,我们的后训练流程包括以下阶段:持续训练(CT)、有监督微调(SFT)、人类反馈对齐(RLHF)以及提示词工程(PE)。省略了 Refiner 阶段,因为我们的模型可以直接生成分辨率范围在  到 内的任意分辨率图像。各阶段效果的对比展示见图 3。

审美描述生成器(Aesthetic Caption)

为 CT 和 SFT 阶段中的数据特别训练了多个版本的描述生成模型。如图 4 所示,这些描述模型在审美、风格和布局等专业领域提供了准确的描述。这确保了模型可以更有效地响应相关提示,从而提升模型的可控性以及经过提示词工程处理后的表现。

模型训练细节

为了确保模型在不同分辨率下都能取得良好表现,在训练过程中采用了一种分辨率平衡策略。这种方法确保了不同分辨率训练数据的充分采样,从而增强了模型在各种场景中跟随提示的能力。

奖励模型扩展

与之前 Seedream 2.0 使用 CLIP 作为奖励模型不同,现在采用视觉-语言模型(VLMs)作为奖励建模框架。这一改变利用了 VLM 更强大的基础能力和奖励扩展潜力。受大语言模型(LLMs)中生成式奖励建模(RM)技术启发,我们将指令明确地表述为查询,并从"Yes"响应 token 的归一化概率中导出奖励。

这种方法有效地利用了预训练 LLM 中的知识,并自然受益于 LLM 的扩展效应,从而提升了奖励质量。我们系统性地将奖励模型从 1B 参数规模扩展到超过 20B。实验证明了奖励模型扩展的显著效果,表明增加奖励模型容量能够提升奖励建模表现。

模型加速

本文加速框架建立在 Hyper-SD 和 RayFlow基础上。重新思考了扩散过程,使得每个样本可以遵循其自身自适应的生成轨迹,而不是强制所有样本都经过一个共同路径最终收敛到标准高斯先验。在传统的扩散模型中,所有样本都会被逐步转换为各向同性的高斯噪声,导致在概率空间中的轨迹重叠。这种重叠增加了随机性,降低了可控性,并在反向过程引入了不稳定性。本文改为将每个数据点引导到特定的目标分布,从而实现每个样本轨迹的个性化定制。这显著减少了路径冲突,并提升了生成稳定性和样本多样性。

稳定采样的一致性噪声期望为了确保采样过程中平滑且一致的过渡,引入了一个统一的噪声期望向量,该向量从预训练模型中估计得出。这个期望向量作为所有时间步的全局参考,使去噪过程在时间上保持一致。通过保持期望的一致性,我们能够在不降低图像质量的前提下压缩采样步数。理论分析进一步表明,我们的设计最大化了从数据到噪声再返回的数据-噪声正反路径的概率,从而带来了更稳定的采样和更可靠的重建效果。

学习关键时间步的采样除了重新设计生成路径,还着力提升训练效率。扩散模型的标准训练过程通常对时间步进行均匀采样,这会引入高方差损失,并在非关键信息步骤上浪费计算资源。

为了解决这一问题,引入了一个重要性采样机制,学习聚焦于训练中最关键的时间步。将随机 Stein 偏差(SSD)与一个神经网络相结合,该网络学习一个依赖数据的时间步分布。该网络预测哪些时间索引对减少训练损失的贡献最大,从而使我们在优化过程中优先考虑这些时间步。结果是更快的收敛速度和更高效的训练资源利用。

本文框架支持在极少步骤下进行高效采样,同时不牺牲生成质量。其遵循一个迭代去噪日程,采样步骤远少于未加速的基线方法。尽管步骤减少,本文方法在美学质量、文本-图像对齐和结构保真度等关键方面达到了或超过了需要 50 次函数评估(NFE)才能实现的基线结果。这些结果表明,我们的轨迹设计与噪声一致性机制在实现高质量合成与最小计算代价方面的有效性。对于其他加速方法,如量化,直接采用 Seedream 2.0 的方案。

模型性能

在一次公开进行的评测中,Seedream 3.0 在全球顶级文本生成图像模型中排名第一,超越了 GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro、Ideogram 3.0 等模型。

还进行了严格的专家评估,包括人工评估和自动评估。结果显示,Seedream 3.0 在所有关键性能指标上相较于前一版本均有显著提升,并在与行业领先模型的比较中表现出色。

值得注意的是,Seedream 3.0 在两个方面表现尤为卓越:密集文本渲染和逼真人像生成。此外,还在下面提供了与 GPT-4o的系统对比分析,探讨两个模型在不同领域的能力边界。总体结果展示在图 1 中。

Artificial Analysis 竞技场

Artificial Analysis 是一个领先的 AI 模型评测平台,专注于图像和视频生成。该平台提供动态排行榜,基于关键指标如输出质量、生成速度和成本,对模型进行评估,从而实现对最先进 AI 系统的客观比较。

该平台的文本生成图像排行榜允许用户匿名比较不同模型生成的图像。为了保证公平性,用户对相同提示下生成的图像进行投票,且不知晓图像来自哪个模型。模型的排名基于 ELO 评分系统,该系统在一定程度上反映了用户的偏好。

Seedream 3.0 参与了 Artificial Analysis 的排名评测,并在整体评分中取得了第一名,击败了 GPT-4o,在 Recraft V3、HiDream、Reve Image、Imagen 3(v002)、FLUX1.1 Pro 和 Midjourney v6.1 等其他模型中建立了显著优势。

此外,它还在多个子维度中表现最佳,包括以下风格类别:通用 & 写实风、动漫、卡通 & 插画、传统艺术;以及以下主题类别:人物:肖像、人物:群体 & 活动、奇幻、未来主义和物理空间。

综合评估

人工评估

建立了一个更大规模的评测基准,以便在不同场景下对 Seedream 3.0 进行更全面的评估。该基准被命名为 Bench-377,由 377 个提示词构成。除了考察文本到图像对齐、结构合理性和审美感等基本维度外,提示词的设计还考虑了使用场景。我们主要考虑了五大类场景:电影化、美术、娱乐、美学设计和实用设计。我们提出了"实用设计"这一类别,因为 Seedream 3.0 已被证明在辅助日常工作和学习方面具有显著作用。例如,它可以在幻灯片中的图标排布、手抄报插图设计等任务中提供支持。

基于 Bench-377,文本到图像模型的系统性人工专家评估是通过三个基本标准进行的:文本图像对齐、结构正确性以及审美质量。图 6 展示了五种使用场景的具体结果。Seedream 3.0 在文本图像对齐和结构保真度方面显著优于 Seedream 2.0 和其他竞品模型。值得注意的是,它在美学表现方面整体得分超过了 Midjourney。此外,在设计类场景中,其表现也明显优于 Midjourney,尽管在艺术类场景中略逊一筹。Imagen 3 在文本图像对齐和结构方面也展现出较好的表现,但在美学评估中表现欠佳。Midjourney 虽然具有出色的审美能力,但在功能对齐和结构保真度方面表现有限。

图 7、8、9 和 10 展示了基础能力提升如何促进多样场景的生成。文本图像对齐能力的提升使得用户意图能够被更精准地表达。例如,对微表情的生动描绘提升了电影氛围的表现力。对复杂描述和专业术语(如"三视图")的精准理解与表达,能更好地满足用户的设计需求。这些能力的基础支撑来自于结构稳定性和审美质量的增强。例如,动态动作中四肢的完整性、小物体的细节呈现,以及在颜色、光照、材质和构图方面的提升,都是 Seedream 3.0 高可用性的关键因素。

自动评估

根据上一版本的自动评估方式,对文本到图像生成模型进行了两项标准的评估:文本图像对齐和图像质量。Seedream 3.0 在所有基准中持续排名第一。

在文本图像对齐的自动评估中,主要关注 EvalMuse,它在多个基准中与人工评估具有较好的一致性。如表 1 所示,Seedream 3.0 的表现优于其他模型。更精细的维度分析显示,与 Seedream 2.0 相比,Seedream 3.0 在大多数维度上都有所提升,尤其是在物体、活动、位置、食物和空间等方面。为了与此前报告的结果保持一致,此处及后续章节中也纳入了对 Ideogram 2.0 的评估。

在图像质量评估方面,复用了两个外部指标 HPSv2和 MPS,以及两个内部评估模型:Internal-Align 和 Internal-Aes。如表 1 所示,Seedream 3.0 在所有指标上均排名第一。

在包含 MPS 和我们内部审美评估模型的审美评估中,Seedream 3.0 的表现优于 Midjourney,而 Seedream 2.0 在先前评估中未能做到这一点。同时,在 HPSv2 指标方面,Seedream 3.0 首次突破了 0.3,表明我们的模型与人类偏好具有极高的一致性。

文本渲染

Seedream 2.0 在文本渲染方面(特别是中文字符)获得了用户的广泛好评。在 Seedream 3.0 中,进一步优化了这一能力并进行了全面评估。我们的文本评估基准包含 180 条中文提示和 180 条英文提示,覆盖了包括 logo 设计、海报、电子显示、印刷文本和手写文本在内的多种类别。

采用一个基于感知的指标(可用率)以及两个基于统计的指标(文本准确率和命中率)来评估文本渲染能力。可用率指的是在文本渲染基本正确的前提下,考虑文本与其他内容的融合及整体审美质量后,被认为可接受的图像比例。具体的客观指标定义如下:

文本准确率 定义为:

其中 𝑁表示目标字符总数,表示渲染文本与目标文本之间的最小编辑距离。

文本命中率定义为:

其中 表示输出中正确渲染的字符数量。

图 11 显示,Seedream 3.0 在文本渲染性能方面优于包括其前代版本(Seedream 2.0)在内的现有模型。该系统对中英文字符均实现了 94% 的文本可用率,基本消除了文本渲染作为图像生成限制因素的问题。值得注意的是,中文文本可用率相较于 Seedream 2.0 提升了 16%。可用率与命中率接近的数值进一步表明,布局或媒介相关的渲染错误发生频率极低。这些结果验证了我们原生文本渲染方法相比于后期合成方式和外部插件解决方案的有效性。

除了整体可用率的提升,Seedream 3.0 在密集文本渲染方面的卓越表现也尤为值得关注。密集文本指的是字符密度高、内容较长的段落,如包含众多祝福语的文字内容,一直是此前模型的挑战所在。相比之下,Seedream 3.0 在处理此类细字符时展现出了显著的进步。如图 12 和图 13 所示,Seedream 3.0 在小字符的精度生成以及文本布局的自然性方面均表现出色。为进行对比,将在后续章节中评估另一个在密集文本渲染方面也表现突出的模型 GPT-4o。

拟真肖像

AI 生成图像(尤其是肖像)过于合成的外观,一直是文本生成图像模型的批评焦点。诸如过于光滑的皮肤和油腻的质感等问题,使得生成图像看起来很不自然。

为了全面评估 Seedream 3.0 在该领域的表现,构建了一个包含 100 条提示词的肖像评估集。这些提示词聚焦于肖像生成的多个方面,包括表情、姿态、角度、发型特征、皮肤纹理、服饰和配饰等。评估采用 Elo 对战方式,参与者需在不同模型生成的肖像中选出更优者,并说明理由。评估标准主要关注两个维度:真实感与情感表达。

参评模型包括 Seedream 3.0、Seedream 2.0、Midjourney v6.1、FLUX-Pro 1.1,以及以拟真著称的新版 Ideogram 3.0。为了确保公平比较,Midjourney v6.1 会进行多轮图像生成,以排除那些过于艺术化或抽象的结果,保留更具现实感的作品。

经过超过 50,000 轮公开对战评估后,结果如图 14 所示(部分模型变体未显示)。Seedream 3.0 与 Midjourney v6.1 并列第一,显著优于其他模型。图 15 中的示例展示了 Seedream 3.0 成功去除了人像中的合成感。生成的人脸纹理如今具备诸如皱纹、细小面部毛发和疤痕等真实特征,逼近自然人类皮肤的外观。同时,Seedream 3.0 仍可根据提示生成完美无瑕的皮肤质感。

此外,虽然 Midjourney v6.1 在纹理表现方面略逊于 Seedream 3.0,但在情感表达上的表现更为突出,这也为其赢得了高分排名。未来版本将进一步加强这两个方面。

特别指出,Seedream 3.0 能够直接生成高分辨率图像,如 2048×2048,进一步提升了肖像纹理质量。图 16 展示了部分 Seedream 3.0 的生成示例。生成肖像的质量正朝着专业摄影水准迈进,为应用场景带来全新可能。

与 GPT-4o 的对比

近期,GPT-4o 推出了令人印象深刻的图像生成功能,展现出极强的多模态能力。由于缺乏大规模图像生成的 API,尚无法进行系统性评估。然而,通过选取部分案例进行对比分析发现,GPT-4o 与 Seedream 3.0 在不同场景中各具优势与不足。

密集文本渲染

GPT-4o 展现出优秀的文本渲染能力,从多个示例中可见一斑。benw 生成了可比案例以便进行比较,如图 17 所示。GPT-4o 在渲染英文小字符及部分 LaTeX 符号方面表现出色。然而,在中文字体渲染方面存在明显不足。相比之下,Seedream 3.0 能轻松应对密集的中文文本生成,并在排版和美学构图方面优于 GPT-4o。

图像编辑

图像编辑任务将生成能力与真实图像结合,因其实际应用价值而备受关注。GPT-4o 能根据提示对给定图像执行编辑操作。由 Seedream 派生出的 SeedEdit 同样支持此类功能。此外,Gemini-2.0 近期在多模态图像生成方面展现出强劲能力,尤其是在交替生成与多轮编辑方面。本研究聚焦于这些模型的单轮图像生成能力,如图 18 所示。展示了 SeedEdit 在保持 ID 和遵循提示方面表现更优。

这三种模型各具特点。GPT-4o 擅长满足多样的编辑需求,但在保留原始图像(尤其是 IP 和 ID 一致性)方面表现欠佳。Gemini-2.0 虽然在像素层级上保留原始图像,但常出现色彩不自然和图像质量下降的问题。SeedEdit 1.6 实现了平衡的性能,能有效应对典型编辑需求,并保持较高的可用率。但在处理更复杂的任务(如多图参考、多轮编辑)方面仍有局限。未来版本将针对这些问题进行改进。

主要对比了 SeedEdit 与 GPT-4o 在文本相关编辑任务中的表现。文本编辑本身具有挑战性,它要求不仅能渲染文本,还能识别并理解图像中的字符。能处理文本编辑任务,是可控图像生成向真实图像应用迈进的重要标志。图 19 展示了文本写入、删除、修改等任务的示例。SeedEdit 继承了 Seedream 3.0 的文本相关能力,表现令人满意。它能够精准识别图像中的文本,从而实现准确删除或修改。同时,在添加文本时,SeedEdit 能考虑排版,使文本与原图无缝融合。相比之下,GPT-4o 虽能完成文本编辑任务,但在保留原图方面表现不佳,限制了其实用性。

生成质量

生成质量(包括色彩、纹理、清晰度和美学吸引力)是评估文本生成图像模型的重要指标。Seedream 系列在这些方面持续表现出色,而 GPT-4o 则存在一些短板。如图 20 所示,GPT-4o 生成的图像往往带有偏黄暗调,且存在较多噪点,严重影响图像在多场景中的使用价值。

结论

本文介绍了 Seedream 3.0,它通过多项创新策略应对了现有挑战,包括图像分辨率受限、复杂属性依从性、细粒度排版生成,以及视觉美感和保真度不足等问题。通过在数据构建、模型预训练、后训练和模型加速等方面进行系统升级,Seedream 3.0 在多个维度上较前一版本取得了全面提升。

Seedream 3.0 提供原生高分辨率输出、全能能力、更高的文本渲染质量、更佳的视觉效果和极致的生成速度。随着其在豆包、即梦等平台上的集成,Seedream 3.0 展现出强大的潜力,成为覆盖各类工作与生活场景的高效生产力工具。

参考文献

[1] Seedream 3.0 Technical Report

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

没有评论:

发表评论

复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。

之前和大家介绍过阿里的EMO和腾讯的AniPortrait,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。 感兴趣的小伙伴可以点击下面链接阅读。 阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI...