如您有工作需要分享,欢迎联系:aigc_to_future
作者:Haofan Wang等
解读:AI生成未来
文章地址:https://arxiv.org/abs/2504.19724
项目链接:https://reptext.github.io/
Git链接:https://github.com/Shakker-Labs/RepText
亮点直击
RepText,一个用于可控多语言视觉文本渲染的有效框架。 创新性地引入了字形隐空间变量复制技术,以提高排版准确性并实现颜色控制。此外,采用区域掩码来保证良好的视觉保真度,避免背景干扰。 定性实验表明,本方法优于现有开源方案,并与原生多语言闭源模型取得了可比的结果。
总结速览
解决的问题
现有文本生成图像模型在视觉文字渲染上的不足。当前主流文本生成图像模型(如 Stable Diffusion、DiT-based 模型)在生成精确的视觉文字(尤其是非拉丁字母)时表现不佳。主要原因是文本编码器无法有效处理多语言输入,或训练数据中多语言分布存在偏差。 替换文本编码器(如采用多语言大语言模型)并从头训练模型,但资源消耗高。 引入辅助模块(如 ControlNet)控制文字渲染,但大多基于旧版 UNet 架构(如 SD1.5/SDXL),生成质量受限,且无法适配最新的 DiT-based 模型(如 SD3.5、FLUX)。 现有方法缺乏对字体、位置、颜色的灵活控制,且多语言支持不足。
提出的方案
提出 RepText,通过字形复制(glyph replication)而非语义理解,实现多语言视觉文字的精确渲染。 基于 ControlNet 的文本复制框架,采用类似 ControlNet 的结构,以 canny 边缘图 + 文字位置图 作为条件输入,指导模型复制字形。不依赖额外文本/图像编码器,避免多语言理解问题。 字形隐空间变量初始化(Glyph Latent Replication)。在推理时,直接用带噪声的文字字形隐空间变量初始化生成过程(而非随机噪声),提升文字准确性。 区域掩码控制(Region Masking)。限制特征注入仅作用于文字区域,避免背景失真。 文本感知损失(Text Perceptual Loss)。结合扩散损失,进一步优化文字渲染的清晰度。
应用的技术
基础模型:适配最新的 DiT-based 模型(如 SD3.5、FLUX),而非传统的 UNet 架构。 条件控制: Canny 边缘检测(字形结构) 、位置图(文字布局) 优化技术: 字形隐空间变量初始化、区域掩码约束、多模态损失函数(扩散损失 + 文本感知损失)
达到的效果
多语言支持:无需理解语义,直接复制字形,支持任意语言(包括非拉丁字母)。 高精度渲染:文字准确性优于开源方案(如 GlyphControl、AnyText)。媲美闭源多语言模型(如 Seedream 3.0、GPT4o)。 灵活控制:用户可自定义文字内容、字体、位置、颜色。 兼容性与质量:适配最新 DiT-based 模型,生成质量优于基于 SD1.5/SDXL 的方案。背景区域不受干扰,保持整体图像和谐。
方法
动机
本文从一个简单的哲学观点出发:理解文本是否是渲染文本(尤其是笔画简单的文本)的必要且充分条件。本文提供几个示例来说明这一点。首先,回想人类儿童如何学习写字。大多数孩子最初通过涂鸦和绘画开始书写,并不真正理解所写内容,只是模仿周围已有的文字,随后才开始认字,识字能力与书写技能同步发展。另一个例子是字帖,它包含手写范例和供学习者模仿的空白区域。对于某些复杂的艺术字体(特别是非拉丁文字如中国书法),模仿字形甚至可能早于识别文字。简而言之,尽管识别和理解文本无疑对书写有帮助,但本文认为书写也可以从模仿或复制开始,这一原则同样适用于生成模型中的视觉文本渲染。
基于这一朴素假设,本文使用预训练的ControlNet-Union(在自然图像上通过canny边缘训练)作为文本渲染的初步工具。如附录图6所示,该方法已能展现一定程度的复制能力,尽管存在明显的文字准确性问题和图像质量下降。这促使本文在其基础上开发一种方法,能够利用现有的单语言文本编码器复制多语言、多字体文本。
RepText
框架。如图2所示,RepText是一个类ControlNet框架,主要受GlyphControl和JoyTypes启发。为了融入细粒度字形信息并实现多语言渲染,本文没有像GlyphControl那样直接使用渲染的字形图像(依赖文本编码器理解词语语义),而是采用更强的文本提示——从图像提取的canny边缘。此外,为了提供位置信息,本文还使用辅助位置图像辅助文本渲染。canny和位置图像分别经过VAE编码器处理,并在通道维度拼接后输入ControlNet分支。需要渲染的文本内容不会手动添加到提示词中。
为提高文本生成的准确性,本文进一步采用了AnyText的文本感知损失。具体而言,在训练阶段,给定预测噪声、当前时间步和含噪隐空间变量图像,本文可以直接预测(如文献[11]所述)。随后,使用VAE解码器获得像素空间的近似。由于已有文本行的真实标注,本文可以从和中准确定位文本区域,并将裁剪的文本图像作为OCR模型的输入。遵循AnyText,本文同样采用PP-OCRv3模型。
文本感知损失表示为
其中, 和 是 OCR 模型最后一个全连接层之前的特征图,分别表示 和 在位置 处的文本信息。该均方误差(MSE)损失用于提高生成文本的可识别性。
整体训练目标表示为:
其中, 是调节奖励OCR损失和去噪损失权重的比例因子,根据经验设置为较小值(如0.10或0.05)。
推理策略。在推理阶段,本文引入了如图3所示的若干关键技术来稳定并提升文本渲染性能:
基于字形隐空间变量的复制。受字帖启发,本文采用无噪字形隐空间变量而非随机高斯噪声进行初始化(即复制机制),在去噪步骤初期提供字形引导信息。仅复制无噪字形隐空间变量的文本区域并粘贴回随机噪声中。本文发现这一简单步骤对提升渲染文本准确性具有重要作用。得益于该设计,RepText进一步支持用户指定文本颜色,而无需通过可学习层隐式编码颜色信息。
在实现过程中,本文发现直接复制粘贴会导致图像质量显著下降(因无噪区域不符合高斯噪声分布)。因此引入权重系数控制字形隐空间变量的影响程度。初始化隐空间变量定义如下:
其中, 是通过 VAE 编码的无噪字形隐空间变量, 和 分别是随机噪声和字形隐空间变量的强度系数。仅文本区域 会被复制。需要注意的是, 也可以通过反转技术获取,但差异较小。
文本区域的区域掩码。传统 ControlNet 通常使用全局提示作为条件(例如 canny 和深度图是基于整张图像计算的),而在本文的场景中,条件图像是稀疏的,仅文本区域有效。因此,为避免去噪过程中对非文本区域的干扰,本文额外使用区域掩码截断 ControlNet 的输出。区域掩码为二值图像,文本框标注的文本区域设为 1。
实验
实现细节
在广泛使用的开源文本生成图像模型 FLUX-dev上实现了本文的方法。文本 ControlNet 分支包含 6 个双块和 0 个单块(遵循 ControlNet-Union-Pro-2.0 ),并基于 FLUX-dev 初始化。使用 Anytext-3M 作为预训练数据集(所有图像尺寸为 512x512)。训练分辨率设为 512,采用 AdamW 优化器,学习率为 2e-5,批量大小为 256。OCR 损失缩放因子设为 0.05,文本丢弃率为 0.3。此外,收集了包含 10K 张图像的高质量数据集进行微调,这些图像均为自然场景(如路牌、商店招牌等)而非合成图像。微调时启用多比例训练桶(buckets),学习率降至 5e-6,OCR 损失缩放因子增至 0.10,文本丢弃率提升至 0.4。
在训练阶段,基于标注生成位置图像,canny 图像从掩码图像(非文本区域置 0)中提取。在推理阶段,用户可在空白图像上渲染文本,并利用该字形图像生成 canny 和位置条件。根据经验, 和 分别设为 0.9 和 0.1。
定性结果
针对多场景进行了定性评估,包括多语言(尤其是非拉丁文字)、多字体、多颜色和多行文本。多语言生成结果如图4所示,其他结果详见附录图7、图8和图9(为节省篇幅)。得益于字形复制机制,RepText能生成准确且可控的文本内容。更多生成样本见附录图10和图11。
与现有方法的对比
基线方法:为全面对比,本文比较了具备单语言/多语言文本渲染能力的开源与闭源模型。开源模型均使用官方代码推理(特殊说明除外),闭源模型使用其产品或API推理。
单语言对比:
开源模型:Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev 闭源模型:FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3 可控文本渲染方法:TextDiffuser、TextDiffuser2、GlyphControl (本文在FLUX-dev上复现) Recraft V3 使用其基于TextDiffuser2的"Frame"功能进行可控渲染(结果见附录图12)
对于拉丁文本,由于基础模型本身具备优秀理解能力,RepText主要作为位置引导和字体指定工具。实验未采用在提示词中显式添加待渲染文本(英文)的策略。
多语言对比:
开源模型:Kolors 1.0 、Cogview4 闭源模型:Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0
注:Hunyuan-DiT虽采用mT5文本编码器,但不支持多语言文本渲染(结果见附录图13)。
对比结论:
相比开源方法:在文本准确性和图像质量上具有显著优势 相比采用多语言文本编码器的闭源模型:具备更好的可控性 局限性:必须承认,由于GPT-4o、Seedream 3.0、Kolors 2.0等最先进模型具备原生多语言理解能力,其在文本内容渲染灵活性上优于本方法。
与现有工作的兼容性
为展示本方法的兼容性和有效性,为RepText配备了常用的插件模型,包括风格LoRA、其他ControlNet和IP-Adapter。
LoRA:本文使用了HuggingFace上的三个开源LoRA。具体选择了提供胶片质感的FilmPortrait1、创作毛线艺术的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及简笔画风格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如图5所示,本文的工作完全兼容社区LoRA的风格化处理。
其他ControlNet:使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting来实现空间控制和文本编辑。结果如附录图14所示。
IP-Adapter:以FLUX.1-dev-IP-Adapter为例。如附录图15所示,本文方法可以与IP-Adapter一起使用。
消融研究
ControlNet条件的选择:进行了实验来分析不同ControlNet条件的影响。在仅使用位置条件的情况下,它只提供位置引导;在仅使用Canny条件的情况下,可以渲染相应的文本,但准确性和和谐性有限;而在联合使用Canny和位置条件时,可以准确地渲染和谐的文本。结果见附录图16。
字形隐空间变量复制的效果:如附录图17(左)所示,从字形隐空间变量初始化可以无损提高排版准确性。此外,如附录图17(右)所示,它允许用户指定颜色,而无需依赖额外的颜色编码器。
区域掩码的效果:与其他ControlNet通常使用全局密集控制信号不同,文本是局部稀疏控制。发现,在推理阶段引入区域掩码有助于提高非文本背景的质量,如附录图18所示。
局限性与未来工作
典型失败案例:尽管RepText展示了良好的文本渲染能力和兼容性,但由于其自身缺乏对文本的理解,仍然存在一些局限性。本文讨论以下几种常见的失败情况:
与场景不协调:尽管训练数据集中包含大量自然场景(如路标)的文本数据,但文本编码器(T5-XXL)本身并不理解需要渲染的文本内容(即使将文本内容添加到提示词中),特别是非拉丁文本,因此有时文本会像签名或水印一样生硬地粘贴在生成的图像上,导致与场景不协调,如附录图19(a)所示。
文本精度有限:对于藏文等笔画复杂的文本或小字体,即使使用本文的框架,渲染精度仍然较差,如附录图19(b)所示。其中一个原因是控制条件不够精确,而且当前VAE的压缩率也会导致小字符的渲染效果不佳。
渲染额外文本. 发现即使使用区域掩码,一些额外的文本仍会出现在非渲染文本区域,如附录图19(c)所示,这些文本通常是无意义、不可识别或重复的。
文本多样性有限。 受限于文本编码器,本文必须使用额外的条件,无法通过提示词灵活控制文本属性,包括其位置、颜色、材质等。
不支持精确的颜色控制。 虽然从字形隐空间变量初始化可以实现粗略的颜色控制,但无法严格渲染细粒度的颜色,这限制了其在实际场景中的应用。
缺乏扭曲与透视效果。 由于文本内容完全由正视角字形控制,受限于前端渲染机制,难以灵活生成带有变形和透视效果的文本,也无法生成具有扭曲风格的艺术字。
未来工作方向。如前述章节所述,承认最灵活有效的文本渲染方式是让模型理解每个词语的具体含义——即采用多语言文本编码器或MLLM(多模态大语言模型),从而实现自然场景或海报场景的文本渲染。核心问题在于:除了替换文本编码器并从头训练之外,是否存在一种低成本方案(使用更少的训练参数和数据),能在不损害原有生成能力的前提下,使现有文本生成图像模型具备多语言文本识别与渲染能力?例如MetaQuery研究表明,当MLLM主干和Diffusion主干均保持冻结、仅训练轻量级连接器时,MLLM的理解与推理能力可增强图像生成——类似方法或可应用于视觉文本渲染领域。
结论
本研究受书法字帖启发,提出了一种简单高效的框架RepText,用于可控多语言视觉文本渲染。该方法使预训练的单语言文本生成图像模型具备生成多语言、多字体、多色彩可读文本的能力。
具体而言:
无需额外图像/文本编码器理解语义,通过结合canny边缘与位置图像的ControlNet实现字形复制; 创新性引入字形隐空间变量复制技术提升文本精度并支持色彩控制; 采用区域掩码方案确保生成质量不受文本信息干扰。
实验表明,本方法优于现有开源方案,并与原生多语言闭源模型效果相当。后续将探索如何高效赋予单语言模型多语言理解能力,从而进一步提升文本渲染的灵活性与准确性。
参考文献
[1] RepText: Rendering Visual Text via Replicating
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论