AI I024: 中文、日文、韩文等多种语言精准生成！Liblib重磅开源RepText：打破AI图文生成语言壁垒

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Haofan Wang等

解读：AI生成未来

文章地址：https://arxiv.org/abs/2504.19724
项目链接：https://reptext.github.io/
Git链接：https://github.com/Shakker-Labs/RepText

亮点直击
RepText，一个用于可控多语言视觉文本渲染的有效框架。
创新性地引入了字形隐空间变量复制技术，以提高排版准确性并实现颜色控制。此外，采用区域掩码来保证良好的视觉保真度，避免背景干扰。
定性实验表明，本方法优于现有开源方案，并与原生多语言闭源模型取得了可比的结果。

总结速览

解决的问题

现有文本生成图像模型在视觉文字渲染上的不足。当前主流文本生成图像模型（如 Stable Diffusion、DiT-based 模型）在生成精确的视觉文字（尤其是非拉丁字母）时表现不佳。主要原因是文本编码器无法有效处理多语言输入，或训练数据中多语言分布存在偏差。
替换文本编码器（如采用多语言大语言模型）并从头训练模型，但资源消耗高。
引入辅助模块（如 ControlNet）控制文字渲染，但大多基于旧版 UNet 架构（如 SD1.5/SDXL），生成质量受限，且无法适配最新的 DiT-based 模型（如 SD3.5、FLUX）。
现有方法缺乏对字体、位置、颜色的灵活控制，且多语言支持不足。

提出的方案

提出 RepText，通过字形复制（glyph replication）而非语义理解，实现多语言视觉文字的精确渲染。
基于 ControlNet 的文本复制框架，采用类似 ControlNet 的结构，以 canny 边缘图 + 文字位置图 作为条件输入，指导模型复制字形。不依赖额外文本/图像编码器，避免多语言理解问题。
字形隐空间变量初始化（Glyph Latent Replication）。在推理时，直接用带噪声的文字字形隐空间变量初始化生成过程（而非随机噪声），提升文字准确性。
区域掩码控制（Region Masking）。限制特征注入仅作用于文字区域，避免背景失真。
文本感知损失（Text Perceptual Loss）。结合扩散损失，进一步优化文字渲染的清晰度。

应用的技术

基础模型：适配最新的 DiT-based 模型（如 SD3.5、FLUX），而非传统的 UNet 架构。
条件控制： Canny 边缘检测（字形结构）、位置图（文字布局）
优化技术：字形隐空间变量初始化、区域掩码约束、多模态损失函数（扩散损失 + 文本感知损失）

达到的效果

多语言支持：无需理解语义，直接复制字形，支持任意语言（包括非拉丁字母）。
高精度渲染：文字准确性优于开源方案（如 GlyphControl、AnyText）。媲美闭源多语言模型（如 Seedream 3.0、GPT4o）。
灵活控制：用户可自定义文字内容、字体、位置、颜色。
兼容性与质量：适配最新 DiT-based 模型，生成质量优于基于 SD1.5/SDXL 的方案。背景区域不受干扰，保持整体图像和谐。

方法

动机

本文从一个简单的哲学观点出发：理解文本是否是渲染文本（尤其是笔画简单的文本）的必要且充分条件。本文提供几个示例来说明这一点。首先，回想人类儿童如何学习写字。大多数孩子最初通过涂鸦和绘画开始书写，并不真正理解所写内容，只是模仿周围已有的文字，随后才开始认字，识字能力与书写技能同步发展。另一个例子是字帖，它包含手写范例和供学习者模仿的空白区域。对于某些复杂的艺术字体（特别是非拉丁文字如中国书法），模仿字形甚至可能早于识别文字。简而言之，尽管识别和理解文本无疑对书写有帮助，但本文认为书写也可以从模仿或复制开始，这一原则同样适用于生成模型中的视觉文本渲染。

基于这一朴素假设，本文使用预训练的ControlNet-Union（在自然图像上通过canny边缘训练）作为文本渲染的初步工具。如附录图6所示，该方法已能展现一定程度的复制能力，尽管存在明显的文字准确性问题和图像质量下降。这促使本文在其基础上开发一种方法，能够利用现有的单语言文本编码器复制多语言、多字体文本。

RepText

框架。如图2所示，RepText是一个类ControlNet框架，主要受GlyphControl和JoyTypes启发。为了融入细粒度字形信息并实现多语言渲染，本文没有像GlyphControl那样直接使用渲染的字形图像（依赖文本编码器理解词语语义），而是采用更强的文本提示——从图像提取的canny边缘。此外，为了提供位置信息，本文还使用辅助位置图像辅助文本渲染。canny和位置图像分别经过VAE编码器处理，并在通道维度拼接后输入ControlNet分支。需要渲染的文本内容不会手动添加到提示词中。

为提高文本生成的准确性，本文进一步采用了AnyText的文本感知损失。具体而言，在训练阶段，给定预测噪声、当前时间步和含噪隐空间变量图像，本文可以直接预测（如文献[11]所述）。随后，使用VAE解码器获得像素空间的近似。由于已有文本行的真实标注，本文可以从和中准确定位文本区域，并将裁剪的文本图像作为OCR模型的输入。遵循AnyText，本文同样采用PP-OCRv3模型。

文本感知损失表示为

其中，和是 OCR 模型最后一个全连接层之前的特征图，分别表示和在位置处的文本信息。该均方误差（MSE）损失用于提高生成文本的可识别性。

整体训练目标表示为：

其中，是调节奖励OCR损失和去噪损失权重的比例因子，根据经验设置为较小值（如0.10或0.05）。

推理策略。在推理阶段，本文引入了如图3所示的若干关键技术来稳定并提升文本渲染性能：

基于字形隐空间变量的复制。受字帖启发，本文采用无噪字形隐空间变量而非随机高斯噪声进行初始化（即复制机制），在去噪步骤初期提供字形引导信息。仅复制无噪字形隐空间变量的文本区域并粘贴回随机噪声中。本文发现这一简单步骤对提升渲染文本准确性具有重要作用。得益于该设计，RepText进一步支持用户指定文本颜色，而无需通过可学习层隐式编码颜色信息。

在实现过程中，本文发现直接复制粘贴会导致图像质量显著下降（因无噪区域不符合高斯噪声分布）。因此引入权重系数控制字形隐空间变量的影响程度。初始化隐空间变量定义如下：

其中，是通过 VAE 编码的无噪字形隐空间变量，和分别是随机噪声和字形隐空间变量的强度系数。仅文本区域会被复制。需要注意的是，也可以通过反转技术获取，但差异较小。

文本区域的区域掩码。传统 ControlNet 通常使用全局提示作为条件（例如 canny 和深度图是基于整张图像计算的），而在本文的场景中，条件图像是稀疏的，仅文本区域有效。因此，为避免去噪过程中对非文本区域的干扰，本文额外使用区域掩码截断 ControlNet 的输出。区域掩码为二值图像，文本框标注的文本区域设为 1。

实验

实现细节

在广泛使用的开源文本生成图像模型 FLUX-dev上实现了本文的方法。文本 ControlNet 分支包含 6 个双块和 0 个单块（遵循 ControlNet-Union-Pro-2.0 ），并基于 FLUX-dev 初始化。使用 Anytext-3M 作为预训练数据集（所有图像尺寸为 512x512）。训练分辨率设为 512，采用 AdamW 优化器，学习率为 2e-5，批量大小为 256。OCR 损失缩放因子设为 0.05，文本丢弃率为 0.3。此外，收集了包含 10K 张图像的高质量数据集进行微调，这些图像均为自然场景（如路牌、商店招牌等）而非合成图像。微调时启用多比例训练桶（buckets），学习率降至 5e-6，OCR 损失缩放因子增至 0.10，文本丢弃率提升至 0.4。

在训练阶段，基于标注生成位置图像，canny 图像从掩码图像（非文本区域置 0）中提取。在推理阶段，用户可在空白图像上渲染文本，并利用该字形图像生成 canny 和位置条件。根据经验，和分别设为 0.9 和 0.1。

定性结果

针对多场景进行了定性评估，包括多语言（尤其是非拉丁文字）、多字体、多颜色和多行文本。多语言生成结果如图4所示，其他结果详见附录图7、图8和图9（为节省篇幅）。得益于字形复制机制，RepText能生成准确且可控的文本内容。更多生成样本见附录图10和图11。

与现有方法的对比

基线方法：为全面对比，本文比较了具备单语言/多语言文本渲染能力的开源与闭源模型。开源模型均使用官方代码推理（特殊说明除外），闭源模型使用其产品或API推理。

单语言对比：

开源模型：Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev
闭源模型：FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3
可控文本渲染方法：TextDiffuser、TextDiffuser2、GlyphControl （本文在FLUX-dev上复现）
Recraft V3 使用其基于TextDiffuser2的"Frame"功能进行可控渲染（结果见附录图12）

对于拉丁文本，由于基础模型本身具备优秀理解能力，RepText主要作为位置引导和字体指定工具。实验未采用在提示词中显式添加待渲染文本（英文）的策略。

多语言对比：

开源模型：Kolors 1.0 、Cogview4
闭源模型：Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0
注：Hunyuan-DiT虽采用mT5文本编码器，但不支持多语言文本渲染（结果见附录图13）。

对比结论：

相比开源方法：在文本准确性和图像质量上具有显著优势
相比采用多语言文本编码器的闭源模型：具备更好的可控性
局限性：必须承认，由于GPT-4o、Seedream 3.0、Kolors 2.0等最先进模型具备原生多语言理解能力，其在文本内容渲染灵活性上优于本方法。

与现有工作的兼容性

为展示本方法的兼容性和有效性，为RepText配备了常用的插件模型，包括风格LoRA、其他ControlNet和IP-Adapter。

LoRA：本文使用了HuggingFace上的三个开源LoRA。具体选择了提供胶片质感的FilmPortrait1、创作毛线艺术的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及简笔画风格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如图5所示，本文的工作完全兼容社区LoRA的风格化处理。

其他ControlNet：使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting来实现空间控制和文本编辑。结果如附录图14所示。

IP-Adapter：以FLUX.1-dev-IP-Adapter为例。如附录图15所示，本文方法可以与IP-Adapter一起使用。

消融研究

ControlNet条件的选择：进行了实验来分析不同ControlNet条件的影响。在仅使用位置条件的情况下，它只提供位置引导；在仅使用Canny条件的情况下，可以渲染相应的文本，但准确性和和谐性有限；而在联合使用Canny和位置条件时，可以准确地渲染和谐的文本。结果见附录图16。

字形隐空间变量复制的效果：如附录图17（左）所示，从字形隐空间变量初始化可以无损提高排版准确性。此外，如附录图17（右）所示，它允许用户指定颜色，而无需依赖额外的颜色编码器。

区域掩码的效果：与其他ControlNet通常使用全局密集控制信号不同，文本是局部稀疏控制。发现，在推理阶段引入区域掩码有助于提高非文本背景的质量，如附录图18所示。

局限性与未来工作

典型失败案例：尽管RepText展示了良好的文本渲染能力和兼容性，但由于其自身缺乏对文本的理解，仍然存在一些局限性。本文讨论以下几种常见的失败情况：

与场景不协调：尽管训练数据集中包含大量自然场景（如路标）的文本数据，但文本编码器（T5-XXL）本身并不理解需要渲染的文本内容（即使将文本内容添加到提示词中），特别是非拉丁文本，因此有时文本会像签名或水印一样生硬地粘贴在生成的图像上，导致与场景不协调，如附录图19（a）所示。

文本精度有限：对于藏文等笔画复杂的文本或小字体，即使使用本文的框架，渲染精度仍然较差，如附录图19（b）所示。其中一个原因是控制条件不够精确，而且当前VAE的压缩率也会导致小字符的渲染效果不佳。

渲染额外文本. 发现即使使用区域掩码，一些额外的文本仍会出现在非渲染文本区域，如附录图19（c）所示，这些文本通常是无意义、不可识别或重复的。

文本多样性有限。 受限于文本编码器，本文必须使用额外的条件，无法通过提示词灵活控制文本属性，包括其位置、颜色、材质等。

不支持精确的颜色控制。 虽然从字形隐空间变量初始化可以实现粗略的颜色控制，但无法严格渲染细粒度的颜色，这限制了其在实际场景中的应用。

缺乏扭曲与透视效果。 由于文本内容完全由正视角字形控制，受限于前端渲染机制，难以灵活生成带有变形和透视效果的文本，也无法生成具有扭曲风格的艺术字。

未来工作方向。如前述章节所述，承认最灵活有效的文本渲染方式是让模型理解每个词语的具体含义——即采用多语言文本编码器或MLLM（多模态大语言模型），从而实现自然场景或海报场景的文本渲染。核心问题在于：除了替换文本编码器并从头训练之外，是否存在一种低成本方案（使用更少的训练参数和数据），能在不损害原有生成能力的前提下，使现有文本生成图像模型具备多语言文本识别与渲染能力？例如MetaQuery研究表明，当MLLM主干和Diffusion主干均保持冻结、仅训练轻量级连接器时，MLLM的理解与推理能力可增强图像生成——类似方法或可应用于视觉文本渲染领域。

结论

本研究受书法字帖启发，提出了一种简单高效的框架RepText，用于可控多语言视觉文本渲染。该方法使预训练的单语言文本生成图像模型具备生成多语言、多字体、多色彩可读文本的能力。

具体而言：

无需额外图像/文本编码器理解语义，通过结合canny边缘与位置图像的ControlNet实现字形复制；
创新性引入字形隐空间变量复制技术提升文本精度并支持色彩控制；
采用区域掩码方案确保生成质量不受文本信息干扰。

实验表明，本方法优于现有开源方案，并与原生多语言闭源模型效果相当。后续将探索如何高效赋予单语言模型多语言理解能力，从而进一步提升文本渲染的灵活性与准确性。

参考文献

[1] RepText: Rendering Visual Text via Replicating

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年4月30日星期三

中文、日文、韩文等多种语言精准生成！Liblib重磅开源RepText：打破AI图文生成语言壁垒