AI I024: 品牌设计效率飙升！港科大&蚂蚁等重磅开源AI书法家Calligrapher：魔法般生成专属艺术字

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Yue Ma等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2506.24123
Git链接：https://github.com/Calligrapher2025/Calligrapher
项目链接：https://calligrapher2025.github.io/Calligrapher/

亮点直击
Calligrapher，一个新颖的基于扩散模型的框架，创新性地将高级文本定制与艺术字体设计相结合，面向数字书法与设计应用。该框架针对字体定制中风格精准控制与数据依赖性等挑战，提出了三项关键技术创新：1）本文开发了一种 自蒸馏机制；2）本文提出了一种 局部风格注入框架；3）本文还引入了 上下文生成机制。
在多个字体和设计场景下进行的大量定量与定性评估表明，Calligrapher 能够准确复现复杂的风格细节与精确的字形排布。
通过自动化生成高质量、视觉一致的字体图像，Calligrapher 超越了传统模型，为数字艺术、品牌设计以及上下文字体创作等领域的创作者提供了强大支持。

效果展示

总结速览

解决的问题

风格控制不精确：现有字体生成方法难以细致捕捉复杂字体风格，尤其在参考图像与目标样式差异较大时，难以保持风格一致性。
数据依赖性强：高质量风格定制模型训练通常依赖大量人工标注的样本，构建数据集成本高、效率低。
设计流程繁琐：传统字体设计需要大量手工微调，劳动密集，且容易引入风格不一致的问题，影响品牌形象和视觉统一性。

提出的方案

本文提出了一个名为 Calligrapher 的新型扩散模型框架，面向数字书法与艺术字体设计场景，自动化实现高保真、风格一致的文本图像生成。其核心思路是将风格学习、风格注入和上下文建模有机整合，解决风格控制和数据构建难题。

应用的技术

自蒸馏机制（Self-distillation）：

利用预训练文本生成图像模型与大语言模型（LLM）协同生成无监督的风格文本图像对；
自动构建风格为中心的训练数据集与评估基准，无需人工标注；
支持大规模风格学习与模型评估。

局部风格注入机制（Localized Style Injection）：

设计了可训练的风格编码器（由 Qformer 和线性层组成）；
从参考图像中提取鲁棒风格特征；
将这些特征注入扩散模型的去噪过程中，实现精细化的风格控制。

上下文生成机制（In-context Generation）：

在扩散过程直接引入参考图像作为上下文；
提升生成文本图像与参考风格之间的对齐度和保真度；
支持任意文本或图像输入下的风格迁移。

达到的效果

风格复现精准：

能够准确还原复杂字体风格的细节，如笔画粗细、弯曲程度、装饰性元素等；
实现字符级别的精确排布，提升视觉一致性。

适应性强、泛化能力好：

在多个字体风格和设计场景下均表现优越；
即使在未见过的参考风格或文本输入下，仍能生成高质量图像。

自动化程度高：

显著减少人工操作与微调需求；
极大提升字体设计效率，适用于品牌定制、广告排版、包装视觉等多种场景。

超越现有方法：

在定性和定量评估中，包括用户研究在内的多项指标均优于现有模型；
在无需微调的条件下，也能良好完成参考风格生成任务。

方法

本文的方法的数据生成与训练流程如下图3和下图4所示。给定带 mask 的输入图像、参考风格图像和提示词，本文的目标是生成符合字体风格的文本，并将其定制到输入源图像中，即使参考字体具有不常见的风格（如卡通、手写和3D风格）也能适配。在本节中，首先讨论动机，接着介绍三个精心设计的组件：然后介绍应对数据稀缺问题的自蒸馏学习策略，接着描述局部风格注入机制，最后展示用于更精细风格一致性的上下文推理设计。

动机

在本小节指出当前真实世界字体设计中最先进方法的几个关键限制，并提出相应的动机与解决方案。

艺术字体数据的稀缺性 该领域的一个重大挑战是缺乏专门用于艺术字体的大规模数据集。本文的观察表明，当前的扩散模型在配合稳健的后处理和精心选择时，能够合成高质量的风格化文本。本文提出将该模型引入用于生成合成的艺术字体基准，并采用自蒸馏训练策略，利用高质量的合成数据集有效迁移艺术风。

无法捕捉细微字体细节 现有方法通常依赖全局风格化技术，难以捕捉形状与纹理，仅关注自我参考的图像修复任务。为了解决这一限制，本文引入了一个新颖的训练流程，强调局部风格注入。该流程专注于细粒度的细节优化，并结合上下文生成技术，实现更真实的风格还原。

自蒸馏与风格化字体基准

与 ControlNet 中的图像翻译任务不同，获取用于文本风格迁移的高质量监督训练数据仍然具有挑战性，因为手动构建具有相同语义内容但风格属性不同的大规模文本对数据集成本高昂。此外，此类数据集还需具备多样且丰富的风格变化，以使模型能够稳健地捕捉细微风格特征，并适应复杂的风格迁移场景。基于当前生成模型能够生成高质量文本图像的发现，本文从大语言模型研究中的自训练范式中获得灵感，其中一个强大的生成模型被用于生成训练自身所需的数据。

如上图3所示，本文提出的框架引入了一种新方法，利用预训练生成模型完成以下两项任务：(1) 通过受控生成合成风格一致的训练数据；(2) 使用自生成语料微调风格迁移模型。该方法建立了一个学习系统，能够有效利用生成模型的内部知识表示，同时避免对人工标注配对样本的依赖。

具体而言，如上图3所示，本文首先利用大语言模型（LLMs）生成一组语义一致的提示，并附带明确的字体风格描述（例如"3D金属文字"、"水彩书法"）。这些带风格条件的提示随后被输入到 flow-matching 扩散模型中，通过迭代去噪过程合成高保真的风格化文本图像。

为了从合成语料中构建训练对，本文首先采用神经文本理解方法检测文本位置，并使用一种策略性裁剪机制来在保持字体一致性的同时实现有效的自监督。对于每张生成图像，本文随机裁剪包含风格化字符的局部区域作为参考风格样本，同时保留其余文本区域作为风格迁移学习的目标。

基于上述数据生成流程，本文建立并提出了一个以风格为核心的文本定制基准，以促进社区的发展。该风格化字体基准的详细信息可在数据网页中获取。

为了形式化该任务，设表示文本定制任务的主要输入，包含图像潜变量、mask和噪声潜变量，表示参考图像。所提出的数据生成策略使模型能够高效学习局部风格模式，并从高斯噪声中生成目标文本图像，其目标函数为 flow matching：

其中，，表示时间步，表示在时间步的噪声输入，表示损失加权。

局部风格注入

为了实现文本定制，本文借鉴了 ControlNet 和 IP-Adapter 的方法，学习另一个可控分支（即风格编码器）来编码条件控制信号，而原始去噪器作为主分支，使得去噪过程的公式如下：

其中，表示用于风格编码器与主去噪网络的特征融合函数。为了从参考图像中提取初始特征，本文使用一个预训练的多模态视觉编码器实例化风格编码器，并引入另一个由线性层和带有可学习查询参数的 Qformer 组成的编码器，将这些特征转换为 Key 和 Value 矩阵。融合函数被实例化为特征替换和交叉注意力。由风格编码器预测的 Key 和 Value 矩阵随后被注入到主分支中，通过替换单个模块中风格注意力模块的原始 Key 和 Value 矩阵，如上图4所示：

其中，表示张量维度。这些来自风格注意力的特征将被添加到原始注意力激活中以进行调制。本文遵循已有方法，在变分自编码器（VAE）潜在空间中进行训练和推理以提高效率。

上下文生成

受到近期工作展示出的扩散生成模型强大上下文能力的启发，本文探索了基于参考的文本定制是否可以通过上下文推理进一步提升。具体而言，本文的方法通过像素级空间拼接的方式，将作为风格参考的上下文信息显式嵌入到去噪轨迹中。该复合图像随后通过共享的 VAE 编码为统一且具有上下文语义的潜在表示。该潜在特征与相应构建的二值掩码（将参考图像区域置零）一起被送入 DiT，用于对高斯噪声的去噪调控。最终得到的上下文感知潜变量同时包含待编辑的语义内容与参考图像的风格线索，构成后续扩散过程的整体调控信号。该设计使得生成文本在保持结构一致性的同时，实现了细粒度的风格一致性。

实验

实现细节

在本文的实验中，本文采用 FLUX-Fill 和 FLUX 作为定制与生成的基础模型。视觉编码器基于 siglip-patch14 和 Qformer。在训练阶段，本文冻结 FLUX 模型参数以保持其强大的生成能力。局部风格注入模块在 8 张 Tesla A800 GPU 上训练了 100,000 步，耗时约 10 天。优化器采用 AdamW，学习率为，批量大小为 32。在推理阶段，本文使用 flow-matching Euler 调度器，采样步数为 50，指导尺度为 30.0。

设置与应用

自参考文本图像定制 本文方法的一个应用是按照原始文本风格修改输入图像中的文本内容。如下图 5(a) 所示，本文的方法可以在保留原始文本风格的同时编辑文本内容，仅需修改输入提示中的相关描述。例如，给定一张输入图像，本文的方法能够将 "Eugenia" 修复为 "Infatuate"，将 "Willie" 修改为 "Garden"（见下图 5(a)）。输入与输出图像的背景保持一致。考虑到以往方法仅能执行这种自参考定制（图像修复）任务，本文在后续章节中在该设置下进行了定量与定性比较。本文也展示了模型在此设置之外的独特能力。

跨参考文本图像定制 跨参考文本定制旨在使用不同风格的参考图像编辑文本内容，这是以往方法从未展示过的能力。如上图 5(b) 所示，本文展示了在不同风格参考文本图像下的多样化定制结果。本文的方法能够生成风格一致的图像，同时保证文本的可控性。另一方面，本文在实验中发现，即使参考图像为非文本图像（如火焰、彩虹、闪电等），文本定制模型依然表现良好。如上图 5(c) 所示，本文的方法能够生成与这些风格高度一致的文本图像。生成图像还保持了较高的背景一致性，并展现出令人印象深刻的美学质量。

基于参考的文本图像生成。本文进一步努力实现基于参考的文本图像生成这一全局可控任务，其中公式 (2) 中的输入仅包含噪声潜变量。本文发现，基于原始主干（FLUX-fill）训练的风格编码器可以与新的主干 FLUX 一起工作，从而无需进一步训练即可实现基于参考的文本图像生成，如上图 5(d) 所示，这表明所学习模型具有良好的泛化能力。这可能归因于这两个基础模型之间的参数相似性。

与基线方法的比较

定量结果 为了进行定量评估，本文在本文的字体排印基准测试集上与当前最先进的方法进行了比较，该测试集包含 100 张带掩码的文本图像、提示词以及相应的参考图像。本文采用 FID 指标来评估整张图像的整体质量和相似度。本文还分别使用 CLIP ViT-base 和 DINO-v2 模型计算掩码区域内文本图像的风格相似度。对于 OCR 指标，本文使用 Google Cloud 文本检测 API 识别内容并计算生成文本的准确率。下表 1 中的结果显示，本文提出的方法在所有指标上均取得了最佳表现。用户研究由 30 名参与者完成，收集了超过 1000 次投票，结果包括三个子领域评分（1 到 4 分）和整体偏好百分比，进一步表明本文的方法表现最佳。

定性结果 本文与 TextDiffuser2、AnyText 和 FLUX-fill 进行了定性比较，如下图 6 所示。TextDiffuser2 在合成正确字符和风格方面表现不佳。AnyText 生成的文本图像风格不理想，视觉质量较低，有时会生成错误字符，如 "Ninja" 和 "Magnify"。FLUX-fill 在词汇准确性方面表现良好，但存在风格不一致的问题，而本文提出的方法在这两个维度上都表现出显著优势。与现有方法相比，Calligrapher 在文本正确性和风格一致性方面表现出显著优势。一个显著的例子是参考词 "SPELLBOUND" 中 "D" 字母的独特图案，本文的方法在生成过程中保持了优越的字形完整性和风格一致性。

消融实验

自蒸馏的有效性 本文评估了自蒸馏对文本图像定制中风格相似性的影响。作为对比，本文展示了使用和不使用自蒸馏训练方法的模型生成结果。如图 7 左图所示，使用自蒸馏的模型在生成图像之间实现了显著更高的风格一致性。这表明自蒸馏利用生成模型的内部知识构建风格一致的训练对，绕过了人工配对数据稀缺的问题，使模型能够稳健地学习并迁移细腻的风格特征。

上下文生成的有效性 本文还评估了推理阶段上下文策略的有效性。如下图 7 右图所示，可以清楚地观察到，采用上下文策略后生成结果在风格一致性方面表现更好。本文分析认为这是因为 DiT 结构中包含了对所有 token 的自注意力计算，而上下文策略有助于增强参考文本图像与生成结果之间注意力的交互。

结论

自动化字体排印定制对于广告行业至关重要。本工作通过提出一个基于扩散的自动化字体排印定制框架来解决繁重的人工字体调整问题，并保证风格一致性。主要贡献包括一个自蒸馏数据集构建流程、通过可训练编码器实现的局部风格注入，以及整合参考图像的上下文生成机制。还构建了一个以风格为中心的基准测试集以促进文本定制。实验表明，本文模型能够准确地复现任意文本或非文本输入的多样风格，推动高效、艺术化的字体设计，减少人工工作量并提升创意产业中的工作流程一致性。

参考文献

[1] Calligrapher: Freestyle Text Image Customization

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年7月3日星期四

品牌设计效率飙升！港科大&蚂蚁等重磅开源AI书法家Calligrapher：魔法般生成专属艺术字

效果展示