FLUX-Text,一个用于多语言场景文本编辑的新型 DiT 框架。通过将轻量级的字形和文本嵌入模块集成到 FLUX-Fill 架构中,有效地注入了对文本编辑至关重要的字形条件信息。
在之前的文章中已经和大家介绍过许多关于文字编辑和生成的方法,感兴趣的小伙伴可以点击下面链接阅读!
字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果。
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
场景文本编辑是一项具有挑战性的任务,旨在修改或添加图像中的文本,同时保持新生成文本的保真度以及与背景的视觉一致性。这项任务的主要挑战在于需要编辑具有多种语言属性(例如字体、大小和样式)、语言类型(例如英语、中文)和视觉场景(例如海报、广告、游戏)的多行文本。 阿里提出的 FLUX-Text 是一个用于在复杂视觉场景中编辑多行文本的新颖文本编辑框架。通过结合轻量级的条件注入 LoRA 模块、区域文本感知损失和两阶段训练策略,在中文和英文基准测试中均取得了显著的提升。
相关链接
论文:https://arxiv.org/pdf/2505.03329 代码:https://github.com/AMAP-ML/FluxText 主页:https://amap-ml.github.io/FLUX-text 试用:https://huggingface.co/GD-ML/FLUX-Text
论文介绍
场景文本编辑的任务是在图像上修改或添加文本,同时保持新生成文本的保真度以及与背景的视觉一致性。近期基于潜在扩散模型 (LDM) 的研究展现出了改进的文本编辑效果,但仍然面临挑战,经常生成不准确或无法识别的字符,尤其是对于具有复杂字形结构的非拉丁字符(例如中文)。
为了解决这些问题,论文提出了 FLUX-Text,一个基于 FLUX-Fill 的简单而先进的多语言场景文本编辑框架。具体而言,作者仔细研究了字形条件,同时考虑了视觉和文本模态。为了保留 FLUX-Fill 原有的生成能力,同时增强其对字形的理解和生成,提出了轻量级的字形和文本嵌入模块。由于采用了轻量级设计,FLUX-Text 仅使用 100𝐾 个训练样本进行训练,而目前流行的方法则需要 290 万个训练样本。该方法无需任何额外的附加功能,在文本编辑任务上实现了最佳性能。在公开数据集上进行的定性和定量实验表明,方法在文本保真度方面超越了以往的研究成果。
方法概述
不同视觉和文本嵌入模块概述。视觉嵌入模块:(a.1) 带文本提示的传统场景编辑。(a.2) Conv 注入。(a.3) Canny 注入。(a.4) 字形注入。文本嵌入模块:(b.1) 带 OCR 注入的文本嵌入。(b.2) 带 ByT5 注入的文本嵌入。
实验
结论
本文提出了 FLUX-Text,一个用于多语言场景文本编辑的新型 DiT 框架。通过将轻量级的字形和文本嵌入模块集成到 FLUX-Fill 架构中,我们的方法有效地注入了对文本编辑至关重要的字形条件信息。提出的区域感知损失和两阶段训练策略通过将模型的注意力集中在文本区域上,进一步提升了文本保真度,确保与不同背景的和谐融合。与现有方法相比,FLUX-Text 仅用 100 个训练样本(数据需求减少了 97%)就达到了最佳性能,展现了卓越的效率和可扩展性。大量实验验证了我们的框架在拉丁语和非拉丁语文本编辑任务中均优于先前的研究,在复杂场景下的文本保真度、字形准确性和视觉一致性方面均表现出色。值得注意的是,FLUX-Text 率先将 DiT 架构集成到文本编辑中,为质量和适应性树立了新的标杆。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论