阿里通义千问发布了首个开源图像生成基础模型Qwen-Image,Qwen-Image是一个200亿参数的MMD
阿里通义千问发布了首个开源图像生成基础模型Qwen-Image,Qwen-Image是一个200亿参数的MMDiT模型,是通义千问系列中首个图像生成基础模型。
主要特性包括:
卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
高保真文本渲染
其突出功能之一是跨多种图像的高保真文本渲染。无论是英语等字母语言,还是中文等表意文字,Qwen-Image 都能以惊人的精准度保留排版细节、布局连贯性和语境和谐性。文本不仅仅是叠加,更是无缝融入视觉结构。
通用图像生成
除了文本之外,Qwen-Image 还擅长通用图像生成,支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫美学到极简主义设计,该模型能够流畅地适应各种创意需求,使其成为艺术家、设计师和故事讲述者的多功能工具。
图像编辑
在图像编辑方面,Qwen-Image 远不止简单的调整。它支持各种高级操作,例如风格转换、对象插入或移除、细节增强、图像内文本编辑,甚至人体姿势操控——所有这些都具有直观的输入和连贯的输出。这种控制水平使日常用户也能轻松享受专业级的编辑体验。
英文生成
那么,模型在英文上的能力如何呢? 来看一个英文渲染的case:
Bookstore window display. A sign displays "New Arrivals This Week". Below, a shelf tag with the text "Best-Selling Novels Here". To the side, a colorful poster advertises "Author Meet And Greet on Saturday" with a central portrait of the author. There are four books on the bookshelf, namely "The light between worlds" "When stars are scattered" "The slient patient" "The night circus"
多文字生成
那如果是更多的文字呢?试一个更难的case:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "一、Qwen-Image的技术路线: 探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、Qwen-Image的模型特色:1、复杂文字渲染。支持中英渲染、自动布局; 2、精准图像编辑。支持文字编辑、物体增减、风格变换。三、Qwen-Image的未来愿景:赋能专业内容创作、助力生成式AI发展。"
中英双语
那如果是中英双语呢?对于同样的场景,我们试这样的prompt:一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑"
图像理解
但 Qwen-Image 不仅仅是创造或编辑,它还能理解。它支持一系列图像理解任务,包括目标检测、语义分割、深度和边缘(Canny)估计、新颖的视图合成以及超分辨率。这些功能虽然在技术上有所不同,但都可以看作是由深度视觉理解驱动的智能图像编辑的特殊形式。
总之,这些功能使 Qwen-Image 不仅仅是一个生成漂亮图片的工具,而且是一个智能视觉创作和处理的综合基础模型——语言、布局和图像在此融合。
相关链接
论文:https://arxiv.org/pdf/2508.02324 源码:https://github.com/QwenLM/Qwen-Image huggingface:https://huggingface.co/Qwen/Qwen-Image modelscope:https://modelscope.cn/models/Qwen/Qwen-Image 主页:https://qwenlm.github.io/blog/qwen-image/ 试用:https://huggingface.co/spaces/Qwen/Qwen-Image
论文介绍
我们推出了 Qwen-Image,这是 Qwen 系列中的图像生成基础模型,在复杂文本渲染和精准图像编辑方面取得了显著进展。 为了应对复杂文本渲染的挑战,我们设计了一套全面的数据流水线,涵盖大规模数据收集、过滤、标注、合成和平衡。此外,我们采用了渐进式训练策略,从非文本到文本的渲染开始,从简单到复杂的文本输入,逐步扩展到段落级描述。这种课程学习方法显著增强了模型的原生文本渲染能力。因此,Qwen-Image 不仅在英语等字母语言中表现出色,而且在中文等更具挑战性的表意文字语言中也取得了显著进展。
为了增强图像编辑的一致性,我们引入了一种改进的多任务训练范式,它不仅融合了传统的文本到图像 (T2I) 和文本到图像到图像 (TI2I) 任务,还融合了图像到图像 (I2I) 重建任务,从而有效地对齐了 Qwen2.5-VL 和 MMDiT 之间的潜在表征。此外,我们将原始图像分别输入 Qwen2.5-VL 和 VAE 编码器,分别获得语义表征和重建表征。这种双重编码机制使编辑模块能够在保持语义一致性和维护视觉保真度之间取得平衡。我们对 Qwen-Image 在多个公共基准测试中进行了全面的评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。QwenImage 取得了最佳性能,展现了其在图像生成和编辑方面的强大能力。此外,在 LongText-Bench、ChineseWord 和 CVTG-2K 上的测试结果表明,它在文本渲染方面表现出色,尤其是在中文文本生成方面,远远超越了现有的最先进模型。这凸显了 Qwen-Image 作为领先图像生成模型的独特地位, 该模型兼具广泛的通用能力和卓越的文本渲染精度。
方法概述
不同图文联合位置编码策略的比较。我们设计了多模态可扩展 RoPE (MSRoPE) 策略,该策略从图像中心开始编码,并沿网格对角线定位文本编码,从而实现更佳的图像分辨率缩放和更佳的文本-图像对齐。
数据收集概述。数据集包含四大类别:自然(通用生成)、人物(以人为本生成)、设计(艺术风格、文本渲染和复杂布局)以及合成数据(文本渲染增强)。我们的收集策略在训练过程中平衡了多样性和质量,确保广泛的覆盖范围和高保真度的标注,以支持稳健的模型训练。
多阶段数据过滤流程概述。我们的过滤策略由七个连续的阶段(S1-S7)组成,每个阶段针对数据质量、对齐和多样性的特定方面。从最初的预训练数据整理到高分辨率细化和多尺度训练,该流程逐步提升数据集质量,同时保持语义丰富性和分布稳定性。
以下是我们流程中使用的一些滤波运算符的示例。这些运算符的极值通常表示图像不典型或质量低下。例如,亮度分数过高的图像通常包含大面积的白色或过度曝光区域。
数据合成概述。设计了三种渲染策略——纯渲染、合成渲染和复杂渲染——分别用于生成纯文本数据、上下文文本数据和复杂布局数据。
图像编辑 (TI2I) 任务概览。左图:TI2I 任务训练输入格式说明。用户提示为英文"转换为写实风格"。右图:针对 TI2I 的 MSRoPE 相应修改,引入了新的维度(框架)来区分编辑前后的图像。
实验
在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论