2025年8月19日星期二

AI图像编辑新标杆!千问发布全能图像编辑模型Qwen-Image-Edit,哪里不对改哪里,7大核心能力全揭秘。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片
图片

千问团队推出 Qwen-Image 的图像编辑版本 Qwen-Image-Edit,该模型基于 20B Qwen-Image 模型,成功将 Qwen-Image 独特的文本渲染功能扩展到图像编辑任务,实现精准的文本编辑。此外,Qwen-Image-Edit 可将输入图像同时输入 Qwen2.5-VL(用于视觉语义控制)和 VAE 编码器(用于视觉外观控制),从而实现语义和外观编辑功能。

图片

主要特点:

  • 语义和外观编辑:Qwen-Image-Edit 既支持低级视觉外观编辑(例如添加、删除或修改元素,要求图像的所有其他区域保持完全不变),也支持高级视觉语义编辑(例如 IP 创建、对象旋转和样式转换,允许整体像素变化同时保持语义一致性)。
  • 精准的文本编辑:Qwen-Image-Edit 支持中英文双语文本编辑,可直接添加、删除、修改图片中的文字,同时保留原有的字体、大小、样式。
  • 强大的基准性能:多个公共基准测试的评估表明,Qwen-Image-Edit 在图像编辑任务中实现了最先进的 (SOTA) 性能,使其成为图像编辑的强大基础模型。
    图片

效果展示

Qwen-Image-Edit 的一大亮点在于其强大的语义和外观编辑功能。语义编辑是指在保留原始视觉语义的同时修改图像内容。为了直观地展示这一功能,我们以 Qwen 的吉祥物——水豚为例:

图片可以看出,虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的性格一致性得到了完美保留。Qwen-Image-Edit 强大的语义编辑功能,让原创 IP 内容创作变得轻松便捷,且内容丰富多样。

图片此外,新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两个示例图所示,Qwen-Image-Edit 不仅可以将物体旋转 90 度,还可以进行完整的 180 度旋转,让我们能够直接看到物体的背面:

图片

图片语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit 可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值:

图片除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。下图展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的反射,展现了其对细节的非凡关注。

图片下面是另一个有趣的例子,演示了如何从图像中去除细发丝和其他小物体。

图片此外,图像中特定字母"n"的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。

图片外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。

图片

图片Qwen-Image-Edit 的另一大亮点在于其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的深厚功底。以下两个案例生动地展现了 Qwen-Image-Edit 在英文文本编辑方面的强大性能:

图片

图片Qwen-Image-Edit 还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。

图片最后,通过一个具体的图像编辑示例来演示如何使用链式编辑方法逐步纠正 Qwen-Image 生成的书法作品中的错误:图片在这幅作品中,几个汉字存在生成错误。利用 Qwen-Image-Edit 逐步纠正这些错误。例如可以在原始图像上绘制边界框来标记需要校正的区域,并指示 Qwen-Image-Edit 修复这些特定区域。在这里希望"稽"字能够正确地写在红色框内,而"亭"字能够准确地呈现在蓝色区域内。

图片然而,在实际操作中,"稽"字相对模糊,模型未能一次性将其正确纠正。"稽"字的右下角部分应该是"旨",而不是"日"。此时,我们可以进一步用红框突出显示"日"部分,指示 Qwen-Image-Edit 微调此细节,将其替换为"旨"。

图片是不是很棒?通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。

图片
图片
图片
图片

图片终于成功获取了完整正确的《兰亭集序》书法版本!Qwen-Image-Edit 能够进一步推动图像生成领域的发展,真正降低视觉内容创作的技术门槛,并激发更多创新应用。OK,分享了这么多,快去试用一下吧!

相关链接

  • 论文:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
  • 项目:https://github.com/QwenLM/Qwen-Image
  • 模型:https://huggingface.co/Qwen/Qwen-Image-Edit
  • 试用:https://huggingface.co/spaces/Qwen/Qwen-Image-Edit
  • 主页:https://chat.qwen.ai/

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

厉害了,智谱造了全球首个手机通用Agent!人人免费,APP甚至直接操控云电脑

跨APP、边聊边干活 金磊 一水 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 全球首个手机通用Agent ,来了! 现在,假如你正在开会,但只需要给手机打一句话,就能让它 "自己动起来" ,给你点外卖: 帮我在美团外卖上,找最近的瑞幸咖啡,...