之前的文章中已经给大家介绍过图像上色方法,感兴趣的小伙伴可以点击下面链接阅读~
之前的文章中已经给大家介绍过图像上色方法,感兴趣的小伙伴可以点击下面链接阅读~
超越阿里DDColor! 复旦提出MultiColor,一键将黑白图还原上色,效果逼真!
近年来,深度学习推动图像着色技术迈向新高度,扩散模型的兴起更让色彩还原逼真度显著提升。然而,现有方法仍面临两大难题:一是颜色渗色导致不同物体边界模糊,二是难以实现实例级精准控制,常出现颜色"张冠李戴"的绑定错误。
上交联合哔哩哔哩提出了一种基于扩散模型的MT-Color框架,通过引入像素级掩码注意机制与实例-文本引导模块,在特征融合阶段构建"信息隔离墙",有效阻断跨实例的颜色干扰。同时,创新采用多实例采样策略与GPT-Color数据集,实现从像素到实例的着色全链路优化,为复杂场景下的可控着色提供了新范式。
相关链接
论文:https://arxiv.org/pdf/2505.08705
论文介绍
论文名:Controllable Image Colorization with Instance-aware Texts and Masks
近年来,深度学习在图像着色中的应用受到广泛关注。扩散模型的成熟进一步推动了图像着色模型的发展。然而,目前主流的图像着色模型仍然存在诸如颜色渗色和颜色绑定错误等问题,并且无法在实例级别对图像进行着色。
论文提出了一种基于扩散的着色方法 MT-Color,以实现基于用户提供的指导的精确实例感知着色。为了解决颜色渗色问题,设计了一种像素级掩码注意机制,通过交叉注意机制整合潜在特征和条件灰度图像特征。使用分割掩码来构建交叉注意掩码,以防止不同实例之间的像素信息交换。还引入了一个实例掩码和文本引导模块,用于提取每个实例的实例掩码和文本表示,然后通过自注意力机制将其与潜在特征融合。利用实例掩码形成自注意力掩码,防止实例文本引导其他区域的着色,从而减少颜色绑定错误。
此外论文应用了一种多实例采样策略,即分别对每个实例区域进行采样,然后融合结果。此外还利用现有图像数据集上的大型视觉语言模型,创建了一个专门用于实例级着色任务的数据集 GPT-color。定性和定量实验表明该的模型和数据集优于以往的方法和数据集。
方法概述
左图展示了 MT-Color 的整体架构,右图详细介绍了各个模块。实例掩码和文本引导模块将实例掩码和文本的特征串联起来,并与 U-Net 的注意力模块相连。ControlNet 用于提取灰度图像特征,并通过像素级掩码注意力机制将其与 U-Net 的潜在特征相结合。
多示例采样策略。在前 3T 个步骤中对示例噪声进行采样,然后裁剪并与全局噪声融合,然后在其余步骤中进行全局采样。
实验结果
无条件着色的定性比较结果。所有示例均来自 GPT-color 数据集。该模型能够生成更符合人类感知的色彩和细节。
结论
论文提出了一个新颖的框架 MT-Color,旨在解决基于扩散的预训练着色模型中出现的渗色和颜色绑定不准确的问题。为了缓解颜色泄漏通过将稳定扩散与 ControlNet 相结合,引入了一种像素级的掩蔽注意力机制。为了增强实例级颜色保真度提出了一个实例掩蔽和文本引导模块,该模块将实例掩蔽和文本描述与潜在特征融合,并采用多实例采样策略来防止跨实例信息泄漏。此外,论文构建了一个新的数据集 GPT-Color,使用 GPT-4 和 BLIP-2 生成细粒度的文本颜色描述和相应的实例掩蔽。大量实验表明,所提出的方法和数据集均显著提高了文本引导图像着色任务的颜色准确度和感知质量。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论