阿里联合上海 AI Lab 提出了一种基于分数蒸馏的模型合并范式DMM,将多个模型压缩为一个多功能的 T2I
阿里联合上海 AI Lab 提出了一种基于分数蒸馏的模型合并范式DMM,将多个模型压缩为一个多功能的 T2I 模型。DMM 能够在风格提示的控制下生成各种专业风格的图像(写实风格、亚洲肖像、动漫风格等)。
效果展示
结果
与字符 LoRA 相结合的结果
两种风格插值的结果
论文:https://arxiv.org/pdf/2504.12364 代码:https://github.com/MCG-NJU/DMM 模型:https://huggingface.co/MCG-NJU/DMM 试用:https://huggingface.co/spaces/MCG-NJU/DMM 工作流:https://github.com/songtianhui/ComfyUI-DMM
论文介绍
论文名:DMM:Building a Versatile Image Generation Model via Distillation-Based Model Merging
文本转图像 (T2I) 生成模型的成功促使大量基于同一基础模型在各种专用数据集上进行微调的模型检查点的涌现。这种庞大的专用模型生成过程带来了新的挑战,例如高参数冗余和巨大的存储成本,因此亟需开发有效的方法将各种强大模型的功能整合并统一为一个模型。模型合并的一种常见做法是在参数空间中采用静态线性插值来实现风格混合。然而,这种方法忽略了 T2I 生成任务的特点,即众多不同的模型涵盖了各种风格,这可能导致合并后的模型不兼容和混乱。
为了解决这个问题,论文引入了一种可自动生成风格图像的流程,该流程可以在风格向量的控制下准确地生成任意风格的图像。基于此设计提出了基于分数蒸馏的模型合并范式 (DMM),将多个模型压缩为一个通用的 T2I 模型。此外通过提出新的合并目标和评估方案,在T2I生成背景下重新思考并重新制定了模型合并任务。实验表明 DMM 可以紧凑地重组来自多个教师模型的知识,并实现可控的任意风格生成。
方法概述
DMM 的分布式训练框架。
(a)训练期间 GPU 集群上的模型布局。每个节点分配一个特定的教师模型,以共享参数共同监督学生模型。维护一组可学习的嵌入(风格提示),以提供提示并相互区分。 (b)持续学习。通过初始化和添加新的嵌入,引入新的教师模型。冻结的预训练学生模型作为正则化,风格提示随机选择。
实验结果
结论
论文重新思考了T2I扩散模型领域的模型合并任务,并构建了一个多功能、可支持样式提示的扩散模型,用于可控的图像生成。具体而言,作者提出了一种基于分数蒸馏的简单而有效的合并范式DMM,DMM利用三种类型的损失函数来提升合并性能,并进行正则化以支持稳定的持续学习。借助我们设计的基于嵌入的样式控制机制,用户可以在推理过程中操作样式提示,灵活地执行各种样式组合。论文基于新的指标设计了一个评估基准,结果表明提出的合并模型在图像生成质量方面能够很好地模拟专家教师模型。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论