南京理工大学与南京大学联合提出VMDiff(视觉混合扩散模型),解决AI图像生成中“共存不融合”与“偏向一方”两大难题。通过分阶段采用拼接与插值策略,并自动搜索平衡参数,让模型真正将两个物体融合成一个结构连贯的新实体。适用于AI科研、角色设计、潮玩创作等场景。
Tags:
过去,很多图像生成模型都能同时画出两个物体;但要让它们真正“长成一个新物体”,其实远没有那么简单。
最近,来自南京理工大学和南京大学的研究者提出了 VMDiff(Visual Mixing Diffusion)。这项工作的目标不是让两个概念“出现在同一张图里”,而是让它们真正融合成一个结构连贯、语义平衡、视觉统一的新实体。
如果让 AI 把“玻璃罐”和“猫头鹰”结合起来,很多模型表面上看似做到了,实际上却没有真正融合。有的结果只是把两个物体放在同一张图里,彼此靠近、重叠,但仍然是两个分离的概念;还有的结果更直接,只保留了其中一个物体,另一个概念几乎消失不见。
这正是跨物体融合生成长期存在的两个核心难题:一类叫 coexistent generation,也就是“共存但不融合”;另一类叫 bias generation,也就是“只偏向一边,另一边被吞掉”。VMDiff 要解决的,正是这两个问题。
图 2. 现有方法常见的两类失败:共存不融合,或只偏向一边。
论文信息
标题:VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
作者:熊泽仁,于悦, 张泽栋, 陈硕, 杨健, 李俊
机构:南京理工大学,南京大学
论文链接:https://arxiv.org/abs/2509.23605
项目主页:https://xzr52.github.io/VMDiff_index/
代码仓库:https://github.com/xzr52/VMDiff_code
VMDiff 的巧妙之处:把“保信息”和“成整体”拆成两步来做
VMDiff 最核心的思路,不是笼统地说“在 noise 和 embedding 上融合”,而是更精确地把整个过程拆成两个目标完全不同的阶段:
-
在前一阶段,目标是尽可能完整保留两个输入的信息; -
在后一阶段,目标是把这些信息真正长成一个统一的新物体。
这两个阶段分别对应论文中的 Hybrid Sampling Process(HSP) 和 Efficient Adaptive Adjustment(EAA)。
而 HSP 里面最值得讲的,就是两个非常“反直觉但很对”的设计选择:
该保留信息的时候,不做插值,而是拼接;
该形成统一整体的时候,不再拼接,而是插值。
这是 VMDiff 的方法核心。
图 3. VMDiff 由 HSP 与 EAA 两部分组成:前者负责融合生成,后者负责自适应调参。
第一步:先别急着“混”,先保证两个输入都真的在场
很多人一看到“融合”就会想到插值。但 VMDiff 在前面的 Blending Noise(BNoise) 阶段并没有这么做。
它先从高斯噪声出发,再通过引导去噪和反演,把噪声逐步变成一个带有两个输入概念信息的语义噪声。而在这个阶段,VMDiff 对两个输入特征采用的不是插值,而是拼接(concatenate)。
为什么这里要拼接?因为这一阶段的目标还不是“生成一个整体”,而是“把两个来源的信息都尽可能保住”。如果过早插值,两个物体中那些不完全对齐的局部细节,很容易在平均过程中被抹平;相反,拼接能先把双方的重要特征都保留下来,再交给后续的反演过程去提炼。
换句话说,VMDiff 在这一步解决的是:如何在真正开始生成之前,先把两个概念的信息注入噪声。
图 4. 在 BNoise 阶段,拼接比插值更有利于保留输入细节。
第二步:真正生成时,目标变了——这时必须让它长成一个整体
前面那一步解决的是“两个概念都在”。但只做到这一步还不够,因为“都在”不等于“融合好了”。
如果在最终生成阶段还继续拼接,那么模型虽然拥有两边的信息,但它们还是彼此分离的,最后很容易长成“两个物体挤在一起”的结果。
所以在 Mixing Denoise(MDeNoise) 阶段,VMDiff 做了第二个关键转换:它不再拼接,而是用 球面插值(spherical interpolation) 去混合两组视觉表征,让它们沿着一个更自然的潜空间路径逐步过渡,最终形成单一、连贯、和谐的新实体。 这一点特别重要。它说明 VMDiff 不是简单地“全程统一融合策略”,而是针对不同阶段的目标,选择了不同的操作:
-
在 BNoise 阶段,怕丢信息,所以选拼接; -
在 MDeNoise 阶段,怕长不成整体,所以选插值。
这正是 VMDiff 和很多“直接混一混”方法最本质的区别。
图 5. 在最终生成阶段,插值比拼接更容易形成统一整体。
但“成整体”还不够,VMDiff 还要解决另一个麻烦:别偏科
即便有了前面的两步,模型仍然可能偏向其中一个输入。比如“口红 + 钢铁侠手办”,最后也许更容易只剩口红,或者只剩钢铁侠风格,而无法做到真正平衡。所以 VMDiff 又设计了一个 Similarity Score(SS),专门衡量生成结果是否同时满足两件事:
-
既像输入图像 1,也像输入图像 2; -
既符合类别语义 1,也符合类别语义 2; -
而且两边不能差太多。
这个式子可以拆成四部分来看:
-
:visual similarity,要求生成结果在视觉上都接近两个输入图像; -
:semantic similarity,要求生成结果在语义上都符合两个类别标签; -
:visual balance,惩罚视觉上只偏向其中一边; -
:semantic balance,惩罚语义上只保留一个概念。
换句话说,VMDiff 优化的不是“像某一个输入”,而是:
既保留两个来源的视觉与语义,又显式压制不平衡。
EAA:不是拍脑袋调参数,而是自动搜索“最平衡的融合点”
有了这个相似度与平衡联合目标之后,VMDiff 用 Efficient Adaptive Adjustment(EAA) 去自动搜索参数。它会分层地调整:
-
控制融合比例的 α -
控制噪声侧影响的 β1、β2 -
以及随机噪声 ϵ
做法并不是昂贵的梯度反向传播,而是更轻量的层次化搜索,比如 golden section search,再结合少量重采样。这使得 VMDiff 不需要一个特别重的优化过程,也能比较高效地找到“最像两边、又最平衡”的解。图 6. EAA 通过分层搜索逐步提升相似度并减小失衡。
结果上,VMDiff 做到的不是“更花哨”,而是“更像一个新物体”
为了系统评估这件事,作者构建了 IIOF(Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体和角色手办等类别。
实验表明,VMDiff 不只是主观上更有创意,在客观指标也都表现突出。
在多概念生成对比中,很多基线方法仍然容易出现“只是叠在一起”或者“偏向其中一边”的问题;而 VMDiff 生成的结果往往更像是一个真正统一的混合实体。 从表 1 可以看到,VMDiff 并不是只在单一指标上占优,而是在语义一致性、单实体连贯性、相似度和平衡性等多个维度上都表现突出。
表 1. IIOF 数据集上的定量对比结果
|
|
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|---|
| Our VMDiff | 0.639 | 0.540 | 8.372 | 8.392 | 0.390 |
|
2.068 | 0.324 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.417 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
图 7. 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。
图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。
这篇工作的价值,不只是生成几个新奇例子
VMDiff 真正有意思的地方,不只是做出了几张好看的图,而是它给“跨物体视觉融合”这件事提供了一种很清晰的方法论:
-
先解决“信息别丢”; -
再解决“整体要成”; -
最后再解决“双方要平衡”。
这三件事以前常常被混在一起处理,而 VMDiff 把它们拆开了,并为每一步都设计了对应的机制。这也是为什么它生成出来的结果,不是简单拼贴,也不是只偏向一边,而更像一个真的被“设计出来”的新物体。
总结
很多方法能把两个物体同时画出来,但 VMDiff 的目标不是“同时出现”,而是“真正长成一个新物体”。 对角色设计、潮玩设计、电影动画和工业外观探索来说,这种“真正生成一个新物体”的能力,比简单拼贴更接近实际创作需求。它最核心的洞察在于:
-
在噪声构造阶段,用拼接保住两边信息; -
在最终生成阶段,用插值把两边长成一个整体; -
再用联合考虑相似度与平衡的目标函数,自动找到最佳融合点。
这让跨物体融合不再只是“把 A 和 B 放一起”,而是真正走向“从 A 和 B 里,创造出一个新的 C”。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论