2026年5月12日星期二

南京高校ICLR 2026发布VMDiff:视觉混合扩散模型实现AI跨对象合成新物体

南京理工大学与南京大学联合提出VMDiff(视觉混合扩散模型),解决AI图像生成中“共存不融合”与“偏向一方”两大难题。通过分阶段采用拼接与插值策略,并自动搜索平衡参数,让模型真正将两个物体融合成一个结构连贯的新实体。适用于AI科研、角色设计、潮玩创作等场景。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

过去,很多图像生成模型都能同时画出两个物体;但要让它们真正“长成一个新物体”,其实远没有那么简单。

最近,来自南京理工大学和南京大学的研究者提出了 VMDiff(Visual Mixing Diffusion)。这项工作的目标不是让两个概念“出现在同一张图里”,而是让它们真正融合成一个结构连贯、语义平衡、视觉统一的新实体VMDiff生成效果

如果让 AI 把“玻璃罐”和“猫头鹰”结合起来,很多模型表面上看似做到了,实际上却没有真正融合。有的结果只是把两个物体放在同一张图里,彼此靠近、重叠,但仍然是两个分离的概念;还有的结果更直接,只保留了其中一个物体,另一个概念几乎消失不见。

这正是跨物体融合生成长期存在的两个核心难题:一类叫 coexistent generation,也就是“共存但不融合”;另一类叫 bias generation,也就是“只偏向一边,另一边被吞掉”。VMDiff 要解决的,正是这两个问题。

现有方法的典型失败案例
现有方法的典型失败案例

图 2. 现有方法常见的两类失败:共存不融合,或只偏向一边。

unsetunset论文信息unsetunset

标题:VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
作者:熊泽仁,于悦, 张泽栋, 陈硕, 杨健, 李俊
机构:南京理工大学,南京大学
论文链接:https://arxiv.org/abs/2509.23605
项目主页:https://xzr52.github.io/VMDiff_index/
代码仓库:https://github.com/xzr52/VMDiff_code

VMDiff 的巧妙之处:把“保信息”和“成整体”拆成两步来做

VMDiff 最核心的思路,不是笼统地说“在 noise 和 embedding 上融合”,而是更精确地把整个过程拆成两个目标完全不同的阶段:

  • 在前一阶段,目标是尽可能完整保留两个输入的信息;
  • 在后一阶段,目标是把这些信息真正长成一个统一的新物体。

这两个阶段分别对应论文中的 Hybrid Sampling Process(HSP) 和 Efficient Adaptive Adjustment(EAA)
而 HSP 里面最值得讲的,就是两个非常“反直觉但很对”的设计选择:

该保留信息的时候,不做插值,而是拼接;
该形成统一整体的时候,不再拼接,而是插值。

这是 VMDiff 的方法核心。

VMDiff 方法总览
VMDiff 方法总览

图 3. VMDiff 由 HSP 与 EAA 两部分组成:前者负责融合生成,后者负责自适应调参。

第一步:先别急着“混”,先保证两个输入都真的在场

很多人一看到“融合”就会想到插值。但 VMDiff 在前面的 Blending Noise(BNoise) 阶段并没有这么做。

它先从高斯噪声出发,再通过引导去噪和反演,把噪声逐步变成一个带有两个输入概念信息的语义噪声。而在这个阶段,VMDiff 对两个输入特征采用的不是插值,而是拼接(concatenate)

为什么这里要拼接?因为这一阶段的目标还不是“生成一个整体”,而是“把两个来源的信息都尽可能保住”。如果过早插值,两个物体中那些不完全对齐的局部细节,很容易在平均过程中被抹平;相反,拼接能先把双方的重要特征都保留下来,再交给后续的反演过程去提炼。

换句话说,VMDiff 在这一步解决的是:如何在真正开始生成之前,先把两个概念的信息注入噪声。

BNoise 阶段:拼接优于插值
BNoise 阶段:拼接优于插值

图 4. 在 BNoise 阶段,拼接比插值更有利于保留输入细节。

第二步:真正生成时,目标变了——这时必须让它长成一个整体

前面那一步解决的是“两个概念都在”。但只做到这一步还不够,因为“都在”不等于“融合好了”。

如果在最终生成阶段还继续拼接,那么模型虽然拥有两边的信息,但它们还是彼此分离的,最后很容易长成“两个物体挤在一起”的结果。
所以在 Mixing Denoise(MDeNoise) 阶段,VMDiff 做了第二个关键转换:它不再拼接,而是用 球面插值(spherical interpolation) 去混合两组视觉表征,让它们沿着一个更自然的潜空间路径逐步过渡,最终形成单一、连贯、和谐的新实体。 这一点特别重要。它说明 VMDiff 不是简单地“全程统一融合策略”,而是针对不同阶段的目标,选择了不同的操作:

  • 在 BNoise 阶段,怕丢信息,所以选拼接;
  • 在 MDeNoise 阶段,怕长不成整体,所以选插值。

这正是 VMDiff 和很多“直接混一混”方法最本质的区别。

MDeNoise 阶段:插值优于拼接
MDeNoise 阶段:插值优于拼接

图 5. 在最终生成阶段,插值比拼接更容易形成统一整体。

但“成整体”还不够,VMDiff 还要解决另一个麻烦:别偏科

即便有了前面的两步,模型仍然可能偏向其中一个输入。比如“口红 + 钢铁侠手办”,最后也许更容易只剩口红,或者只剩钢铁侠风格,而无法做到真正平衡。所以 VMDiff 又设计了一个 Similarity Score(SS),专门衡量生成结果是否同时满足两件事:

  1. 既像输入图像 1,也像输入图像 2;
  2. 既符合类别语义 1,也符合类别语义 2;
  3. 而且两边不能差太多。

这个式子可以拆成四部分来看:

  • visual similarity,要求生成结果在视觉上都接近两个输入图像;
  • semantic similarity,要求生成结果在语义上都符合两个类别标签;
  • visual balance,惩罚视觉上只偏向其中一边;
  • semantic balance,惩罚语义上只保留一个概念。

换句话说,VMDiff 优化的不是“像某一个输入”,而是:

既保留两个来源的视觉与语义,又显式压制不平衡。

有了这个目标之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明确的优化方向:先搜索控制融合比例的  ,再根据结果进一步调整  ,必要时重采样噪声  ,从而自动找到一个既自然、又平衡的融合点。

unset

EAA:不是拍脑袋调参数,而是自动搜索“最平衡的融合点”

有了这个相似度与平衡联合目标之后,VMDiff 用 Efficient Adaptive Adjustment(EAA) 去自动搜索参数。它会分层地调整:

  • 控制融合比例的 α
  • 控制噪声侧影响的 β1、β2
  • 以及随机噪声 ϵ

做法并不是昂贵的梯度反向传播,而是更轻量的层次化搜索,比如 golden section search,再结合少量重采样。这使得 VMDiff 不需要一个特别重的优化过程,也能比较高效地找到“最像两边、又最平衡”的解。EAA 优化过程可视化图 6. EAA 通过分层搜索逐步提升相似度并减小失衡。

结果上,VMDiff 做到的不是“更花哨”,而是“更像一个新物体”

为了系统评估这件事,作者构建了 IIOF(Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体和角色手办等类别。
实验表明,VMDiff 不只是主观上更有创意,在客观指标也都表现突出。

在多概念生成对比中,很多基线方法仍然容易出现“只是叠在一起”或者“偏向其中一边”的问题;而 VMDiff 生成的结果往往更像是一个真正统一的混合实体。 从表 1 可以看到,VMDiff 并不是只在单一指标上占优,而是在语义一致性、单实体连贯性、相似度和平衡性等多个维度上都表现突出。

表 1. IIOF 数据集上的定量对比结果

Model
VQASA_T5 ↑
VQASCE_T5 ↑
LCSA ↑
LCSCE ↑
VQASA_LLaVA ↑
VQASCE_LLaVA ↑
SS ↑
Bsim ↓
Our VMDiff 0.639 0.540 8.372 8.392 0.390
0.413
2.068 0.324
FreeCustom
0.579
0.452
6.958
6.946
0.360
0.388
1.580
0.776
MIP-Adapter
0.621
0.512
8.301
8.076
0.389
0.417
1.866
0.483
OmniGen
0.570
0.469
7.550
7.233
0.352
0.348
1.705
0.617
Conceptlab
0.573
0.483
7.589
7.728
0.362
0.395
ATIH
0.523
0.465
7.275
6.816
0.317
0.367
Stable Flow
0.460
0.372
6.020
5.024
0.266
0.294
DreamO
0.591
0.467
7.592
7.013
0.370
0.346
1.793
0.644
FreeBlend
0.588
0.507
7.836
7.788
0.341
0.383
1.870
0.479
与多概念生成方法的对比
与多概念生成方法的对比

图 7. 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。与混合/编辑方法的对比

图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。

这篇工作的价值,不只是生成几个新奇例子

VMDiff 真正有意思的地方,不只是做出了几张好看的图,而是它给“跨物体视觉融合”这件事提供了一种很清晰的方法论:

  • 先解决“信息别丢”;
  • 再解决“整体要成”;
  • 最后再解决“双方要平衡”。

这三件事以前常常被混在一起处理,而 VMDiff 把它们拆开了,并为每一步都设计了对应的机制。这也是为什么它生成出来的结果,不是简单拼贴,也不是只偏向一边,而更像一个真的被“设计出来”的新物体。

unsetunset总结unsetunset

很多方法能把两个物体同时画出来,但 VMDiff 的目标不是“同时出现”,而是“真正长成一个新物体”。 对角色设计、潮玩设计、电影动画和工业外观探索来说,这种“真正生成一个新物体”的能力,比简单拼贴更接近实际创作需求。它最核心的洞察在于:

  • 在噪声构造阶段,用拼接保住两边信息;
  • 在最终生成阶段,用插值把两边长成一个整体;
  • 再用联合考虑相似度与平衡的目标函数,自动找到最佳融合点。

这让跨物体融合不再只是“把 A 和 B 放一起”,而是真正走向“从 A 和 B 里,创造出一个新的 C”。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

南京高校ICLR 2026发布VMDiff:视觉混合扩散模型实现AI跨对象合成新物体

南京理工大学与南京大学联合提出VMDiff(视觉混合扩散模型),解决AI图像生成中“共存不融合”与“偏向一方”两大难题。通过分阶段采用拼接与插值策略,并自动搜索平衡参数,让模型真正将两个物体融合成一个结构连贯的新实体。适用于AI科研、角色设计、潮玩创作等场景。 Tags: ...