AnyI2V 是一种无需训练的图像转视频生成方法,它改编自文本转视频主干网络,能够整合来自任何模态的灵活空间条件以及使用用户自定义轨迹的运动控制。
基于特定条件创建动画图像的能力长期以来一直是人工智能领域的一大挑战。传统方法通常需要使用大量数据集进行大量训练,耗时且适应性较差。由复旦大学、阿里巴巴等提出了一种突破性的方法 AnyI2V,它无需训练即可创建条件图像动画,显著提高了运动控制的灵活性和效率。这项创新为动画和图像处理领域的各种应用开辟了新的可能性,使用户能够轻松创建动态视觉效果。
(a)AnyI2V 支持多种类型的条件输入,如网格和点云数据。轨迹作为后续帧运动控制的输入。 (b)AnyI2V 可以接受混合条件类型的输入。 (c)通过使用 LoRA 或不同的文本提示,AnyI2V 可以实现原始图像的编辑效果。
相关链接
文章:https://arxiv.org/pdf/2507.02857 项目:https://henghuiding.com/AnyI2V 代码:https://github.com/henghuiding/AnyI2V
论文介绍
视频生成领域的最新进展,尤其是在扩散模型方面的进展,推动了文本转视频 (T2V) 和图像转视频 (I2V) 合成的显著进步。然而,在有效整合动态运动信号和灵活的空间约束方面仍然存在挑战。现有的 T2V 方法通常依赖于文本提示,这本身就缺乏对生成内容空间布局的精确控制。相比之下,I2V 方法则受限于对真实图像的依赖,这限制了合成内容的可编辑性。尽管一些方法结合 ControlNet 引入了基于图像的条件反射,但它们通常缺乏显式的运动控制,并且需要计算成本高昂的训练。
为了解决这些限制,论文提出了 AnyI2V,这是一个无需训练的框架,可以使用用户定义的运动轨迹为任何条件图像制作动画。AnyI2V 支持更广泛的条件图像模态,包括 ControlNet 不支持的数据类型(例如网格和点云),从而实现更灵活、更通用的视频生成。此外,它支持混合条件输入,并支持通过 LoRA 和文本提示进行风格迁移和编辑。大量实验表明,所提出的 AnyI2V 实现了卓越的性能,并为空间和运动控制的视频生成提供了新的视角。
1. AnyI2V 的PipeLine
⭐ 下图展示了 AnyI2V 的架构,它利用 T2V 主干来实现 I2V 任务的效果,但支持更广泛的模态。 图 1. 流程首先对条件图像执行 DDIM 逆运算。为此,我们从 3D U-Net 中移除时间模块(即时间自注意力),然后在时间步t α从其空间块中提取特征。接下来,我们通过将第一帧中的特征代回 U-Net 来优化潜在表征。此优化由自动生成的语义掩码限制在特定区域,并且仅在时间步t' γ ≤ t γ执行。
2. 与以前方法的比较
⭐下图展示了与以前基于训练方法的比较
图 2. AnyI2V 与先前方法 DragAnything、DragNUWA 和 MOFA 的比较。"第一帧*"表示先前方法的条件图像是使用 AnyI2V 生成的,以确保更一致、更公平的比较。
3. 控制多种模式
⭐ AnyI2V 支持多种类别的模态,包括不支持 ControlNet 的模态。
4. 相机控制
⭐通过对静态物体(例如下图中的房子)强制进行运动控制,达到控制相机运动的效果。
5.视觉编辑
⭐ AnyI2V 生成首帧的结果不受结构条件的严格约束,即使结构与提示发生冲突,AnyI2V 也可以灵活控制结构。
结论
AnyI2V 是一种无需训练的图像转视频 (I2V) 生成方法,它改编自文本转视频 (T2V) 主干网络,能够整合来自任何模态的灵活空间条件以及使用用户自定义轨迹的运动控制。 与以往的方法不同,AnyI2V 无需进行大量训练,也简化了不同主干网络之间的迁移,为应用提供了便利。
局限性和未来工作: 尽管 AnyI2V 具有诸多优势,但它也存在局限性。它难以精确控制非常大的运动范围和模糊遮挡,这可能导致空间关系不清晰。此外,由于特征注入仅发生在较早的去噪步骤中,因此第一帧缺乏 ControlNet 等方法提供的精确控制。未来的工作可以侧重于提高运动一致性、处理复杂的遮挡,以及集成轻量级微调以提高适应性。
没有评论:
发表评论