2025年7月6日星期日

ICCV 2025 I 让任意图像‘活’起来,颠覆视频生成!AnyI2V:点云、草图都能秒变动画!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Ziye Li等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2507.02857 
项目链接:https://henghuiding.com/AnyI2V/

图片

亮点直击

  • AnyI2V,它将首帧的空间条件与用户定义的运动轨迹相结合,分别控制内容布局和运动。此外,我们的免训练框架消除了训练负担,并简化了在不同骨干模型上的适配。
  • AnyI2V 具有极高的灵活性,支持多种类型的条件图像作为首帧输入。此外,AnyI2V 支持混合条件输入,并通过结合 LoRA 或不同的文本提示实现高效的视觉编辑,生成高度多样且视觉吸引力的结果。
  • 通过重新思考特征注入方式,并采用基于语义掩码的零样本轨迹控制,AnyI2V 在多样化场景中展现出卓越性能,大量实验验证了该方法的有效性。

总结速览

解决的问题

  • 动态运动信号与空间约束的整合不足:现有文本到视频(T2V)方法依赖文本提示,缺乏对生成内容空间布局的精确控制;而图像到视频(I2V)方法受限于真实图像输入,难以灵活编辑内容。
  • 运动控制与训练成本问题:现有方法(如结合ControlNet的方案)通常缺乏显式的运动控制,且依赖计算昂贵的训练,灵活性受限。
  • 多模态输入支持不足:传统方法难以兼容非RGB模态(如点云、网格等),限制了生成视频的多样性和应用场景。

提出的方案

AnyI2V框架

  • 训练自由的动画生成:无需额外训练,支持任意模态图像(如深度图、骨架、点云等)作为条件输入,并允许用户自定义运动轨迹。
  • 混合模态输入与编辑能力:支持多模态条件组合(如深度图+草图),并通过LoRA或文本提示实现风格迁移和内容编辑。
  • 三项核心技术
    • 结构保持的特征注入:提取输入图像的关键结构特征,抑制无关外观信息。
    • 跨帧对齐:基于空间自注意力中的查询(query)实现时序一致性。
    • 动态语义掩码生成:通过特征聚类生成自适应掩码,支持变形物体的精确运动控制。

应用的技术

  • 扩散模型:基于现有视频扩散模型,无需额外训练模块。
  • 特征分析与PCA降维:通过主成分分析识别时序一致性强的关键特征(如空间自注意力中的query)。
  • 动态语义掩码:利用特征聚类生成随物体形变调整的掩码,提升运动控制的灵活性。
  • LoRA与文本提示:实现内容风格编辑和细节调整。

达到的效果

  • 更灵活的控制:支持任意模态输入和用户定义的运动轨迹,实现空间布局与动态运动的协同控制。
  • 更高的生成质量:跨帧对齐和动态掩码技术保障了视频的时序一致性和物体形变的自然性。
  • 低成本与通用性:无需训练即可适配不同基模型,支持多模态混合输入和内容编辑,扩展了应用场景(如3D数据生成、风格化视频等)。
  • 实验验证:在多样化的条件输入和运动控制任务中表现优于现有方法。

方法

重新思考特征注入

给定一张图像,PnP 已证明扩散模型具备捕捉结构信息的能力。然而,PnP 在处理不同模态的图像时会遇到困难。本文通过替换特征进行实验,评估结构和外观的控制效果。

扩散模型通常在早期去噪阶段确定整体布局,而更精细的细节则在后期阶段建立。这一观察表明,扩散模型的特征在某个特定步骤  时,能在结构信息和纹理之间达到最佳平衡。因此,我们从 DDIM 反转 的特定步骤  中提取特征用于注入。

本文研究在时间步骤  时,不同特征对生成结果的贡献。与使用 DDIM 反转末尾的噪声(保留大量外观信息)不同,本文从纯随机噪声开始,并每次仅注入一种特征。下图4直观展示了 ResBlock 和空间自注意力层特征的主要影响。值得注意的是,残差隐藏、查询和自注意力图各自都能独立实现令人满意的结构控制,其中残差隐藏尤为有效。然而,残差隐藏也包含了源图像的大部分外观信息,导致视觉保真度不佳。因此,为确保生成图像更贴合文本引导,我们对残差隐藏中的外观信息进行去偏,从而得到更符合上下文的结果。

图片

自适应实例归一化(AdaIN)是一种广泛用于保持源结构并迁移目标风格的技术。然而,原始的 AdaIN 专注于操作全局特征,导致局部质量较差。为解决这一问题,我们提出将注入的残差隐藏特征  和骨干网络的源残差隐藏  分块为非重叠的块  和 。随后,使用 AdaIN 对这些分块特征进行操作,得到目标隐藏表示 。形式上,该操作表示为:

图片

其中  是输入特征, 是分块后的特征, 表示分块大小。AdaIN 操作表示为:

图片

其中  和  分别表示在空间维度上计算标准差和均值的函数。经过 AdaIN 操作后,目标特征  被重新调整回原始维度以匹配输入特征图 。如前面图 4 所示,去偏后的残差隐藏特征展现出良好的结构保留和自然的外观表现。通过这种方式,特征注入操作能够有效处理不同模态的图像,同时防止外观信息泄露,保持结构和外观的保真度。

为了将特征注入扩展到视频扩散模型中以控制首帧,首先对单帧条件图像进行 DDIM 反转以提取其特征。基于图4的观察结果,通过注入去偏的残差隐藏状态和查询(query)来替换这些特征。为了确保空间自注意力中跨帧的内容一致性,我们通过将后续帧的键(key)和值(value)设置为与首帧匹配(即  和 )来强制时序一致性。这些策略不仅降低了获取目标特征的计算成本,还保持了首帧的结构控制和自然外观。

零样本轨迹控制

本节将选择具有良好结构控制能力的特征,并利用 PCA 降维进一步分析它们在时间维度上的特性。这些特征通过 PCA 转换后的前三个主成分进行可视化。如下图5所示,比较了自注意力图、残差隐藏状态和注意力查询的降维特征,重点关注运动物体以评估其时序一致性和实体表示。
研究发现,自注意力图中的运动物体表现出较低的时序一致性,而残差隐藏状态和注意力查询在运动物体的时间轴上显示出强相关性。此外,残差隐藏特征捕捉了更细粒度的细节(未将物体视为连贯实体),而查询特征编码了更高层次的语义(将物体视为整体)。这一观察得出关键结论:对齐跨帧的时序一致且实体感知的特征可实现连贯的物体运动。通过将后续帧与注入的首帧对齐,实现了零样本轨迹控制。

图片

跨帧对齐:受先前工作 [29, 34] 启发,可通过优化隐空间变量实现对单图像的拖动效果。将此技术应用于轨迹控制中的跨帧对齐。基于分析结果,选择空间自注意力中的查询作为对齐目标。先前工作以点拖动方式优化隐空间变量,限制了优化区域。然而,为实现更灵活的物体控制(如移动物体的特定部分或整体位移),引入了边界框 ,其大小和位置可由用户逐帧定义。

此外,发现低秩主成分的时序一致性较差且难以定义清晰布局,因此进一步提出对齐通过 PCA 提取的查询特征的高秩主成分。最终,使用以下优化目标优化隐空间变量:

图片

其中  表示损失函数,由公式 (8) 定义, 表示边界框组的索引, 表示帧索引,运算符  表示停止梯度操作。 表示提取的特征并通过边界框  进行裁剪。提取的特征定义为:

图片

其中  表示通道维度的主成分数量。值得注意的是,特征  对应于注入的首帧特征,且独立于 

语义掩码生成

上述边界框虽然提供了定义拖动目标区域的灵活性,但并不能始终实现精确的物体操控。许多物体具有不规则形状,这会导致非目标区域被优化,从而影响整体精度。同时,静态掩码虽能进一步限制优化区域,但也会约束自然形变,降低动态变换时的灵活性。为解决这些问题,本文提出了一种自适应语义掩码生成方法,该方法基于特征中编码的语义信息自动生成掩码。通过这种方式,可以对目标对象实现更精确、上下文敏感且自适应的控制,在保持结构完整性的同时允许自然运动。

给定注入的首帧特征 ,本文的目标是在所有特征  中生成与  语义内容对应的更精确掩码。首先,在特征  的边界框内选择显著点  以指示关键部位,其中  表示边界框的对应组索引, 表示点索引。对于所有帧,使用余弦相似度计算  与边界框  内特征之间的相似性,公式如下:

图片

其中  表示特征  在坐标  处的向量。由此可以得到第  组在第  帧上的聚合相似度图 ,其表达式如下:

图片

为了获得二值化掩码,对聚合相似度图应用K-Means聚类算法,其表达式如下:

图片

其中  表示二分类聚类。通过选择中心像素值较高的簇来确定前景。基于得到的掩码,我们将损失函数定义为:

图片

其中  表示逐像素乘法, 表示边界框组  中第1帧与第帧间同一实例的重叠区域。

图片

实验

实现细节
基于AnimateDiff在单块Nvidia A800 GPU上实现本方法,整体流程如下图3所示。DDIM反转包含1000步,特征提取步长。解码器包含三个级联空间块(索引0、1、2),从up blocks.1和up blocks.2注入索引为0和1的残差隐藏与查询,通过对齐up blocks.1的查询1和up blocks.2的查询0来优化隐空间变量噪声。残差隐藏去偏的块大小设为,PCA降维维度。采用25步DDIM采样,每5步(时)以0.01学习率优化隐空间变量。反转阶段和生成阶段在半精度模式下分别耗时约8秒和35秒。

图片

定性评估

下图2展示了AnyI2V与前沿方法的对比结果。从生成图像和轨迹可视化可见,AnyI2V表现出可比性能。下图7进一步展示了AnyI2V处理自然场景和混合模态图像的能力。相比仅能处理真实RGB图像的方法,我们的方案显著提升了可编辑性与灵活性。

图片
图片

图片
图片
图片
图片

定量评估

本文从网络和VIPSeg数据集收集数据,使用Co-Tracker标注视频轨迹以确保高质量运动追踪。评估指标包括Fréchet Inception Distance (FID)、Fréchet Video Distance (FVD)和ObjMC(量化真实轨迹与生成结果的误差)。

为公平对比,将输入首帧随机转换为canny、HED、深度、法线和分割图等结构表示。AnyI2V直接使用这些表示,而其他方法需先通过ControlNet处理输入帧。如下表1所示,AnyI2V显著超越基线模型(指采用SparseCtrl的骨干模型,以零样本方式实验),并与前沿方法取得竞争性结果。

图片

消融研究

下表2、图8-10展示了不同设计选择的消融结果。表2显示,移除我们提出的组件或优化自注意力中的残差隐藏(而非查询)会降低生成视频的时序一致性(FVD指标)和目标物体控制精度(ObjMC指标)。图8折线图表明PCA维度过小或过大均会损害性能:过小导致对齐信息不足,过大致使低秩成分一致性减弱。最终选择为最优降维维度。

图片
图片

图9研究了不同时间步注入特征的影响:步长过小会导致过拟合低频纹理(产生伪影),过大则噪声特征阻碍布局捕捉。适当步长能平衡特征提取与结构保留。图10显示,移除残差隐藏会削弱物体细节控制(如长颈鹿腿部);未去偏会导致过拟合输入外观;未分块则去偏不彻底。我们的方案在保持布局控制的同时有效防止过拟合。

图片

图8柱状图对比了不同优化目标的效果。解码器中up blocks.i的第个查询记为Query i.j。结果显示,单独优化Query 1.1或Query 2.0效果最佳,而跨分辨率优化(如Query 1.1 & 2.0)能显著提升性能——因为多分辨率优化可同步捕获语义与结构信息(例如canny/HED条件中的空洞区域在低分辨率可能消失,而高分辨率保留纹理细节),从而增强精度与视觉保真度。

泛化性

由于AnyI2V是免训练方法,进一步在多种T2V骨干模型(包括LaVie 和VideoCrafter2)上实现。图11所示结果凸显了其对不同架构的适应性,证明了方法的鲁棒性和强泛化能力。

图片

结论

AnyI2V——一种基于T2V骨干模型改造的免训练图像到视频(I2V)生成方法,通过整合任意模态的灵活空间条件和用户定义轨迹实现运动控制。与现有方法不同,AnyI2V无需大量训练即可跨骨干模型迁移,为实际应用提供了便利。

局限性与未来工作
尽管优势显著,AnyI2V仍存在局限:对超大运动范围和模糊遮挡物的控制不够精准,可能导致空间关系不明确;此外,由于特征注入仅发生在早期去噪阶段,首帧无法获得ControlNet等方法的精确控制效果。未来工作可聚焦于提升运动一致性、处理复杂遮挡,以及结合轻量化微调以增强适应性。

参考文献

[1] AnyI2V: Animating Any Conditional Image with Motion Control

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

当微信支付开放MCP之后,我却有一点后怕。

真正的骗局,不再需要骗子。 前两天,微信开放了自己的微信支付MCP。 补上了智能体链路的最后一块拼图。 虽然现在还只能在腾讯自己家的腾讯元器上用,但,影响也还是足够的大。 很多人可能不知道微信支付MCP到底意味着什么,但我正好是为数不多提前拿到正式版的体验者,还用它搓了几个小...