2025年9月21日星期日

Wan2。2-Animate-14B开源!地表最强开源角色动画模型媲美商用 : 表情动作1 :1完美复制!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Tongyi Lab

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2509.14055 
Git链接:https://humanaigc.github.io/wan-animate/

亮点直击

  • 任务统一与创新输入范式:Wan-Animate创新性地将角色动画角色替换两大任务统一到同一个框架下。
  • 解耦的 holistic 控制策略:方案的核心亮点在于将控制信号解耦为身体(通过精确的骨骼关键点) 和面部(通过保留细节的隐式面部特征) 两部分,实现了对角色动作和表情既精确又富有表现力的整体控制。
  • 专为环境集成设计的Relighting技术:针对角色替换任务中的环境融合难题,没有采用复杂的端到端训练,而是巧妙地开发了一个辅助的Relighting LoRA模块
  • 基于先进架构的高性能:基于强大的Wan-I2V (DiT) 基础模型构建,最终性能达到了可与商业产品竞争的SOTA水平。

总结速览

效果一览

更多效果见:https://humanaigc.github.io/wan-animate/
  1. 解决的问题

    • 缺乏一个统一、 holistic(整体) 的解决方案,能够同时高质量地控制角色动画的动作、表情和环境交互
    • 现有开源方案性能不足:基于UNet的方案效果落后于当前最佳水平;基于DiT的方案则侧重于动作控制,忽略了富有表现力的面部表情的同步复制。
    • 缺乏专门用于角色替换(将动画角色无缝集成到原视频环境中)的开源方法,现有视频生成方法在该任务上存在一致性和可用性问题。
  2. 提出的方案

    • 身体动作:采用空间对齐的骨骼关键点信号,通过添加到初始噪声潜变量中来注入。
    • 面部表情:直接使用参考视频中的原始面部图像作为驱动信号,将其编码为潜向量以分离表情和身份信息,并通过交叉注意力机制注入。
    • 提出了一个名为 Wan-Animate 的统一框架,用于角色动画角色替换
    • 核心基础:基于Wan-I2V视频生成模型进行后训练(post-training)并增强控制条件。
    • 输入范式:修改了输入定义,使用一种符号化表示来区分参考条件和生成区域,统一了参考图像注入、时序帧引导以及模式选择(全帧生成/角色替换),并最大程度减少分布偏移。
    • 控制信号解耦
    • 环境集成:为角色替换任务专门开发了一个辅助的Relighting LoRA模块,在保持角色外观一致性的同时,应用环境的光照和色调,实现无缝集成。
  3. 应用的技术

    • 基础模型:基于Diffusion Transformer (DiT) 架构的Wan-I2V模型。
    • 控制技术:结合了显式控制(骨骼关键点)和隐式控制(通过编码器提取面部特征)。
    • 注入方式:综合使用了噪声潜变量加法(用于空间对齐的骨骼信号)和交叉注意力机制(用于时序的面部表情潜向量)。
    • 微调技术:采用LoRA(Low-Rank Adaptation)技术来高效训练辅助的重新打光模块,而不改变基础模型的主权重。
  4. 达到的效果

    • 高保真度:能够生成高质量、逼真的角色视频,精确复制参考视频中的表情和动作。
    • 卓越的一致性:在角色替换任务中,能实现角色与环境的光照和色调无缝融合
    • 强大的泛化性:能够泛化到各种类人角色,并在肖像、半身、全身等多种场景下表现出强大的鲁棒性。
    • 竞争力:其效果甚至可与一些闭源的商业产品相竞争。
    • 开源承诺:承诺将开源模型权重和完整代码,以促进社区发展和技术应用。

模型设计与架构

任务定义

Wan-Animate具有两个核心功能:动画模式(Animation Mode)和替换模式(Replacement Mode)。在动画模式中,源图像中的角色根据参考视频中角色的动作进行动画化,同时保留源图像中的背景。此过程类似于图像到视频(Image-to-Video, I2V)合成任务。在替换模式中,源图像中的角色由相同的参考动作驱动,但随后被集成到参考视频的环境中。这有效地替换了原始主体,该任务对应于视频到视频(Video-to-Video, V2V)转换。两种模式的共同目标是精确复制参考角色的动作和面部表情。关键区别在于最终视频背景的来源:在动画模式中,背景源自源图像;而在替换模式中,背景继承自参考视频。Wan-Animate将两种模式统一在一个联合训练的模型中,但重新打光LoRA(Relighting LoRA)是替换模式特有的。通过对输入格式进行微小调整,模型可以生成所需模式的输出。整体架构如下图2所示。

图片

输入形式化

Wan-Animate利用Wan-I2V作为其基础架构。Wan-I2V的输入包括三个组成部分:噪声潜变量(noise latent)、条件潜变量(conditional latent)和二进制掩码(binary mask)。由于I2V任务定义为从给定图像(作为第一帧)生成视频,因此条件潜变量是通过将给定图像与沿时间维度填充零的帧连接起来构建的。二进制掩码与条件潜变量具有相同的空间和时间维度,其值为1表示保留帧,0表示要生成的帧。对于I2V,只有第一帧的掩码设置为1。然而,角色图像动画对输入范式提出了不同的要求。首先,与I2V设置中图像作为起始帧不同,我们的任务要求角色图像充当一致的外观参考。生成视频的内容由驱动信号决定,而不是从角色图像本身开始。其次,为了实现任意长度的动画,后续片段的生成必须以前一片段的最后几帧为条件。这提供了时间指导并确保了连续性,便于生成长视频。第三,我们的目标是通过兼容的表示将动画模式和替换模式统一到单个模型中,从而减少冗余的训练工作。因此,为了适应这些独特的需求,Wan-Animate在原始Wan-I2V公式的基础上引入了一种修改的输入范式。

参考形式化。 给定一个参考角色图像,我们首先使用Wan-VAE将其编码为一个专用的参考潜变量(reference latent)。为了充分利用Wan模型中预训练的帧间一致性能力,参考潜变量与条件潜变量沿时间维度连接(二进制掩码设置为1)。这种连接是注入角色外观的主要机制。为了适应长视频合成所需的时间指导,我们从目标序列中随机选择前几个潜变量作为时间潜变量(temporal latents)。对于这些选定的潜变量,它们对应的真实值(ground-truth values)被用作条件潜变量,并且相关的二进制掩码在整个帧上设置为1。这使得模型能够在这些时间帧的指导下生成时间连贯的视频。我们采用一种概率训练策略,即时间潜变量仅以一定概率被使用。这种方法确保了模型学会在不同的条件输入之间平衡其生成能力。值得注意的是,去噪过程会生成一个完整的输出序列,包括参考部分。随后,将丢弃与这些参考相对应的结果帧。

环境形式化。 在动画模式中,对应于目标帧的条件帧是零填充的(zero-filled),并且它们相关的二进制掩码完全设置为0。因此,Wan-Animate在保留给定参考图像背景的同时生成角色视频,此过程类似于标准的I2V模式。在替换模式中,我们首先从参考视频中分割出角色。遵循Hu等人的掩码公式策略,我们随后通过将分割出的主体区域置零来生成环境图像(environment images)。该环境图像用作条件帧的内容。相应地,环境区域的二进制掩码设置为1,主体区域设置为0。因此,Wan-Animate仅在掩码置零的区域内生成内容,从而保留了参考视频的原始背景。

Wan-Animate的输入范式虽然针对新任务进行了调整,但从根本上继承了Wan-I2V的核心理念。这种设计巧妙地满足了角色动画的各种条件需求,并支持双重生成模式。这种适应性使得模型能够在后训练期间快速有效地进行微调,从而获得强大的实证结果。

控制信号

身体控制。 先前的研究已经证明了空间对齐信号在指导人体视频生成方面的有效性。就当前的技术方法而言,主要有两种类型的身体控制信号:基于2D骨架的表示和来自3D SMPL的渲染图像。基于骨架的方法提供了更好的通用性,特别是对于具有非常规形状的非人形角色,表现出更强的鲁棒性。然而,由于空间模糊性,它在表示复杂运动方面面临挑战,并且容易受到关键点缺失或错误等问题的影响。相反,SMPL作为一种3D信号,可以更准确地表示复杂姿势中的肢体间关系,但可能缺乏对末端部位位置的精确性,并且对非人角色的捕捉能力较差。此外,渲染的SMPL图像包含角色的形状信息。这可能导致模型依赖于运动信号中嵌入的形状线索,从而使身份一致性的学习复杂化,尤其是在SMPL形状不准确的情况下。本文采用基于骨架的表示进行身体控制,因为它能更好地满足大多数主流用例的需求。在实现中,使用VitPose提取目标帧中角色的骨架以生成姿势帧。在本文设计的身体适配器(Body Adapter)中,这些姿势帧由Wan-VAE压缩,以在空间和时间上与目标潜变量对齐。我们使用一个投影层(projection layer)将姿势潜变量分块化(patchify),并将它们添加到分块化的噪声潜变量中。关键的是,参考潜变量不注入姿势信息。这一设计选择旨在从时间上区分参考潜变量和目标潜变量。

面部控制。 一种直接的方法是使用面部标志点(facial landmarks)作为空间对齐信号来驱动面部动画,类似于身体控制。然而,这种方法在标志点提取过程中会丢失细粒度细节,难以完全复制参考视频中角色的表现力。此外,作为密集信号,面部标志点要求高精度;否则,它们会严重损害身份一致性,尤其是在涉及显著面部形状差异的跨身份场景中。相反,我们避免使用手动定义的面部信号,而是直接使用原始面部图像作为驱动输入。在训练期间,我们利用角色的骨骼信息从驱动图像中定位并裁剪出面部区域。由于我们的训练是自监督的,因此在提取面部特征时将身份信息与表情信息分离至关重要。这可以防止模型使用身份线索来指导生成,否则可能导致身份泄漏(identity leakage)。我们采用两种主要策略来应对这一挑战:1)我们将面部图像在空间上压缩成一维潜变量(1D latent),这减少了低级、特定身份信息的存储。2)在训练期间,我们对面部图像应用一系列数据增强,包括缩放(scaling)、颜色抖动(color jittering)和随机噪声(random noise)。这在增强后的面部和目标面部之间引入了人为的差异,阻止模型对身份特征过拟合。

在架构上,在面部适配器(Face Adapter)中,采用与Wang等人相同的编码器结构从每个面部图像中提取特征。我们还采用线性运动分解(Linear Motion Decomposition)来正交化这些特征,这有助于更好地分离表情信息。输入的面部图像被调整为512 × 512大小,并且每一帧都被压缩成一个潜向量(latent vector)。如下图3所示,使用一堆一维因果卷积层(1D causal convolutional layers)在时间上对面部潜变量进行下采样,使其序列长度与噪声潜变量的序列长度对齐。然后,将对齐后的面部潜变量注入到Transformer内专用的"面部块(Face Blocks)"中。特征融合通过时间对齐的交叉注意力机制(temporally-aligned cross-attention mechanism)实现,其中注意力计算被限制在每个时间步的相应标记(tokens)集合上。为了减少计算负载,我们选择仅将面部信息注入到DiT网络的特定层中。根据经验,我们在40层的Wan-14B模型中每5层执行一次注入,总共产生8个注入层。

图片

重新打光LORA

保持角色的外观是角色图像动画的一个关键特征。然而,在执行角色替换时,由于角色和环境源自不同的来源,出现了一个挑战。严格保持外观一致性会导致动画角色的光照和色调与新环境的光照和色调不匹配,从而损害最终结果的真实感。因此,对于替换模式,我们引入了一个辅助的重新打光LoRA(Relighting LoRA)。该模块允许在替换过程中进一步调整角色的光照和色调,使其能够适应新环境。重新打光LoRA仅应用于DiT块内的自注意力(self-attention)和交叉注意力(cross-attention)层。为了训练这个LoRA,我们构建了特定的数据对。对于从视频片段中采样的参考图像,我们首先从原始图像中分割并裁剪出角色。然后使用IC-Light将角色合成到一个新的随机背景上。如下图4所示,利用IC-Light的能力,角色的光照和色调受到新背景的影响,从而与原始视频序列产生差异。这个新合成的图像随后被用作参考,使得重新打光LoRA能够学习执行光照和颜色调整的能力。当增强重新打光LoRA后,Wan-Animate可以为被替换的角色产生更好的环境融合效果,同时保留其身份。

图片

训练

Wan-Animate的训练过程分为以下几个阶段:

身体控制训练。 首先专注于为动画模式训练模型。在此阶段,条件限制仅限于身体控制信号,没有面部信号注入。目标是让模型快速学习我们修改后的输入范式(即参考图像和时间图像的特定配置),并掌握与身体控制信号的对齐。

面部控制训练。 引入面部信号注入。在第一阶段模型的基础上,集成了面部适配器(Face Adapter)和面部块(Face Block)模块。为了加速训练,使用Wang等人的预训练编码器权重来初始化其部分参数。此阶段主要利用肖像数据,因为面部运动是此类视频中的主导动态,允许集中学习表情驱动的动画。我们还使用面部标志点来识别头部、眼睛和嘴巴区域,对这些区域应用更高的损失权重以增强其保真度。

联合控制训练。 将第二阶段的面部适配器和面部块模块与第一阶段训练的主模型结合起来,并在完整数据集上执行联合控制训练。我们的实验表明,独立的面部模块已经具备强大的表情驱动能力,使得完整模型能够快速收敛。

联合模式训练。 调整训练数据以同时包含动画模式和替换模式的格式。鉴于模型已具备的动画能力以及我们的输入公式与Wan-I2V预训练的兼容性,这一过渡异常平滑。

重新打光LORA训练。 通过应用重新打光LoRA,专门为替换模式训练重新打光能力。

推理

姿势重定向。 在推理过程中,所提供的图像和参考视频中的角色通常具有不同的身份。由于骨骼比例和相对大小的差异,对于动画模式,对从参考视频中提取的骨架执行姿势重定向(pose retargeting)。这包括计算两个角色之间每个对应肢体的长度比率,并调整目标姿势的骨骼长度以匹配源图像中的角色。此外,对姿势进行平移以与图像中角色的位置对齐。此平移的参考点由镜头的取景决定(例如,全身为脚部,半身或肖像为颈部)。我们将开源我们重定向管道的简化版本。由于我们使用2D骨架,角色的姿势会影响计算骨骼长度的准确性。为了缓解这个问题,我们提供了一个辅助解决方案。具体来说,我们使用图像编辑模型将参考图像和驱动图像中的角色编辑成标准的T姿势(T-pose)。然后基于这些编辑后的T姿势图像的骨骼长度来计算缩放因子。在大多数场景中,这种方法可以实现更准确的重定向。在替换模式中,鉴于角色可能与环境有特定的交互,我们旨在避免破坏这些关系。因此,不建议在角色替换期间使用姿势重定向。然而,这给某些用例带来了限制,例如替换具有显著身体形状差异的角色,这可能会导致一些变形。

长视频。 对于长视频生成,采用迭代生成方法。对于第一个片段,仅连接参考潜变量和噪声潜变量。生成该片段的视频结果后,我们选择其最后几帧作为后续片段的时间指导。然后,所有后续片段的生成都涉及参考潜变量、时间潜变量和新的噪声潜变量的连接。基于实际使用情况,通常使用一个或两个潜变量作为时间指导,分别对应1或5帧。每个片段的去噪过程完成后,丢弃与参考潜变量和时间指导潜变量相对应的部分。然后将剩余生成的内容连接起来形成最终的长视频。

实现

数据构建

本文收集了一个以人为中心的大型视频数据集,涵盖了说话、面部表情和身体运动等活动。实施了与通用视频生成所需类似的质量度量。为了确保训练期间的身份一致性,验证了每个视频片段仅包含一个一致的角色。我们提取了每个角色的骨架信息,这具有双重目的:首先,作为运动信号注释;其次,作为基于角色行为过滤视频的标准。对于角色替换任务,我们使用注释的骨架来跟踪角色,然后使用SAM2提取相应的角色掩码。此外,我使用QwenVL2.5-72B模型为每个视频生成文本描述,以支持Wan的后训练需求。虽然Wan-Animate支持一定程度的文本控制,但运动信号是主导控制因素,使得文本控制成为一个非核心功能。在实践中,我们建议使用默认文本提示。

并行策略

本文的训练过程涉及加载多个模型:DiT、T5、VAE和CLIP。对于内存密集型模型DiT和T5,采用全共享数据并行(Fully Sharded Data Parallelism, FSDP)来减少每个GPU的内存占用。其余模型使用标准数据并行(Data Parallelism, DP)进行训练。特别对于DiT模型,还利用了一种上下文并行(Context Parallelism)方案,该方案结合了RingAttention和Ulysses来实现并行训练。这种方法进一步减少了内存消耗并加速了训练速度。对于面部适配器(Face Adapter)内逐帧的面部特征提取,我们通过将单个视频片段中的面部帧视为一个批次并进行并发处理,在每个Ulysses组内并行化计算。

细节

Wan-Animate支持任意输出分辨率。在动画模式中,输出宽高比符合输入角色图像的宽高比。在替换模式中,它符合参考视频的宽高比。最终推理分辨率根据分块化(patchify)后的视频标记(tokens)总数确定。例如,我们首先基于像1280 × 720这样的标准分辨率计算一个目标标记数。然后,对于给定的宽高比,我们选择产生最接近此目标的标记数的分辨率。每个推理片段由78帧组成。一帧被静态保留用于角色图像。在剩余的77帧中,对于除第一个片段之外的任何片段,使用1或5帧作为时间参考帧,这些帧源自前一片段的末尾。为了保持高推理效率,默认禁用无分类器指导(classifier-free guidance, CFG)。然而,在需要对面部表情进行更精细控制的场景中,可以选择性地对面部条件输入启用CFG以调整重演效果。

实验

定量评估

与几种主流的开源角色动画框架进行了定量比较。为了便于更全面的评估,建立了自己的基准进行定量评估。测试数据集包含各种场景下的人体主体视频,具有不同的角色尺度和动作。对于评估,采用了一项自重建任务:视频的第一帧用作参考图像,然后模型使用后续帧中的运动信号重建视频。我们采用了几个广泛使用的定量指标,包括SSIM、LPIPS和FVD。此外,从测试数据中划分出一个仅包含肖像的子集,以与专门的面部动画方法进行单独的定量比较。大多数现有的开源框架建立在较早的基于UNet的基础模型之上,这在生成质量方面存在某些缺陷,特别是在人体真实感、局部细节和时间平滑度方面。虽然最近基于DiT的开源工作提高了性能基线,但它们通常在全面性方面存在局限(例如,身体驱动模型缺乏有效的表情重演,表情驱动模型不包含身体,并且缺乏对多样角色类型和尺度的支持)。相比之下,Wan-Animate的表现优于这些当前的开源工作,是迄今为止最全面、性能最高的开源模型。

图片

人工评估

目前,在功能和性能上与Wan-Animate最相似的解决方案主要是闭源的:Runway的Act-two和字节跳动的DreamActor-M1。与现有的开源替代方案相比,这两种专有解决方案代表了业界角色动画的SOTA水平。将Wan-Animate与这两种方法进行比较以证明其优越性。由于当结果质量高时,传统的定量重建指标可能无法准确反映感知差异,采用跨ID动画设置并进行用户研究来进行此比较。我们评估集中的每个数据对包含一个驱动视频和一个不同的角色图像。生成结果后,我们邀请了20名参与者进行主观评估。具体来说,以匿名方式并排呈现两个生成的视频(一个来自Wan-Animate,一个来自竞争方法),并要求参与者选择他们更喜欢的结果。他们的偏好基于对视频生成质量、整体身份一致性、动作准确性和表情准确性的综合考虑。用户研究的结果如下图5所示,清楚地表明Wan-Animate取得了优越的结果。我们相信,Wan-Animate的开源将提高该领域开源模型的性能基线,为这项技术的应用和长期发展做出贡献。

图片

定性评估

本节对结果进行视觉比较。

动画模式。 将Wan-Animate与Animate Anyone、VACE、Runway Act-two和Dreamactor-M1进行比较。从下图6可以看出:由于其基础模型的限制,Animate Anyone表现出明显较低的生成质量。VACE作为一个通用的可控视频生成模型,在角色动画任务中表现出不稳定性。Runway Act-two在捕捉相对复杂的运动方面存在显著困难。DreamActor-M1在局部细节和整体图像保真度上往往质量稍低。相比之下,Wan-Animate整体上表现出更全面和稳定的性能。

图片

替换模式。 将Wan-Animate与Animate Anyone 2和VACE进行比较。如下图7所示:Animate Anyone 2也存在生成质量不足的问题,同样可能源于其基础模型。VACE存在身份一致性问题。此外,其通用性使其高度依赖于参数调优,导致入门门槛较高。相比之下,Wan-Animate更加用户友好,并且在角色替换方面表现更好。

图片

消融研究

面部适配器训练的消融研究。 训练方案采用渐进式流程:首先训练身体控制,然后是面部表情,最后联合训练它们。此过程在每个阶段涉及特定的数据使用和训练技术。该方案对面部适配器的收敛非常有益。为了验证其有效性,我们进行了一项消融研究。比较的基线是从一开始就在所有数据上联合训练整个控制模块。结果如下图8所示。在基线实验中,表情驱动不准确,并且模型难以正确收敛。认为这是因为身体运动更复杂;先学习对齐身体有助于后续学习表情。此外,由于在典型数据中面部通常只占帧的一小部分,而在肖像数据上面部突出,因此在该数据上训练表情模块显著加速了其收敛。

图片

重新打光LORA的效果。 在替换模式中,在专门构建的数据上训练重新打光LoRA,以在光照和色调方面实现角色与环境的更好集成。进行了一项消融研究以验证其效果。下图9显示了使用和不使用重新打光LoRA的结果比较。可以看出,没有LoRA时,生成视频中角色的光照和色调与参考图像保持高度一致。然而,当集成到新环境中时,这可能显得不协调。因此,重新打光LoRA在角色动画任务强一致性要求的基础上增加了一定程度的灵活适应性。使用重新打光LoRA后,角色与环境的融合变得更加真实和和谐。关键的是,这是在未破坏角色感知身份的情况下实现的。

图片

更多定性结果

下图10展示了Wan-Animate生成的各种结果,证明了其广泛的潜在应用。表演重演: Wan-Animate允许指定人物精确复制源视频中角色的表演,从而能够重现经典表演场景。 
跨风格迁移: 该模型可以稳健地将真实人物的表演迁移到各种类型的角色上,这对电影制作和动画非常有益。 
复杂运动合成: Wan-Animate可以复制舞蹈套路和其他特殊动作,为短篇娱乐视频的内容创作提供便利。 
动态摄像机运动: 该模型可以生成包含摄像机运动的角色动作,显示了其在广告制作中的价值。 
角色替换: 此外,Wan-Animate强大的角色替换能力促进了诸如重新构想影视剧场景或编辑商业摄影和广告中的角色等应用。

图片

结论

Wan-Animate,一种用于角色动画和替换的最先进方法。Wan-Animate支持两个核心功能:

  • 角色动画: 给定参考视频和角色图像,它用视频中的动作驱动角色图像以生成新动画。
  • 角色替换: 给定参考视频和角色图像,它用新角色替换视频中的角色。 设计了一种修改的输入范式,统一了这些多样的输入形式,使训练过程更高效。Wan-Animate实现了对面部表情和身体运动的精确重演。对于信号注入,解耦了运动和表情。运动信号通过空间对齐融合与输入噪声潜变量集成,而表情信号则使用从面部图像提取的隐式特征通过注意力机制注入。此外,对于角色替换,设计了一个辅助LoRA模块,使模型能够更好地实现角色与新环境之间的光照和色调一致性。Wan-Animate的性能超越了当前开源和闭源算法。

参考文献

[1] WAN-ANIMATE: UNIFIED CHARACTER ANIMATION AND REPLACEMENT WITH HOLISTIC REPLICATION

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

AI图片生成视频(WAN2。2-14B-Rapid-AllInOne)工具V1。1,无限时长,速度快支持批量,解压即用!

一 、下载 进入小程序里有。 二 、更新记录 V1.1版本:2025-9-18 1、新增无限时长功能。 V1.0版本:2025-9-6 1、基于WAN2.2-14B-Rapid-AllInOne项目的V10模型,支持图生视频,支持批量,速度很快。 自2016年起,我的公众号已...