2025年5月19日星期一

IJCAI25|多种二次元风格视频一键生成!B站开源动漫视频生成解决方案Index-AniSora

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yudong Jiang等

解读:AI生成未来

B站升级动画视频生成模型Index-AniSora技术并开源,支持番剧、国创、漫改动画、VTuber、动画PV、鬼畜动画等多种二次元风格视频镜头一键生成!

整个工作技术原理基于B站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被IJCAI25接收。

快戳地址:https://github.com/bilibili/Index-anisora/tree/main

动画视频生成涉及非真实物理定律的动作、夸张的人物表情以及强烈的艺术风格一致性。传统的视频生成模型,如Sora和CogVideoX,通常无法有效地处理这些特殊需求。AniSora提出了整套解决方案,帮助解决动画视频生成的难题!

通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于VLM模型进行了定向优化,使其更好地理解动漫语境与ACG审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。

图片

想了解更多的技术干货这篇文章带你一并解读,下面上Demo! 

1.高质量动画数据集

训练数据处理链路

我们通过高效的数据处理链路筛选高质量片段,包括如下模块:

  • 文本覆盖检测  (CRAFT算法)——剔除含字幕、水印的片段
  • 光流得分  (RAFT算法)——过滤静止或快速闪回画面
  • 美学评分  ——保留艺术表现力强的片段
  • 帧数控制  ——仅保留2-20秒的视频

最终筛选出10M得高质量视频片段进入训练阶段。此外,我们还动态调整数据比例(如说话、运动幅度等),进一步提升模型表现。

基准数据集搭建

为了公平对比不同模型的生成效果,我们手动构建了一个  基准动漫数据集  ,包含:

  • 948个视频片段  (857个2D + 91个3D)
  • 多样化动作标签  (说话、走路、跑步、打斗等)
  • 精准文本提示  (Qwen-VL2生成 + 人工校正)

2.基础算法:结合动画制作任务的定向优化

该方法以DiT模型为核心,融合了时空掩码模块,在统一框架下实现图生视频、插帧和局部图像引导动画等动画制作关键功能,有效提高专业动画制作效率。

DiT架构的视频生成模型通过3D Causal VAE实现时空数据的压缩,大幅减少计算量。随后,通过Patchify技术,将视频空间与时间分割成小块,降低了模型处理高维数据的复杂性。同时,3D全注意力机制让模型能够更好地捕获空间与时间的依赖关系。此外,为增强训练稳定性,采用了优化的扩散调度方法和v-prediction损失函数。

关键帧插帧 通过生成中间帧来创建在关键帧之间的平滑过渡。这是专业动画制作的一个重要阶段,也是艺术家最劳动密集型的任务之一。我们将这一概念扩展到以放置一个或者多个任意帧到视频序列里的任何位置为条件的视频生成。

图片

具体来说,在带掩码的扩散transformer框架中, 我们通过将VAE编码后的引导帧放在指定位置来构造引导特征序列,同时对所有其他位置设定。生成相应的掩码序列,其中对应引导帧位置,其他位置。通过重投影函数对掩码进行处理,得到了一个编码表达。最终输入到扩散transformer的是噪声、被编码的掩码、文本提示词的T5特征以及引导序列在特征维度上的级联:

图片

这个设定集成了特定位置的引导和掩码编码,增强了模型的条件生成能力。运动控制 作为我们框架内的一项技术,解决了基于文本控制的局限性,并实现了对运动区域的精确控制。这种方法增强了艺术家对视频内容的控制,使他们能够表达自己创造力的同时大大减少了工作量。

本框架还支持空间运动区域条件。给定图片条件,运动区域条件由与之形状相同的掩码,在中的可运动区域被标记为1,其他位置被设置为0。对于引导帧位置,设置。数据处理和训练方法可以概括如下:构造视频-掩码对,我们首先构造由视频及其相应掩码组成的成对训练数据。通过使用一个前景检测器,我们检测到视频首帧的前景区域。这个区域在后续帧中被继续跟踪,为每一帧生成一个前景掩码。前景掩码的并集,我们将每一帧的前景组合起来创建了一个统一掩码,代表了整个视频中所有前景区域的并集。潜在视频后处理,对视频潜在表达,将非运动区域设置为引导图片的潜在特征,形成静态区域确保遵循掩码。基于LoRA的条件训练,我们使用参数量为0.27B的低秩自适应(LoRA)训练条件引导模型。该方法显著降低了计算量需求,同时实现了高效的模型训练。

3.更加贴合人类审美的评估方法

采用一些通用视频生成的评测指标,并不能很好的评价视频生成的效果,例如我们采用Vbench下图所示:

图片

为了解决这个问题,我们制定了6个关键指标,用来对生成动画的效果进行衡量。基准测试集的每个案例都有来自不同参评模型生成的6个视频片段。由20名专家志愿者根据上述6个维度进行评分,评分范围为1到5分,其中5分表示最佳表现。为了构建与人类评分标准一致的评估模型,我们制作了一个用于训练的评估模型数据集。该数据集包含使用MiniMax、Vidu、OpenSora等多个模型生成的5000条动画视频片段。

Visual Smoothness

对于动漫视频的视觉平滑度评估,我们基于Mantis-8B-Idefics2模型,微调其视觉编码器,并在其后接入一个回归头,来让模型输出拟合人工打分结果。给定一个视频,我们的模型的平滑度评分机制如下

图片

其中,表示视频的第i帧,为视频的总帧数,表示视觉编码器,为回归头模块。

Visual Motion

我们基于 ActionCLIP构建了一个动作评分模型,用于评估动漫视频中主要人物的运动幅度。在模型训练过程中,我们设计了一系列动作提示语(motion prompts),用于引导模型学习不同运动幅度的语义表达。例如:

"主角在视频中有大幅度动作,如奔跑、跳跃、跳舞或挥手。" 
"主角在视频中保持静止,没有明显的动作。"  

最终,模型根据输入视频与预设动作提示语之间的余弦相似度,计算出动作评分:

图片

其中,表示动作模型,表示待评估的视频片段,表示设计好的动作提示语。

Visual Appeal

视觉吸引力用于评估生成视频的基础质量,侧重于其整体美学表现。以往研究通常采用在真实世界图像数据集上训练的美学评分模型来进行评估。然而,这类模型在应用于动漫视频时效果不佳,不同方法生成的视频在评分上差异不明显,难以体现真实的美学偏好差异。为了解决这一问题,我们首先从视频中提取关键帧,然后对它们进行编码,训练一个美学回归模型来学习人类对动漫图像的审美标准,从而更精准地评估其视觉吸引力。吸引力评分的计算公式如下所示:

图片

其中,表示关键帧,是提取的关键帧数量,为特征编码器,表示美学评分模型。

Text-Video Consistency

为了评估文本与视频的一致性,我们利用动漫文本-视频对,微调了视觉编码器与文本编码器,并在其上接入回归头,以学习文本与视频之间的语义对齐程度。文本-视频一致性分数的计算公式如下:

图片

其中,表示回归头,分别表示视觉编码器和文本编码器。模型通过联合文本提示与对应视频,学习它们之间的语义匹配关系。

Image-Video Consistency

在图像到视频生成任务中,生成视频应与输入图像尽量保持外观上的一致性。类似于文本-视频一致性的评估方法,我们微调了视觉编码器与回归头,对图像与视频之间的外观一致性进行建模评分:

图片

其中,表示待评估的视频片段,表示输入图像,为视觉编码器,为回归头。

Character Consistency

在动漫视频生成中,角色一致性是一个重要的因素。如果主角的身份和风格在视频中发生变化,即使视频质量较高,也可能存在侵权风险。因此,我们设计了一套系统性流程来评估角色一致性,流程包括:角色检测、分割与识别等多个阶段,该模型的框架如图2所示。具体而言,我们首先使用 GroundingDINO、SAM 以及追踪工具,对视频中的每一帧提取角色的掩膜(mask)。随后,我们使用 BLIP模型进行微调,以学习提取的人物掩膜与其对应的动漫角色(IP)之间的关联。

在推理阶段,我们通过计算生成视频中的动漫角色特征与角色库的对应特征之间的余弦相似度,来衡量角色在视频中的一致性。具体评分方式如下:

图片

其中,表示采样的角色帧数量,表示提取得到的第帧的角色掩膜,表示对应参考角色的特征表示。

图片

4.实验数据

从结果来看,我们的模型在大多数维度上优于其他五个方法,特别是在"视觉平滑度"和"角色一致性"方面表现突出。唯一略逊一筹的是"动作幅度"维度。这主要是因为我们对生成质量与动作幅度之间的平衡进行了严格评估,发现大幅动作的生成视频往往更容易出现失真或不自然的画面。

图片

下图展示了人工评估与Anisora自动化评测结果在六个维度上的相关性。从图中可以明显看出,两者之间具有高度一致性。

图片

为了进一步验证我们提出的基准测试在动画场景中的适用性,我们还使用 VBench 基准中的七个相关维度对数据集进行了评估。从结果中可以观察到,部分维度(如动作平滑度、美学质量、图生视频背景一致性和整体一致性)缺乏足够的区分能力,甚至有一些生成质量较差的结果得分高于真实样本,说明现有评测维度在捕捉人类主观感知方面仍存在一定差距。

图片

我们针对运动区域控制也进行了量化评估。评估基准的构建基于我们提出的基准数据集,对每一个初始帧采用显著性分割和连通域检测获取每个实例的包围框,然后从中挑选高质量的运动区域掩码,总共有200个样本。评估指标为运动掩码精度,即生成的视频运动像素在掩码区域内的占比。评估结果如下表,其验证了我们方法控制可动区域的有效性。

图片

此外,我们分析发现在我们的数据集中2D的样本占大多数,但是3D动画的生成质量各指标持续领先2D。这可能是因为3D动画也是基于物理引擎如UE等渲染的,遵循一致的物理规则,和基于真实世界数据的预训练模型更为接近,可以更好地在微调时知识迁移。 我们也在一个具有独特艺术风格的漫画上对多任务训练(混合图像和视频)进行了消融实验,发现即使训练时只有少量的该特定风格图像数据的加入,以该独特风格的引导图生成的视频结果也能在稳定性和视觉质量上有显著的提升。

5.可视化效果展示

时域条件控制(对应任务如视频插帧、扩写开头)

引导帧首帧
图片
尾帧
图片
生成的视频
图片

引导帧尾帧
图片
生成的视频
图片

运动空间条件控制

引导帧首帧
图片
运动掩码1
图片
生成的视频(带有掩码的可视化)
图片
运动掩码2
图片
生成的视频(带有掩码的可视化)
图片

运动强度控制

提示词
一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西
引导帧首帧
图片
正常强度
图片
大幅强度
图片

更多Demo效果,我们采用文章中构建的Benchmark模型作为Reward Function,搭建了整套强化学习框架,更好的对齐人类的审美感知。 

提示词
画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散
对齐前
图片
对齐后
图片

提示词
画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊
对齐前
图片
对齐后
图片

提示词
老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。
对齐前
图片
对齐后
图片

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

字节提出从单一主题发展到多主题定制的通用框架UNO,通过情境生成释放更多可控性。

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更 字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和...