今天给大家介绍的是哔哩哔哩献给二次元世界的礼物——Index‑AniSora,目前最强大的开源动漫视频生成模型
今天给大家介绍的是哔哩哔哩献给二次元世界的礼物——Index‑AniSora,目前最强大的开源动漫视频生成模型。它支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等!目前该论文已被 IJCAI 2025 录用!
AniSora V1.0
基于 CogVideoX‑5B 基础模型训练,完整训练与推理代码开源 支持 局部区域控制、时间控制(首帧/尾帧/关键帧插帧、多帧引导) 可在 RTX 4090 上经济部署 覆盖 80 % 应用场景
AniSora V2.0
基于升级后的 Wan2.1‑14B 基础模型,稳定性更佳 蒸馏加速推理,无损画质,更快更省 原生支持华为 Ascend 910B NPU(全流程国产芯片训练) 高质量镜头生成,覆盖 90 % 应用场景
相关链接
论文:https://arxiv.org/html/2412.10255v2 代码:https://github.com/bilibili/Index-anisora 模型:https://huggingface.co/IndexTeam/Index-anisora
论文介绍
动画内容在当今影视行业中备受关注。 尽管 Sora、Kling、CogVideoX 等先进模型在自然视频生成方面表现出色,但在动漫视频上仍捉襟见肘。 此外,由于动漫独特的艺术风格、夸张的运动以及对物理规律的打破,也给评测带来了巨大挑战。
论文提出了完整的系统 AniSora,涵盖:
数据处理流水线:超过 1000 万高质量数据; 可控生成模型:引入时空掩码模块,支持图生视频、帧插值、局部图像引导等关键动画制作功能; 评测数据集:收集 948 段多样化动画视频,配套双盲人评实验及 VBench 测试,人物一致性与运动一致性均达到 SOTA。
方法概述
主要特点:
搭建了完整的视频处理系统,显著提升生成前的数据预处理效率; 提出统一的时空掩码框架,用于动漫视频生成,可同时处理图生视频、帧插值、局部引导等任务; 发布面向动漫视频生成的专用基准数据集。
该图展示了用于动画视频生成的 Masked Diffusion Transformer 框架,旨在支持各种时空调节方法,以实现精确灵活的动画控制。3D 因果 VAE 将时空特征压缩为潜在表示,生成引导特征序列 G,而重投影网络构建掩码序列 M。这些组件与噪声和提示符特征相结合,作为 Diffusion Transformer 的输入。该 Transformer 采用 patchify、3D-RoPE 嵌入和 3D 全注意力机制等技术,有效捕捉时空依赖关系。该框架无缝集成了关键帧插值、运动控制和中间帧扩展,简化了动画制作并增强了创作可能性。
案例展示
不同艺术风格的图生视频
时间控制示例
空间控制示例
评测结果
VBench 结果
AniSora 基准结果
结论
论文提出的统一框架 AniSora 为克服动画视频生成中的挑战提供了解决方案。该数据处理流程生成了超过 1000 万个高质量的训练片段,为模型奠定了坚实的基础。利用时空掩码,生成模型可以根据不同的控制条件创建视频。此外,提出的评估基准证明了该方法在角色一致性和运动流畅度方面的有效性。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论