腾讯提出了一个多模态定制视频生成框架HunyuanCustom,该框架强调主题一致性,同时支持图像、音频、视
腾讯提出了一个多模态定制视频生成框架HunyuanCustom,该框架强调主题一致性,同时支持图像、音频、视频和文本条件。基于HunyuanVideo,该模型首先通过引入基于LLaVA的文本图像融合模块来增强多模态理解,以及利用时间连接来增强跨帧身份特征的图像ID增强模块,从而解决了图像文本条件生成任务。
单主题视频定制
一致性故事生成
与最先进的方法的比较
多主题视频定制
多主题定制
音频驱动的视频定制
HunyuanCustom 首次实现了音频驱动的人物自定义功能,角色会在带有文字描述的场景中朗读相应的音频,从而实现更加灵活可控的音频驱动人物动画。
视频驱动的视频定制
基于主题定制,HunyuanCustom 还支持使用视频作为输入,替换或添加指定的对象。具体来说,给定一段包含指定动作和环境的视频,再给定一张包含指定 ID 信息的图片,HunyuanCustom 可以将视频中的指定对象替换为图片中指定的 ID。
相关链接
• 论文: https://arxiv.org/pdf/2505.04512 • 项目: https://hunyuancustom.github.io/ • 代码: https://github.com/Tencent/HunyuanCustom • 体验: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
论文介绍
定制视频生成旨在在用户灵活定义的条件下生成以特定主题为特色的视频,但现有方法往往难以应对身份一致性和有限的输入模态。论文提出了 HunyuanCustom,这是一个多模态定制视频生成框架,它强调主题一致性,同时支持图像、音频、视频和文本条件。
基于 HunyuanVideo,模型首先解决了图文条件生成任务,引入了一个基于 LLaVA 的文本-图像融合模块,以增强多模态理解;以及一个图像 ID 增强模块,利用时间串联来增强跨帧的身份特征。为了实现音频和视频条件生成,我们进一步提出了特定于模态的条件注入机制:一个 AudioNet 模块,通过空间交叉注意力机制实现分层对齐;以及一个视频驱动注入模块,通过基于 patchify 的特征对齐网络集成潜在压缩的条件视频。在单主题和多主题场景下进行的大量实验表明,HunyuanCustom 在身份一致性、真实感和文本-视频对齐方面显著优于最先进的开源和闭源方法。此外,论文还验证了其在下游任务(包括音频和视频驱动的定制视频生成)中的稳健性。结果凸显了多模态条件反射和身份保持策略在推进可控视频生成方面的有效性。
基于浑元视频生成框架,提出了一个以主体一致性为中心的多模态、条件可控的生成模型——浑元定制 (HunyuanCustom)。该模型能够生成以文本、图像、音频和视频为条件、主体一致性的视频。具体而言,浑元定制引入了基于 LLaVA 的图文融合模块,以促进图像与文本的交互,从而将图像中的身份信息有效地融入文本描述中。此外,我们还提出了一个图像身份增强模块,该模块沿时间轴串联图像信息,并利用视频模型高效的时间建模能力,增强整个视频中的主体身份。为了支持音频和视频的条件注入,浑元定制为每个模态设计了不同的注入机制,并与身份条件模块有效分离。浑元定制最终实现了对图像、音频和视频条件的解耦控制,在以主体为中心的多模态视频生成中展现出巨大的潜力。
实验结果
结论
论文提出了一种新颖的多模态定制视频生成模型 HunyuanCustom,该模型解决了主题一致性视频生成的关键挑战,并实现了以身份为中心的多模态视频定制。通过将图像、音频和视频模态与文本驱动的调节机制相结合,HunyuanCustom 提供了一个强大的框架,用于生成具有精确身份一致性的高质量视频。模型集成了文本-图像融合模块、图像 ID 增强模块以及高效的音频和视频特征注入流程,确保生成的视频符合用户的特定需求,兼具高保真度和灵活性。通过大量实验证明了 HunyuanCustom 在单主题和多主题生成、音频驱动和视频驱动的视频定制等各种任务中均优于现有方法。结果显示,HunyuanCustom 在 ID 一致性、真实性和视频文本对齐方面表现出色,使其成为可控视频定制的领先解决方案。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论