AI I024: AI视频生成新突破！字节提出一致性视频生成方法Phantom：通过跨模态对齐生成主题一致的视频，超多应用场景。

2025年4月27日星期日

AI视频生成新突破！字节提出一致性视频生成方法Phantom：通过跨模态对齐生成主题一致的视频，超多应用场景。

Phantom 是一个统一的视频生成框架，适用于单主题和多主题参考，基于现有的文本转视频和图像转视频架构构建。

Phantom 是一个统一的视频生成框架，适用于单主题和多主题参考，基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本-图像注入模型，利用文本-图像-视频三元组数据实现跨模态对齐。此外，它在人物生成中强调主题一致性，同时增强了身份保留视频生成。

身份保护视频生成

使用面部参考图像生成主体视频。Phantom严格保留参考面部的身份，同时根据提供的提示生成生动的视频。

单参考主题到视频生成

使用单个参考图像生成主体视频。Phantom可以保持各种主体的完整性，包括物体、衣服、动物、虚拟角色等。

多参考主题到视频的生成

使用多个参考图像生成主体视频。Phantom可以实现多个主体之间的逼真互动，例如群体互动、产品演示、虚拟试穿等。

论文介绍

视频生成基础模型的不断发展演变，并应用于各种应用，而主题一致的视频生成仍处于探索阶段。这类人物称为"主题到视频"（Subject-to-Video），该方法从参考图像中提取主题元素，并按照文本指令生成主题一致的视频。作者认为"主题到视频"的精髓在于平衡文本和图像的双模态提示，从而深度同步地对齐文本和视觉内容。为此论文提出了Phantom，一个适用于单主题和多主题参考的统一视频生成框架。

基于现有的文本到视频和图像到视频架构，作者重新设计了联合文本-图像注入模型，并驱动其通过文本-图像-视频三元组数据学习跨模态对齐。该方法实现了高保真度的主题一致视频生成，同时解决了图像内容泄漏和多主题混淆的问题。评估结果表明，提出的方法优于其他最先进的闭源商业解决方案。特别地，该方法强调人类生成中的主题一致性，这涵盖了现有的身份保留视频生成，同时提供了增强的优势。