点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
Stand-In 是一个轻量级、即插即用的框架,用于生成身份保护视频。与基础视频生成模型相比,我们仅训练1% 的额外参数,便在人脸相似度和自然度方面取得了最佳成果,超越了各种全参数训练方法。此外,Stand-In可以无缝集成到其他任务中,例如主体驱动的视频生成、姿势控制的视频生成、视频风格化和人脸交换。
身份保留的文本到视频生成
非人类主体保留视频生成
身份保留风格化视频生成
视频换脸
姿势引导视频生成
主要特点
高效训练:仅需训练1%基础模型参数。 高保真度:出色的身份一致性,同时不牺牲视频生成质量。 即插即用:轻松集成到现有的 T2V(文本到视频)模型中。 高度可扩展:兼容LoRA等社区模型,支持各种下游视频任务。
相关链接
论文:https://arxiv.org/pdf/2508.07901 主页:https://www.stand-in.tech/ 源码:https://github.com/WeChatCV/Stand-In 模型:https://huggingface.co/BowenXue/Stand-In ComfyUI:https://github.com/WeChatCV/Stand-In_Preprocessor_ComfyUI
论文介绍
在生成式人工智能领域,生成与用户指定身份匹配的高保真真人视频至关重要,但同时也极具挑战性。现有方法通常依赖过多的训练参数,并且与其他 AIGC 工具缺乏兼容性。
论文提出的 StandIn 是一个轻量级、即插即用的框架,用于视频生成中的身份保护。在预训练的视频生成模型中引入了一个条件图像分支。身份控制是通过带有条件位置映射的受限自注意力机制实现的,仅需 2000 对图像即可快速学习。尽管仅添加并训练了约 1% 的额外参数,该框架在视频质量和身份保护方面仍取得了优异的效果,优于其他全参数训练方法。此外该框架可以无缝集成到其他任务中,例如主体驱动的视频生成、姿势参考的视频生成、风格化和人脸交换。
方法概述
身份保留文本转视频生成框架的概述。 除了原始视频分支之外还引入了一个条件图像分支。给定条件图像,VAE 编码器将其映射到标记,这些标记与视频潜在标记连接在一起,然后发送到 DiT。在 DiT 块中,身份信息通过受限的自注意力机制被整合到视频特征中。
受限自注意力机制的设计: 对于输入的视频和图像 token 分别计算它们的查询、键和值矩阵。接下来将 3D RoPE 应用于查询和键矩阵。最后,图像矩阵独立运行,而视频查询则使用图像和视频键和值矩阵的串联来执行注意力机制。
实验结果
结论
Stand-In 是一个轻量级、即插即用的框架,用于生成高保真、身份保留的视频。在预训练的视频生成模型中引入了条件图像分支,并提出了一种基于条件位置编码的受限注意力机制,以实现跨分支信息交换。尽管该方法仅在 2,000 对的有限数据集上训练了模型 1% 的附加参数,但仍实现了高质量的视频生成,同时保持了高度的身份保真度。实验结果表明,Stand-In 在身份保留的文本转视频生成方面达到了最佳性能。此外,它在姿势引导视频生成、风格化和人脸交换等其他任务上也表现出色,证明了其强大的兼容性和广泛的应用潜力。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论