2025年8月31日星期日

微信出手即王炸!腾讯轻量级、即插即用视频生成框架Stand-In,1% 训练量秒变换脸大师,视频身份保护零门槛!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

Stand-In 是一个轻量级、即插即用的框架,用于生成身份保护视频。与基础视频生成模型相比,我们仅训练1% 的额外参数,便在人脸相似度和自然度方面取得了最佳成果,超越了各种全参数训练方法。此外,Stand-In可以无缝集成到其他任务中,例如主体驱动的视频生成、姿势控制的视频生成、视频风格化和人脸交换。

身份保留的文本到视频生成

图片

非人类主体保留视频生成

图片

身份保留风格化视频生成

图片

视频换脸

图片

姿势引导视频生成

图片

主要特点

  • 高效训练:仅需训练1%基础模型参数。
  • 高保真度:出色的身份一致性,同时不牺牲视频生成质量。
  • 即插即用:轻松集成到现有的 T2V(文本到视频)模型中。
  • 高度可扩展:兼容LoRA等社区模型,支持各种下游视频任务。
图片

相关链接

  • 论文:https://arxiv.org/pdf/2508.07901
  • 主页:https://www.stand-in.tech/
  • 源码:https://github.com/WeChatCV/Stand-In
  • 模型:https://huggingface.co/BowenXue/Stand-In
  • ComfyUI:https://github.com/WeChatCV/Stand-In_Preprocessor_ComfyUI

论文介绍

在生成式人工智能领域,生成与用户指定身份匹配的高保真真人视频至关重要,但同时也极具挑战性。现有方法通常依赖过多的训练参数,并且与其他 AIGC 工具缺乏兼容性。

论文提出的 StandIn 是一个轻量级、即插即用的框架,用于视频生成中的身份保护。在预训练的视频生成模型中引入了一个条件图像分支。身份控制是通过带有条件位置映射的受限自注意力机制实现的,仅需 2000 对图像即可快速学习。尽管仅添加并训练了约 1% 的额外参数,该框架在视频质量和身份保护方面仍取得了优异的效果,优于其他全参数训练方法。此外该框架可以无缝集成到其他任务中,例如主体驱动的视频生成、姿势参考的视频生成、风格化和人脸交换。

方法概述

图片身份保留文本转视频生成框架的概述。 除了原始视频分支之外还引入了一个条件图像分支。给定条件图像,VAE 编码器将其映射到标记,这些标记与视频潜在标记连接在一起,然后发送到 DiT。在 DiT 块中,身份信息通过受限的自注意力机制被整合到视频特征中。图片受限自注意力机制的设计: 对于输入的视频和图像 token 分别计算它们的查询、键和值矩阵。接下来将 3D RoPE 应用于查询和键矩阵。最后,图像矩阵独立运行,而视频查询则使用图像和视频键和值矩阵的串联来执行注意力机制。

实验结果

图片
图片
图片
图片

结论

Stand-In 是一个轻量级、即插即用的框架,用于生成高保真、身份保留的视频。在预训练的视频生成模型中引入了条件图像分支,并提出了一种基于条件位置编码的受限注意力机制,以实现跨分支信息交换。尽管该方法仅在 2,000 对的有限数据集上训练了模型 1% 的附加参数,但仍实现了高质量的视频生成,同时保持了高度的身份保真度。实验结果表明,Stand-In 在身份保留的文本转视频生成方面达到了最佳性能。此外,它在姿势引导视频生成、风格化和人脸交换等其他任务上也表现出色,证明了其强大的兼容性和广泛的应用潜力。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

UltraRAG 2。0 重磅开源:50 行代码,实现高性能 RAG!

检索增强生成系统(RAG)正从早期"检索+生成"的简单拼接,走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统(典型代表如 DeepResearch、Search-o1)。 但这种复杂度的提升,使开发者在方法复现、快速迭代新想法时,面临着高昂的工程实...