添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
不用再逐帧重训模型,也无需昂贵多机位拍摄。来自复旦大学、微软亚洲研究院、西安交通大学、腾讯公司提出的 StableAvatar,把"换脸+换装+换背景"做成一次建模、终身可编辑的无限时长 Avatar 生成框架,零样本、零重训、零幻觉,代码与模型已全面开源。
一句话看懂 StableAvatar
| 一次通用建模,终身 zero-shot 编辑 | ||
| 无限时长,ID/服装/背景三一致 | ||
| 单目视频+一张参考图 |
相关链接
代码:https://github.com/Francis-Rings/StableAvatar 论文:https://arxiv.org/pdf/2508.08248 模型:https://huggingface.co/FrancisRing/StableAvatar/tree/main
突破长视频生成瓶颈:StableAvatar开启音频驱动3D虚拟形象新时代 在当今数字化浪潮中,3D虚拟形象生成与视频合成技术正逐渐成为科技领域的焦点。从游戏娱乐到虚拟社交,再到影视制作,这些技术都有着广阔的应用前景。然而,现有的音频驱动虚拟形象视频生成方法却面临着诸多挑战,比如难以生成高质量的长视频、画面中的角色和场景容易出现失真和不一致等问题。不过,近期一款名为StableAvatar的创新技术为这一领域带来了新的曙光。
StableAvatar诞生背景
当前,扩散模型在音频驱动虚拟形象视频生成领域取得了一定进展,但现有的方法大多局限于生成短于15秒的视频。一旦尝试生成更长的视频,就会出现严重的身体扭曲和外观不一致现象,尤其是在面部区域。这不仅限制了技术的实际应用,也影响了用户体验。为了解决这些问题,StableAvatar应运而生,它致力于实现无限长度的高质量虚拟形象视频生成,无需后期处理。
方法概述
当前用于音频驱动的虚拟形象视频生成的扩散模型难以合成具有自然音频同步和身份一致性的长视频。StableAvatar是首个无需后处理即可合成无限长高质量视频的端到端视频扩散变换器。StableAvatar 基于参考图像和音频,集成了定制的训练和推理模块,从而实现无限长视频的生成。
我们发现,现有模型无法生成长视频的主要原因在于其音频建模。它们通常依赖第三方现成的音频提取器来获取音频嵌入,然后通过交叉注意力机制将其直接注入扩散模型。由于当前的扩散骨干网络缺乏任何与音频相关的先验信息,这种方法会导致视频片段中潜在分布误差的严重累积,进而导致后续片段的潜在分布逐渐偏离最优分布。为了解决这个问题,StableAvatar 引入了一种新颖的时步感知音频适配器,通过时步感知调制来防止误差累积。在推理过程中,我们提出了一种新颖的音频原生引导机制,利用扩散过程自身不断演化的联合音频-潜在信息预测作为动态引导信号,进一步增强音频同步性。为了提高无限长视频的平滑度,我们引入了一种动态加权滑动窗口策略,该策略融合了随时间变化的潜在信息。基准测试实验从定性和定量两个方面都验证了StableAvatar的有效性。
实验结果
| StableAvatar | |||
|---|---|---|---|
| 14.1 | |||
| 0.051 | |||
| 96.7% | |||
| 95.3% | |||
| ∞(实测 10 min+) |
用户研究:92% 受试者认为"换衣后仍是同一个人",显著优于基线。
应用场景
虚拟偶像与直播: 主播可以拥有一个在任何动作和表情下都"容颜不老"的完美数字替身。 影视与游戏角色制作: 快速生成高保真角色,无需担心不同镜头间的形象跳变,大幅降低后期修正成本。 视频会议与远程协作: 创建能精准反映用户表情和动作的虚拟形象,提升远程沟通的临场感。 个性化定制服务: 为用户提供稳定、高质的个人数字人定制,用于社交、娱乐等场景。
结语
当 Avatar 生成从"逐帧重训"进化到"码本即插即用",换衣就像换 PNG 图层。StableAvatar 用一次通用建模,把"身份-服装-背景"彻底解耦,零样本、无限时长、零重训,让每个人都能拥有"会动的透明 PNG"。
下一步,也许我们只需一句"今天我想穿宇航服跳街舞",AI 就能 30 秒生成 10 分钟 4K 大片——Avatar 编辑的 Photoshop 时代,正式到来。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论