字节开源数字人项目LatentSync1.5实测:
最近在研究数字人技术,测试了不少开源项目,今天给大家分享一个字节跳动开源的数字人项目——LatentSync1.5。实测效果相当不错,不仅支持本地部署推理,还能进行训练!废话不多说,直接上干货,文末还提供了一键安装包,方便大家快速体验。
LatentSync是一种基于音频条件潜在扩散模型的端到端唇部同步方法,相比传统方案,它无需中间运动表示,直接利用Stable Diffusion的强大能力建模视听相关性。简单来说,就是让数字人的嘴型和语音更自然、更同步。
利用VideoMAE-v2提取时序特征,通过对比学习约束生成序列的时间一致性,指标提升19%,让数字人动作更流畅。
在实验中发现,SyncNet在潜空间训练时存在收敛障碍(损失值停滞在0.69)。经过一系列优化后,StableSyncNet在HDTF数据集上实现了94%的唇同步准确率,超越原有SOTA(91%)!
在VoxCeleb2和HDTF数据集上的基准测试显示(20步DDIM采样推理):
对比其他SOTA方法(如ATVG、PC-AVS、Diff2Lip等):
start.bat
,自动弹出操作界面。
(文末附测试对比视频,你觉得哪个更好?欢迎留言讨论!)
公众号后台回复 【lts】,即可获取LatentSync1.5一键安装包。
进阶需求(如定制训练、高精度模型)可私信交流。
博主目前在做一些扣子工作流,需要的找我
工作流:使用扣子搞了一个自动生成公众号文章、自动排版、自动发布到公众号的mcp服务,这次运营公众号更简单了
目前工作流:
1、公众号文章生成发布工作流
2、小红书图文笔记仿写工作流
3、微信定时推送内容工作流
4、扣子爬取文章存入飞书工作流
5、历史视频一键创作工作流
6、生成读书视频工作流
持续更新中……..
没有评论:
发表评论