2025年9月4日星期四

图片数字人:对话唱歌都很自然,文末一键包,还有comfyui一键包

最近发现一款不错的图片数字人项目,提供图片和一段语音就可以生成数字人视频,当然音频也可以是音乐。

     最近发现一款不错的图片数字人项目,提供图片和一段语音就可以生成数字人视频,当然音频也可以是音乐。应对音乐口型很自然,感觉自媒体又可以多一个赛道了,废话不多说,直接上干货,不喜欢细节的直接文末一键包。
老规矩先看效果
项目简介
由阿里巴巴通义实验室(Tongyi Lab)提出的一种名为WAN-S2V的音频驱动的电影级视频生成模型。该模型旨在解决现有音频驱动角色动画方法在复杂影视制作中的不足,如细腻的角色互动、逼真的身体动作和动态摄像工作等。通过结合最新的DiT(Diffusion Transformer)基础模型和精心设计的数据采集、模型训练和推理策略,WAN-S2V在电影场景中实现了显著增强的表现力和真实性。
总述
  • 得益于扩散模型的发展,音频驱动的人体视频生成取得了显著进展,从基于UNet的文本到图像模型发展到最新的DiT基文本到视频模型,视觉生成质量大幅提升。

  • 现有研究的局限性:当前研究主要集中在单场景或多角色场景下的音频驱动模型,但在复杂的影视制作场景中仍面临挑战,如如何通过音频控制角色动作的同时保持与整体场景的一致性和协调性,以及如何通过音频和提示共同管理人物互动。

  • 研究重点:本文主要关注音频驱动人类生成在复杂场景中的应用,如影视制作,旨在通过全面的数据采集、稳健的模型训练和巧妙有效的推理策略来提高音频驱动生成的有效性。

模型架构

  • 模型构建:利用最新的Wan文本到视频基础模型构建音频驱动模型,旨在集成音频驱动能力同时保留其固有的文本控制。

  • 训练数据:利用Qwen-VL的视频理解能力进行详细的文本描述,特别是关于角色运动的描述。为了支持复杂场景的生成,如影视制作,从现有的开源数据集和内部收集的说话和唱歌角色视频数据集中整理了综合训练数据集。

  • 训练策略:为了避免仅训练部分网络参数导致的文本和音频控制冲突,假设更大的模型容量更有利于学习更好的和谐文本和音频控制。为此,采用了结合FSDP和Context Parallel的混合训练策略,显著加速了训练过程。此外,还采用了多阶段训练方案,包括音频处理模块的预训练、整个数据集的全面预训练和高质量数据的微调。


一键包测试
给大家找了个一键包,可以直接使用
下载后点击 【程序运行.bat】弹出界面如下:
图片
上传一张图片和一点音频,音频可以自己剪辑一下,页面提供剪辑
图片
如图,注意几个地方
1、可以直接点击【根据图片调整宽高】,生成视频会自适应图片
2、参考音频长度计算【总帧数】,如图计算公式
3、根据自己电脑调整【块交换】,如果现存不够可以调大这个值
作者是4080+32G内存,跑32秒的音频,跑了一个小时,大家可以试试自己的显卡,评论区留言说说用时。
一键包中还提供了comfyui的一键启动包,点击【运行ComfyUI.bat】,会自动弹出,
图片
可以直接在comfyui中使用,也可以做成服务接口去调用,输入如下
图片
两种使用方式效果一样,哈哈,赶紧测试起来吧
需要一键包的,关注后私信回复【s2v】可以获取
大模型感兴趣的可以进群交流,已在群的就不要进了,我会定时清理

图片
#文生图#数字人#图生图#Nano#banana#图像编辑#s2v#wan2.2
历史优秀文章
高端简单的图像编辑工具:Nano的多图融合与图像编辑实测,国内可用
qwen-image-edit保持一致性真不错,图片编辑很灵活,文末一键包
工作流:使用扣子搞了一个自动生成公众号文章、自动排版、自动发布到公众号的mcp服务,这次运营公众号更简单了
工作流:逐步拆解视频生成工作流,基于扣子空间,这次运营制作自媒体视频更简单了,保姆教程
工作流:基于扣子一键仿写小红书笔记,图文并茂,直接发布,保姆教程给到你

自动发布小红书笔记,保姆教程来了

一键包:数字人heygem,无需docker,下载即用


没有评论:

发表评论

推荐 5 个 GitHub 上 yyds 的开源游戏。

01 卡通城市建造模拟器 在一个色彩明快、充满卡通趣味的 2.5D 世界里,你可以 自由地规划和建设属于自己的独特城市。 这就是  CubeCity ,一个基于  Three.js 和 Vue  开发的轻量级开源城市模拟建造游戏。 开源地址: https : //github...