AI I024: 一个简单的参赛项目带你体验最新最火的开源模型：Qwen-lmage图像编辑和 Infinitetalk最强对口型数字人

真的想说现在的开源模型完全不输闭源的了，国内的阿里就撑起了半壁江山，作为一个开源拥趸真的有点小骄傲了~

好久没更新过了，主要这段时间也比较忙，另外时断时续的更新公众号这流量少的也实在没啥动力。今天写的动力在于最近的开源模型实在是太出彩了，另外也是借机推下RunningHub平台（一直比较抗拒割韭菜的行为，但通过推广平台来获点小利还是比较能接受的）。

虽然很久不写公众号，但是AI方面还是一直在关注，而且这几个月也基本天天在RunningHub玩各种最新的工作流。RunningHub最大的优势就在于对ComfyUI的更新是最及时的，很多开源项目上线后基本上都是当天或第二天就可以在上面玩了，也不用担心显存不够、更新报错的问题，而且会员也不贵，每天还有免费积分，只是尝试玩玩免费都够了~

国内版：

https://www.runninghub.cn/?inviteCode=3a31eec9

海外版：

https://www.runninghub.ai/?inviteCode=rh-v1228

海外版的注册有1000积分（国内的是500），昨天开始平台生成的视频也开始打AI标识了，9月1号实施的《人工智能生成合成内容标识办法》下估计国内的所有平台都不能幸免，如果在意标识的话可以考虑转战海外平台了~

好了，开始今天的正式分享，这周开始Comfy开始举办全球挑战赛，第一期主题：转身（Turn It Around!）。给了一张图片和一张深度图，完成自己的创意。于是我也就做了一个很简单的案例，为大家分享下近期非常值得一用的一些模型和工作流，下面是成品。

首先第一步让他转过身来，方法一种是用提示词和图生视频的方法，通过抽卡来实现。另种方法就是先生成转身的图，然后通过首尾帧来实现。这种方法相对比较稳定，如是我就先使用 Qwen-Image Edit 工作流获得转身后的图片。

Qwen-Image Edit 工作流：https://www.runninghub.cn/post/1957744551257632769?inviteCode=3a31eec9

然后第二步生成转身视频，使用的是Wan2.2的首尾帧工作流，这个是目前测试的相当稳定流畅的首尾帧，尤其做一些片头动画效果相当不错，是完全可以媲美闭源模型的。

Wan2.2 首尾帧工作流：

https://www.runninghub.cn/post/1952174631509766145?inviteCode=3a31eec9

第三步对口型唱歌，这就不得不推荐目前效果最强的InfiniteTalk，曾经的最强王者是即梦的大师对口型，InfiniteTalk的综合能力真的可以说是吊打闭源模型了。可以生成时长超长的视频，可以使用图片制作图片口播数字人，可以使用视频实现类似HeyGem视频数字人，甚至可以使用动作和运镜。案例中最后唱歌的部分就是使用的图片对口型来唱歌。另外附带一个使用参考视频的案例。

InfiniteTalk图片对口型工作流：https://www.runninghub.cn/post/1958842154426773505?inviteCode=3a31eec9

InfiniteTalk视频对口型工作流：https://www.runninghub.cn/post/1958411235454828545?inviteCode=3a31eec9

另外转过身来之后，打算先做一个自我介绍，尝试用IndexTTS克隆唱歌的音色（歌曲Suno生成的），但是IndexTTS克隆歌曲原生效果不太好，尝试了下剪映自带的克隆功能，效果还能稍强一点。如果你是克隆音色来对口型就可以使用下面的工作流

InfiniteTalk+IndexTTS 数字人工作流：https://www.runninghub.cn/post/1957975687470661633?inviteCode=3a31eec9

要获得完全一致的视频，可以考虑先在剪映中把转身动作和唱歌部分的视频和音频先合成一下，然后用InfiniteTalk的视频参考再跑一遍，一个小技巧是，前面转身的时候不说话，就可以把前面声音部分空出来，对口型的时候就是从开始说话的时候对了，但是视频参考的一个缺点是会降低一些分辨率，我这个案例就懒得前面部分没有使用对口型~下面是转身、说话、唱歌一致性的演示。

因为参赛作品控制在20秒以内，所以唱歌就选了两句，当然也不指望这么简单的创意能有啥获奖的机会，只是用这么简单的一个案例体现了目前开源生态的发展，真的想说现在的开源模型完全不输闭源的了，国内的阿里就撑起了半壁江山，作为一个开源拥趸真的有点小骄傲了~

AI I024

2025年8月23日星期六

一个简单的参赛项目带你体验最新最火的开源模型：Qwen-lmage图像编辑和 Infinitetalk最强对口型数字人

真的想说现在的开源模型完全不输闭源的了，国内的阿里就撑起了半壁江山，作为一个开源拥趸真的有点小骄傲了~

没有评论:

发表评论

国庆这8天，我发现和AI辩论才是最高效的学习方式。