2025年10月14日星期二

一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面

所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型,就是不再仅是生成无声视频,也不仅仅只有背景音,而是连人物说话的口型也匹配了,甚至还有环境音和背景音乐。(文末附各模型体验地址)

所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型,就是不再仅是生成无声视频,也不仅仅只有背景音,而是连人物说话的口型也匹配了,甚至还有环境音和背景音乐。最典型的就是Sora2、通义万相2.5以及最近的GaGa1,下面使用同一个提示词分别测试下他们的能力。(文末附各模型体验地址

一个中年男人(父亲)带着黑布小帽,穿着黑布大马褂,深青色布棉袍,胖胖的身体,对着一个19岁的男青年(孩子)说话,两人坐在民国时期的火车上,面对面说话,火车停在车站。中年男人说:"我买几个橘子去。你就在此地,不要走动。",男青年说:"嗯,好的"。说完话,中年男人站起来走出画面。背景有噪杂的人声和火车进站的汽笛声音。

这个提示词想复刻初中课文朱自清散文《背影》中买橘子的名场面,主要测试对口型、人物动作一致性以及背景音的生成,缺点就是少了情感表达,下面分别是各自的视频。

Sora2 文生视频

Sora2 图生视频
Sora2 强大之处就在于对提示词的遵从度和镜头的运用,真的像是"拍出来"的视频,缺点就是图生视频不支持写实的人物,所以图生视频使用的漫画风格的(确实侵权造假太容易了)

通义万相2.5 文生视频

通义万相2.5 图生视频
万相2.5对提示词的遵从其实也还行,而且背景音是最明显的,但还是偶尔还会有音画不同步的小问题(只张嘴不说话或重复同一句),另外乱配字幕的问题也比Sora要严重。

GaGa-1 图生视频
GaGa-1在口型匹配方面是没什么问题的,但是一涉及运动就天崩地裂了。。另外限制也是最多,只能支持16:9比例的图生视频,只拿来配个口型还是没什么问题。

Ovi 图生视频
Ovi是目前唯一一个开源的跨模态音视频生成模型,可惜的是对中文汉语的支持不行,但是基于wan2.2的能力视频流畅度方面还是不错的,搞英文视频的也可以拿来玩玩。

各个模型推荐体验地址:

Sora2文生视频(每日5次免费):

https://www.runninghub.cn/post/1973569345718759425?inviteCode=3a31eec9

Sora2图生视频(每日5次免费)

https://www.runninghub.cn/post/1973557947542450178?inviteCode=3a31eec9

>>>小程序体验Sora2
通义万象2.5(3次免费):

https://www.liblib.art/ai-tool/video-generator

GaGa-1:

https://gaga.art/

没有评论:

发表评论

字节提出X-Streamer:引领多模态智能响应潮流,打造跨文本、语音、视频的实时数字人!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球! 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 扫描下方二维码,加入AIGC Studio知识星球 ! 可以获得 最新AI前沿应用/ AIGC实践教程 / ...