AI I024: 一个提示词测试当下台词生成视频模型的能力，复刻初中课文朱自清《背影》名场面

2025年10月14日星期二

一个提示词测试当下台词生成视频模型的能力，复刻初中课文朱自清《背影》名场面

所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型，就是不再仅是生成无声视频，也不仅仅只有背景音，而是连人物说话的口型也匹配了，甚至还有环境音和背景音乐。（文末附各模型体验地址）

所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型，就是不再仅是生成无声视频，也不仅仅只有背景音，而是连人物说话的口型也匹配了，甚至还有环境音和背景音乐。最典型的就是Sora2、通义万相2.5以及最近的GaGa1，下面使用同一个提示词分别测试下他们的能力。（文末附各模型体验地址）

一个中年男人（父亲）带着黑布小帽，穿着黑布大马褂，深青色布棉袍，胖胖的身体，对着一个19岁的男青年（孩子）说话，两人坐在民国时期的火车上，面对面说话，火车停在车站。中年男人说："我买几个橘子去。你就在此地，不要走动。"，男青年说："嗯，好的"。说完话，中年男人站起来走出画面。背景有噪杂的人声和火车进站的汽笛声音。

这个提示词想复刻初中课文朱自清散文《背影》中买橘子的名场面，主要测试对口型、人物动作一致性以及背景音的生成，缺点就是少了情感表达，下面分别是各自的视频。

Sora2 文生视频

Sora2 图生视频

Sora2 强大之处就在于对提示词的遵从度和镜头的运用，真的像是"拍出来"的视频，缺点就是图生视频不支持写实的人物，所以图生视频使用的漫画风格的（确实侵权造假太容易了）

通义万相2.5 文生视频

通义万相2.5 图生视频

万相2.5对提示词的遵从其实也还行，而且背景音是最明显的，但还是偶尔还会有音画不同步的小问题（只张嘴不说话或重复同一句），另外乱配字幕的问题也比Sora要严重。

GaGa-1 图生视频

GaGa-1在口型匹配方面是没什么问题的，但是一涉及运动就天崩地裂了。。另外限制也是最多，只能支持16:9比例的图生视频，只拿来配个口型还是没什么问题。

Ovi 图生视频

Ovi是目前唯一一个开源的跨模态音视频生成模型，可惜的是对中文汉语的支持不行，但是基于wan2.2的能力视频流畅度方面还是不错的，搞英文视频的也可以拿来玩玩。

各个模型推荐体验地址：

Sora2文生视频（每日5次免费）：

https://www.runninghub.cn/post/1973569345718759425?inviteCode=3a31eec9

Sora2图生视频（每日5次免费）：

https://www.runninghub.cn/post/1973557947542450178?inviteCode=3a31eec9

>>>小程序体验Sora2

通义万象2.5（3次免费）：

https://www.liblib.art/ai-tool/video-generator

GaGa-1：

https://gaga.art/

AI I024

2025年10月14日星期二

一个提示词测试当下台词生成视频模型的能力，复刻初中课文朱自清《背影》名场面

所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型，就是不再仅是生成无声视频，也不仅仅只有背景音，而是连人物说话的口型也匹配了，甚至还有环境音和背景音乐。（文末附各模型体验地址）

没有评论:

发表评论

新SeaArt登顶全球AI创作社区，SeaVerse引领全模态创作新体验