所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型,就是不再仅是生成无声视频,也不仅仅只有背景音,而是连人物说话的口型也匹配了,甚至还有环境音和背景音乐。(文末附各模型体验地址)
所谓的台词生成视频模型其实应该叫做全模态视觉生成大模型,就是不再仅是生成无声视频,也不仅仅只有背景音,而是连人物说话的口型也匹配了,甚至还有环境音和背景音乐。最典型的就是Sora2、通义万相2.5以及最近的GaGa1,下面使用同一个提示词分别测试下他们的能力。(文末附各模型体验地址)
一个中年男人(父亲)带着黑布小帽,穿着黑布大马褂,深青色布棉袍,胖胖的身体,对着一个19岁的男青年(孩子)说话,两人坐在民国时期的火车上,面对面说话,火车停在车站。中年男人说:"我买几个橘子去。你就在此地,不要走动。",男青年说:"嗯,好的"。说完话,中年男人站起来走出画面。背景有噪杂的人声和火车进站的汽笛声音。
这个提示词想复刻初中课文朱自清散文《背影》中买橘子的名场面,主要测试对口型、人物动作一致性以及背景音的生成,缺点就是少了情感表达,下面分别是各自的视频。
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
Sora2 强大之处就在于对提示词的遵从度和镜头的运用,真的像是"拍出来"的视频,缺点就是图生视频不支持写实的人物,所以图生视频使用的漫画风格的(确实侵权造假太容易了)
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
万相2.5对提示词的遵从其实也还行,而且背景音是最明显的,但还是偶尔还会有音画不同步的小问题(只张嘴不说话或重复同一句),另外乱配字幕的问题也比Sora要严重。
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
GaGa-1在口型匹配方面是没什么问题的,但是一涉及运动就天崩地裂了。。另外限制也是最多,只能支持16:9比例的图生视频,只拿来配个口型还是没什么问题。
继续观看 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 , 一个提示词测试当下台词生成视频模型的能力,复刻初中课文朱自清《背影》名场面 |
|
Ovi是目前唯一一个开源的跨模态音视频生成模型,可惜的是对中文汉语的支持不行,但是基于wan2.2的能力视频流畅度方面还是不错的,搞英文视频的也可以拿来玩玩。Sora2文生视频(每日5次免费):
https://www.runninghub.cn/post/1973569345718759425?inviteCode=3a31eec9
Sora2图生视频(每日5次免费):
https://www.runninghub.cn/post/1973557947542450178?inviteCode=3a31eec9
https://www.liblib.art/ai-tool/video-generator
https://gaga.art/
没有评论:
发表评论