Hello,大家好,我是 Jack,新的一周,AI 圈又是好消息连连。
就在昨天,两个重量级 AI 视频生成工具:Magi-1 和 SkyReels-V2 相继发布。
不得不说,AI 视频生成的赛道,真的卷到飞起。
与此同时,在音频领域,Nari Labs 今天刚推出了开源 TTS(文本转语音)模型 Dia-1.6B,能够生成带咳嗽声、笑声、嗅声和丰富情绪表达的高质量音频。
接下来,就让我们一起快速了解一下这三个最新的开源 AI 工具。
一、AI视频工具:Magi-1
Magi-1是首个具备高质量输出的自回归扩散视频模型,在主要基准测试中表现出色,目前已正式上线
Sand ai官网:
https://sand.ai/
我们先一起来看看Magi-1生成的视频的效果。
AI视频生成平台层出不穷,Magi-1的特别之处在哪?
无限扩展能力:支持跨时间无缝讲故事。
提供精确的时间控制:时间精度达到 1秒级,具备唯一的二级时间线控制功能,每一帧都可以被精准操控,有效解决了视频生成中的"慢动作"和"有限动态"问题。
物理定律理解透彻:在 Physics-IQ 基准测试中排名第一。
更令人惊喜的是,Magi-1模型100% 开源,你可以在这里找到它的代码、预训练的权重和推理代码:
https://github.com/SandAI-org/MAGI-1
二、AI视频工具:SkyReels-V2
之前的AI视频工具(如Runway)常将生成视频长度限制在 10 秒内,这对用户想要创作出完整的故事非常不方便。
而现在 SkyReels-V2 支持用户直接从浏览器可以通过单个提示创建无限长度的视频。
项目开源地址:
https://github.com/SkyworkAI/SkyReels-V2
目前它也在 VBench 上拥有最高的开源分数(83.9%),优于Wan2.1、HunyuanVideo和OpenSora 2.0。
视频示例
它可以完成从脚本和故事板到语音、口型同步、音乐和完整电影视频的所有工作,强大得离谱。
例如,下面这个例子展示了使用 SkyReels-V2 将书面故事转换为电影故事板和场景,并且调整服装、声音和视觉效果以实现想要的效果。
如果 prompt 没有实现想要的视觉风格,你也可以通过上传具有一致外观、动作、灯光或动画的视觉对象来实现你个人定制的风格。
SkyReels-V2 的核心优势来自其"强制扩散架构",确保在延长视频长度时依然保持一致性和高质量。
看到 Magi-1 和 SkyReels-V2 的出现,电影导演梦真的越来越近了。网友评论:"期待5年内出现一部全 AI 制作的长片大片。"
三、AI 声音克隆:Dia-1.6B
Nari Labs 发布的 TTS 模型 Dia-1.6B,虽然参数量不大,但功能却异常强大。
这个模型最厉害的地方是增加了一些自然人声的生成,比如笑声、咳嗽、清喉咙声音等,能够复制现有语音,表达人物的情感,还能在大规模 GPU 上实时运行。
该模型也将在本周登陆 MLX Audio。
我们先一起来看看它的效果。
项目开源地址:
GitHub:
https://github.com/nari-labs/dia
Hugging Face:
https://huggingface.co/nari-labs/Dia-1.6B
更多的一些demo展示:
https://yummy-fir-7a4.notion.site/dia
好了,本期文章的内容就这么多,我们下期再见~
没有评论:
发表评论