2025年4月22日星期二

新突破，3个火爆的AI项目，已开源！

Hello，大家好，我是 Jack，新的一周，AI 圈又是好消息连连。

就在昨天，两个重量级 AI 视频生成工具：Magi-1 和 SkyReels-V2 相继发布。

不得不说，AI 视频生成的赛道，真的卷到飞起。

与此同时，在音频领域，Nari Labs 今天刚推出了开源 TTS（文本转语音）模型 Dia-1.6B，能够生成带咳嗽声、笑声、嗅声和丰富情绪表达的高质量音频。

接下来，就让我们一起快速了解一下这三个最新的开源 AI 工具。

一、AI视频工具：Magi-1

Magi-1是首个具备高质量输出的自回归扩散视频模型，在主要基准测试中表现出色，目前已正式上线

Sand ai官网：

https://sand.ai/

我们先一起来看看Magi-1生成的视频的效果。

AI视频生成平台层出不穷，Magi-1的特别之处在哪？

无限扩展能力：支持跨时间无缝讲故事。
提供精确的时间控制：时间精度达到 1秒级，具备唯一的二级时间线控制功能，每一帧都可以被精准操控，有效解决了视频生成中的"慢动作"和"有限动态"问题。
物理定律理解透彻：在 Physics-IQ 基准测试中排名第一。

更令人惊喜的是，Magi-1模型100% 开源，你可以在这里找到它的代码、预训练的权重和推理代码：

https://github.com/SandAI-org/MAGI-1

二、AI视频工具：SkyReels-V2

之前的AI视频工具（如Runway）常将生成视频长度限制在 10 秒内，这对用户想要创作出完整的故事非常不方便。

而现在 SkyReels-V2 支持用户直接从浏览器可以通过单个提示创建无限长度的视频。

项目开源地址：

https://github.com/SkyworkAI/SkyReels-V2

目前它也在 VBench 上拥有最高的开源分数（83.9%），优于Wan2.1、HunyuanVideo和OpenSora 2.0。

视频示例

它可以完成从脚本和故事板到语音、口型同步、音乐和完整电影视频的所有工作，强大得离谱。

例如，下面这个例子展示了使用 SkyReels-V2 将书面故事转换为电影故事板和场景，并且调整服装、声音和视觉效果以实现想要的效果。

如果 prompt 没有实现想要的视觉风格，你也可以通过上传具有一致外观、动作、灯光或动画的视觉对象来实现你个人定制的风格。

SkyReels-V2 的核心优势来自其"强制扩散架构"，确保在延长视频长度时依然保持一致性和高质量。

看到 Magi-1 和 SkyReels-V2 的出现，电影导演梦真的越来越近了。网友评论："期待5年内出现一部全 AI 制作的长片大片。"

三、AI 声音克隆：Dia-1.6B

Nari Labs 发布的 TTS 模型 Dia-1.6B，虽然参数量不大，但功能却异常强大。

这个模型最厉害的地方是增加了一些自然人声的生成，比如笑声、咳嗽、清喉咙声音等，能够复制现有语音，表达人物的情感，还能在大规模 GPU 上实时运行。

该模型也将在本周登陆 MLX Audio。

我们先一起来看看它的效果。

项目开源地址：

GitHub：

https://github.com/nari-labs/dia

Hugging Face：

https://huggingface.co/nari-labs/Dia-1.6B

更多的一些demo展示：

https://yummy-fir-7a4.notion.site/dia

好了，本期文章的内容就这么多，我们下期再见~

·················END·················

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024