2025年4月22日星期二

新突破,3个火爆的AI项目,已开源!

Hello,大家好,我是 Jack,新的一周,AI 圈又是好消息连连。

就在昨天,两个重量级 AI 视频生成工具:Magi-1 和 SkyReels-V2 相继发布。

不得不说,AI 视频生成的赛道,真的卷到飞起。

与此同时,在音频领域,Nari Labs 今天刚推出了开源 TTS(文本转语音)模型 Dia-1.6B,能够生成带咳嗽声、笑声、嗅声和丰富情绪表达的高质量音频。

接下来,就让我们一起快速了解一下这三个最新的开源 AI 工具。

一、AI视频工具:Magi-1

Magi-1是首个具备高质量输出的自回归扩散视频模型,在主要基准测试中表现出色,目前已正式上线

Sand ai官网:

https://sand.ai/

我们先一起来看看Magi-1生成的视频的效果。

AI视频生成平台层出不穷,Magi-1的特别之处在哪?

  • 无限扩展能力:支持跨时间无缝讲故事。

  • 提供精确的时间控制:时间精度达到 1秒级,具备唯一的二级时间线控制功能,每一帧都可以被精准操控,有效解决了视频生成中的"慢动作"和"有限动态"问题。

  • 物理定律理解透彻:在 Physics-IQ 基准测试中排名第一。

更令人惊喜的是,Magi-1模型100% 开源,你可以在这里找到它的代码、预训练的权重和推理代码:

https://github.com/SandAI-org/MAGI-1

二、AI视频工具:SkyReels-V2

之前的AI视频工具(如Runway)常将生成视频长度限制在 10 秒内,这对用户想要创作出完整的故事非常不方便。

而现在 SkyReels-V2 支持用户直接从浏览器可以通过单个提示创建无限长度的视频。

项目开源地址:

https://github.com/SkyworkAI/SkyReels-V2

目前它也在 VBench 上拥有最高的开源分数(83.9%),优于Wan2.1、HunyuanVideo和OpenSora 2.0。

视频示例

它可以完成从脚本和故事板到语音、口型同步、音乐和完整电影视频的所有工作,强大得离谱。

例如,下面这个例子展示了使用 SkyReels-V2 将书面故事转换为电影故事板和场景,并且调整服装、声音和视觉效果以实现想要的效果。

如果 prompt 没有实现想要的视觉风格,你也可以通过上传具有一致外观、动作、灯光或动画的视觉对象来实现你个人定制的风格。

SkyReels-V2 的核心优势来自其"强制扩散架构",确保在延长视频长度时依然保持一致性和高质量。

看到 Magi-1 和 SkyReels-V2 的出现,电影导演梦真的越来越近了。网友评论:"期待5年内出现一部全 AI 制作的长片大片。"

三、AI 声音克隆:Dia-1.6B

Nari Labs 发布的 TTS 模型 Dia-1.6B,虽然参数量不大,但功能却异常强大。

这个模型最厉害的地方是增加了一些自然人声的生成,比如笑声、咳嗽、清喉咙声音等,能够复制现有语音,表达人物的情感,还能在大规模 GPU 上实时运行。

该模型也将在本周登陆 MLX Audio。

我们先一起来看看它的效果。

项目开源地址:

GitHub:

https://github.com/nari-labs/dia

Hugging Face:

https://huggingface.co/nari-labs/Dia-1.6B

更多的一些demo展示:

https://yummy-fir-7a4.notion.site/dia

好了,本期文章的内容就这么多,我们下期再见~

·················END·················

没有评论:

发表评论

GPT4o生成的烂自拍,反而比我们更真实。

真实是未经表演的存在。 我是没想到,GPT4o用一段小小的Prompt生成的一些图片,引发的热度浪潮。 能有这么长久,现在依然不断冒出着,各种创意。 我相信无数人都在社交平台里,刷到过这些图。 比如京东外卖跟美团外卖干架干的热火朝天。 但是强子跟兴哥,却穿着各自的工服,在上海...