AI I024: 首个零延迟永生AI视频诞生！实时魔法注入，让你的世界无限想象！Karpathy投资站台

不知道为什么让我想起《刀剑神域：序列之争》

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

转载自：机器之心

如有侵权，联系删稿

一觉起来世界已经进化成这样了?

每个人都能懂点魔法，能够随意穿梭在各个平行时空和幻想世界里。

读者朋友们看到这说不定撇撇嘴，「这不就是 AI 视频吗？」

但如果加上两个关键词，这将成为 AI 视频生成领域革命性的突破！

就在昨天，Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD！

输入任何视频流，无论是相机或视频聊天、电脑屏幕还是游戏，MirageLSD 都能在 40 毫秒延迟以内将其转化为你想要的任何世界。

这一切都看上去不可思议，AI 视频已经能够实现和滤镜一样的应用方式，实时智能调整画面风格和画面内容，并且能够通过文本提示任意地进行控制。

实时视频魔法

解锁全新应用可能

前特斯拉 AI 总监，OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象：

将摄像头画面变为 "另一个世界"。
自导自演实时电影：拿起道具、演绎场景，AI 负责实时布景和风格化，秒看回放，边演边剪。
游戏开发轻松起步：用简单的球体 / 方块编码游戏机制，再用实时扩散模型为游戏生成精美贴图。
任意视频流的风格迁移：例如：只需一句提示词就能让《上古卷轴》看起来 "更史诗"，让《毁灭战士 2》拥有现代虚幻引擎画质。
视频会议背景和实时虚拟试衣。
AR 眼镜升级：实时将现实世界卡通化。
哈利波特的「厄里斯魔镜」：现实中看似普通的镜子，实际上会显示出 AI 根据你 "深层欲望" 生成的理想自己或世界。

Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人，在他看来这项技术通用且强大。

也许这些都只是开始，真正的 "杀手级应用" 还没被发现 —— 这个领域值得无限想象！

这一切让我想起了「刀剑神域」，似乎覆盖现实世界的幻想画面真的要实现了？

Decart 也展示了一些构想的演示，充分满足了各种可能：

比如在沙漠里滑雪？

比如可以花上 30 分钟写个游戏代码，然后让 Mirage 处理图形？

Decart 推文中笑称，使用 Mirage「从提示词制作 GTA VII，比 GTA VI 发售还快。」

目前 Mirage 已正式上线，与其观看屏幕上的魔法，不如亲手创造魔法。

Decart 将持续发布模型升级和新功能，包括面部一致性、语音控制和精确物体操控等。与此同时，平台还将上线一系列新特性 —— 如流媒体支持（以任意角色进行直播）、游戏集成、视频通话等功能。

体验链接：https://mirage.decart.ai/

魔法背后

MirageLSD技术原理

MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破，基于定制的模型 —— 实时流扩散（Live Stream Diffusion，LSD），该模型能够逐帧生成并保持时间连贯性。

在视频时长方面，先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。

在生成延时方面，它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统，通常也是分块生成视频，从而引入不可避免的延迟，完全无法实现交互应用。

无限长视频生成

MirageLSD 是第一个能够生成无限长视频的视频生成模型。

由于模型的自回归特性，会导致误差逐步累积，从而限制输出的长度。

为了实现无限自回归生成：

MirageLSD 基于 Diffusion Forcing 技术，实现逐帧去噪；
我们引入历史增强方法，在训练中对输入历史帧进行扰动，使模型学会预判并纠正输入中的伪影，从而增强其对自回归生成中常见偏移的鲁棒性；

这两者结合，使 LSD 成为第一个能够无限生成视频而不会崩溃的模型 —— 稳定、可提示，并始终与场景和用户输入保持一致。

零延时视频生成

响应性是指最坏情况下的响应延迟，即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上，导致实时交互无法实现。

实时生成要求每帧的生成时间控制在 40 毫秒以内，以避免被人眼察觉。我们通过以下方式实现这一目标：

设计定制的 CUDA mega kernels，以最小化开销并最大化吞吐；
基于 shortcut distillation 和模型剪枝技术，减少每帧所需的计算量；
优化模型架构，使其与 GPU 硬件高度对齐，实现效率最大化。

通过上述技术，我们在响应速度上相较于以往模型提升了 16 倍，实现了以 24 帧 / 秒的速率实时生成视频。

扩散模型与 LSD

扩散模型通过一系列逐步去噪操作，将随机噪声逐渐还原为图像或视频。在视频生成中，这通常意味着一次性生成固定长度的视频片段，这有助于保持时间一致性，但会带来延迟。一些系统尝试通过所谓的 "自回归生成" 方式，逐段顺序生成帧片段，以提高灵活性。然而，这种方式仍需在每一段帧生成完毕后才能响应新的输入，限制了交互性和实时应用的能力。

LSD 采用了不同的方法。它一次生成一帧，使用因果性的自回归结构，每一帧都依赖于此前生成的帧以及用户提示。这种方式支持即时反馈、零延迟交互，并且可以持续生成视频，无需预先设定终点。

在每一个时间步，模型会接收一组过去生成的帧、当前输入帧以及用户定义的提示词，然后预测下一帧输出，该帧会立即作为输入传递到下一轮生成中。

这种因果反馈机制使 LSD 能够保持时间上的一致性，持续适应画面中的动作与内容变化，并在实时遵循用户提示的同时，生成无限长度的视频序列。

此外，它还使 LSD 能够对输入作出即时响应 —— 无论是文本提示还是视频内容的变化 —— 实现真正的零延迟。这正是实时编辑与转换成为可能的关键。

技术缺陷与改进方向

首先，当前系统依赖于有限的历史帧窗口。引入更长期的记忆机制有望提升长序列中的连贯性，从而在角色身份、场景布局和长期动作等方面实现更一致的表现。

此外，尽管 MirageLSD 支持基于文本的风格变换，但对于特定物体、空间区域或动作的精细控制仍较为有限。若能整合关键点或场景标注等结构化控制信号，将有助于在实时环境中实现更细粒度、用户可控的编辑操作。

在语义一致性和几何稳定性方面，特别是在面对极端风格变换时，仍需进一步优化。MirageLSD 在极端风格变化下，可能会出现物体结构或布局被扭曲的情况。

更多相关技术信息，请参阅 Decart 的技术介绍：

文章链接：https://about.decart.ai/publications/mirage

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年7月20日星期日

首个零延迟永生AI视频诞生！实时魔法注入，让你的世界无限想象！Karpathy投资站台

不知道为什么让我想起《刀剑神域：序列之争》

致谢

技术交流

没有评论:

发表评论

Alibaba's Qwen-Image 2512 Turbo ： Generate 4 2K Images in 5 Seconds, 40x Faster。