NeoVerse是由中科院与CreateAI提出的多功能4D世界模型,基于100万段开放场景单目视频训练,支持无需姿态的前馈4D重建、新颖轨迹视频生成,并可无缝对接下游应用。该模型解决了传统方法依赖昂贵多视角数据或复杂预处理的问题,在标准重建与生成基准测试中达到SOTA性能,推理速度在单A800 GPU上可缩短至30秒内。
Tags:
当下众多"能动"AI 致力于将真实世界转化为可复用数字世界,希望模型能构建会动的 3D 世界并生成一致画面,但很多 4D 世界模型存在依赖昂贵采集或复杂预处理、难以大规模推广的问题,中科院和 CreateAI 推出的 NeoVerse 利用 100 万段开放场景单目视频大规模训练,开辟了构建可扩展 4D 世界模型的新路径。
相关链接
论文:https://arxiv.org/abs/2601.00393 源码:https://github.com/IamCreateAI/NeoVerse 链接:https://neoverse-4d.github.io/
论文介绍
论文提出了一种名为NeoVerse的多功能 4D 世界模型,它能够进行 4D 重建、生成新颖轨迹视频,并可应用于丰富的下游应用。我们首先指出当前 4D 世界建模方法普遍存在的可扩展性限制,这要么是由于昂贵且专门的多视角 4D 数据造成的,要么是由于繁琐的训练预处理造成的。
相比之下,NeoVerse 基于一种核心理念构建,使得整个流程能够扩展到各种真实场景的单目视频。具体而言,NeoVerse 具有无需姿态的前馈 4D 重建、在线单目退化模式模拟以及其他精心设计的技术。这些设计赋予了 NeoVerse 强大的通用性和泛化能力,使其能够应用于多个领域。同时,NeoVerse 在标准的重建和生成基准测试中取得了最先进的性能。
方法概述
NeoVerse框架。 在重建部分提出了一种无需姿态的前馈式4DGS重建模型,该模型采用双向运动建模。4DGS在不同视角下的退化渲染结果作为条件输入到生成模型中。在训练过程中,退化渲染条件通过单目视频模拟,而原始视频本身则作为目标。
实验结果
在具有挑战性的实拍视频中,利用大幅度的相机运动生成图像。我们将我们的方法与相关工作进行比较,分别针对"向左平移"(左图)和"向右移动"(右图)的情况。NeoVerse 方法在保持精确相机控制的同时,实现了更高的图像生成质量。黄色方框突出显示了伪影。
NeoVerse 可与功能强大的蒸馏 LoRa集成,从而实现不到 30 秒的快速推理速度。运行时评估在单个 A800 GPU 上进行。
结论
论文介绍了一种名为 NeoVerse 的 4D 世界模型,它克服了以往模型的关键可扩展性限制,构建了一个可扩展至真实单目视频的训练流程。因此,NeoVerse 的泛化能力和通用性因丰富的真实数据而显著增强,从而能够应用于各种下游应用。大量实验表明,NeoVerse 在重建和生成任务中均取得了最先进的性能。
局限性:NeoVerse 需要具有正确底层 3D 信息的数据。因此,它不能直接应用于缺乏 3D 信息的数据,例如 2D 卡通。由于训练资源的限制,我们精心整理的数据集(100 万个视频片段)规模并不大。我们为未来的工作保留了更多的数据。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论