如您有工作需要分享,欢迎联系:aigc_to_future
作者:Zhaoxi Chen等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2508.13154
项目链接:https://4dnex.github.io/
亮点直击
4DNeX,首个用于图像到 4D 生成的前馈框架,能够从单张图像生成动态点云; 构建了 4DNeX-10M,一个具有高质量 4D 标注的大规模数据集; 引入了一套简单但有效的微调策略,用于将预训练的视频扩散模型适配到 4D 生成任务中。
总结速览
解决的问题
现有的 4D(动态 3D)场景生成方法普遍依赖计算密集型的优化过程或多帧视频输入,导致效率低、泛化能力差,且难以从单张图像生成高质量的动态场景表示。与此同时,4D 数据的稀缺也限制了模型的训练与应用。
提出的方案
本文提出了4DNeX,这是首个能够从单张图像生成动态 3D 场景的前馈式框架。该方法通过微调预训练的视频扩散模型,实现高效的图像到 4D 的端到端生成流程,无需复杂优化或多帧输入。
应用的技术
4DNeX-10M 数据集:构建了一个包含高质量 4D 标注的大规模数据集,用于支持模型训练; 统一的 6D 视频表示:将 RGB(外观)与 XYZ(几何)序列联合建模,促进结构化学习; 适配策略:设计了一套简单有效的微调方法,将预训练的视频扩散模型重构为适用于 4D 生成任务的模型。
达到的效果
实现了从单张图像生成高质量动态点云的能力; 支持新视角的视频合成,具备良好的可扩展性; 在效率与泛化能力方面超越现有 4D 生成方法; 为生成式 4D 世界模型的研究与应用奠定了基础,可模拟动态场景的演化过程。
4DNEX-10M
为了解决 4D 生成建模中的数据稀缺问题,引入了4DNeX-10M,这是一个专为训练前馈式 4D 生成模型设计的大规模混合数据集。该数据集聚合了来自公共来源和内部流程的视频,涵盖静态和动态场景。所有数据都经过严格的筛选、伪标注和质量评估,以确保几何一致性、运动多样性和视觉真实感。如下图 2 所示,本文提出的数据集包含高度多样化的场景,包括室内和室外环境、远景和近景、高速场景、静态场景以及包含人类的情境。此外,4DNeX-10M 还涵盖了各种光照条件和丰富的人类活动。
同时,本文提供了这些对应场景的精确 4D 点图(pointmaps)和相机轨迹。总体而言,4DNeX-10M 包含超过 920 万帧带有伪标注的视频帧。关于数据整理,如下图 3 所示,本文使用一个包含多个阶段的自动获取与筛选流程来构建该数据集:
数据清洗; 数据描述生成; 3D/4D 标注。
数据预处理
4DNeX-10M 的基础建立在多个数据集之上,每个数据集都贡献了不同的场景特征和运动类型。
数据来源 本文从多个来源收集单目视频。DL3DV-10K(DL3DV)和 RealEstate10K(RE10K)提供了具有多样化相机轨迹的静态室内和室外视频。Pexels 数据集提供了大量以人为中心的素材视频,并附带辅助元数据,如运动信息、OCR 和光流。Vimeo 数据集选自 Vchitect 2.0,包含真实环境下的动态场景。来自 Vbench 的合成数据包含使用视频扩散模型(VDM)生成的动态序列。
初步筛选 对于像 Pexels 这样的大规模来源,本文应用元数据筛选,包括光流、运动和 OCR,以剔除不符合要求的视频,例如运动模糊严重或文字过多的视频。对于所有数据源,本文还基于平均亮度()进行亮度筛选,去除光照极端的视频。
视频描述生成 对于没有文本标注的数据集(例如 DL3DV-10K 和 RE-10K),本文使用 LLaVA-Next-Video 生成描述。本文从每个视频(或片段)中均匀采样 32 帧,并将其输入 LLaVA-NeXT-Video-7B-Qwen2 模型,使用提示词:
"Please provide a concise description of the video, focusing on the main subjects and the background scenes."
对于内容一致的场景(如 DL3DV-10K、Dynamic Replica),本文为每个视频生成一个描述。对于 RealEstate10K,本文将每个视频拆分为多个片段并分别生成描述。
静态数据处理
为了学习强几何先验,本文从 DL3DV-10K 和 RE-10K 中整理了静态单目视频。这些视频覆盖了包括住宅、街道、商店和地标在内的各种环境,并通过多样的相机轨迹提供了丰富的多视角信息。
伪 3D 标注 由于这些数据集缺乏 3D 真值,本文使用 DUSt3R(一种立体重建模型)生成伪点图。对于每个视频,本文对所有视角对应用 DUSt3R 构建视图图(view graph),然后按照原论文的方法进行全局融合,以恢复一致的场景级 3D 结构。
质量筛选 为了确保高质量的标注,本文使用 DUSt3R 的置信图定义了两个指标:
1)平均置信值(MCV),即在所有帧上对像素级置信分数取平均;
2)高置信像素比例(HCPR),表示超过阈值 的像素所占比例。
本文针对每个指标选取排名前 的片段,最终保留超过 10 万个高质量的 28 帧片段,用于静态训练,这些片段具有可靠的伪点图标注。
动态数据处理
为了丰富 4DNeX-10M 的动态内容,本文从 Pexels、VDM 和 Vimeo 收集了单目视频。这些数据集包含具有运动和深度变化的多样化真实场景,但缺乏几何真值。
伪 4D 标注 本文使用 MonST3R 和 MegaSaM 这两种先进的动态重建模型生成伪 4D 标注。这些模型能够从单目视频中恢复时间一致的三维点云和全局对齐的相机位姿,从而构建随时间变化的场景表示。
多阶段筛选 为了筛选高质量片段,本文采用了三阶段的连续筛选策略:
首先,在全局融合阶段使用最终对齐损失(alignment loss),该损失反映了多视角一致性以及与 RAFT 光流的一致性,用于剔除重建质量较差的结果;
其次,本文通过分析相机平移中的逐帧速度与加速度来评估相机平滑度(Camera Smoothness, CS),并估算局部轨迹曲率,计算方法如下:
保留平均速度、加速度和曲率较低的片段。第三步,本文应用与静态流程中相同的平均置信值(MCV)和高置信像素比例(HCPR)指标。
经过筛选后,本文保留了约 32K 个来自 MonST3R 处理的数据片段,5K 个来自 VDM,27K 个来自 Pexels,以及超过 80K 个来自 MegaSaM 处理的数据片段。总计超过 110K 个高质量片段,具备伪 4D 标注,支持在广泛运动与外观变化条件下对动态 3D 场景进行稳健建模。
4DNeX
问题定义
给定一张图像 ,本文的目标是构建该图像所对应场景的 4D(即动态 3D)表示。该任务可被形式化为对一系列动态点云序列的条件分布进行建模:
其中 表示动态点云的序列。然而,直接建模点云具有挑战性,因为点云具有高度非结构化的特性。为了解决这一问题,本文借鉴 Zhang 等人(2025)的做法,采用像素对齐的点图表示——XYZ,其中每一帧 编码了每个像素在全局坐标系下的三维坐标。
这种格式提供了结构化且可学习的表示,使其能够与现有的生成模型兼容。因此,本文不再直接建模 ,而是将问题重新表述为预测配对的 RGB 和 XYZ 图像序列。
相应地,联合分布也可以被分解为:
因此,一个 4D 场景可以通过由配对的 RGB 和 XYZ 序列组成的 6D 视频进行有效表示。这种简单且统一的表示带来了两个关键优势:它通过像素对齐的 XYZ 映射实现了显式的 3D 一致性监督,并消除了对相机控制的需求,从而促进了可扩展且稳健的 4D 生成。
为了对该分布建模,本文采用了 Wan2.1,这是一种在 flow matching 框架下训练的视频扩散模型。本文扩展了其从图像到视频的能力,以生成 6D 视频,表示为 。首先, 通过 VAE 编码器 被编码到潜在空间中:,并与噪声隐空间变量 :
并训练一个速度预测器 来回归端点之间的速度。其中 和 分别表示图像和文本条件嵌入。这种形式化方法使得时间一致性和几何一致性的 6D 视频序列学习更加高效。
融合策略
为了对视频扩散模型进行微调,使其能够联合生成 RGB 和 XYZ,一个关键挑战是设计出一种有效的融合策略,使模型能够利用两种模态。本文的目标是通过简单而有效的融合设计,利用预训练模型的强先验。受到已有工作的启发,隐空间变量拼接是一种广泛采用的联合建模技术。本文系统性地在不同维度上探索融合策略,如下图 4 所示。
通道维度融合(Channel-wise Fusion) 一种直接的方法是沿通道维度拼接 RGB 和 XYZ,然后插入一个线性层(a.i)或模态切换器(a.ii)来适配输入和输出格式。然而,这种策略会破坏预训练模型所期望的输入和输出分布,从而削弱预训练的优势。通常需要大规模数据和大量计算资源才能获得令人满意的性能。
批次维度融合(Batch-wise Fusion) 为了保持预训练分布,该策略将 RGB 和 XYZ 视为独立样本,并使用切换器控制输出模态(b.i)。虽然它保留了单模态性能,但未能建立跨模态对齐。即使加入额外的跨域注意力层(b.ii),两种模态之间的相关性仍然较差。
帧/高度/宽度维度融合(Frame-/Height-/Width-wise Fusion) 这些策略分别沿帧(c)、高度(d)或宽度(e)维度拼接 RGB 和 XYZ,在保留预训练模型分布的同时,在单个样本中实现了跨模态交互。本文从 token 交互距离的角度对它们进行分析。直观上,对应 token 之间的交互距离越短,模型越容易学习跨模态对齐。如下图 5 所示,宽度维度融合具有最短的交互距离,从而实现更有效的对齐和更高的生成质量,这一点在本文的实验中得到了验证。
网络架构
如下图 6 所示,本文的框架以单张图像 和初始化 XYZ 映射 作为条件输入。两者都通过冻结的 VAE 编码器进行编码,并沿宽度维度拼接。该融合条件随后与噪声隐空间变量 以及二进制mask 沿通道维度拼接,并输入到经过 LoRA 微调的预训练 DiT 中。输出隐空间变量通过 VAE 解码器解码,生成配对的 RGB 和 XYZ 视频序列。一个轻量级的后处理步骤进一步从预测输出中恢复相机参数和深度图。
XYZ 初始化 本文使用一个倾斜的深度平面初始化第一帧的 XYZ 映射 。具体而言,本文在范围 上定义一个归一化的二维坐标网格,并计算初始的 XYZ 值如下:
这会生成一个倾斜的平面,其中深度值从图像底部向顶部逐渐增加,反映了自然场景中的常见深度先验(例如,天空区域看起来更远)。这种初始化为几何学习提供了一个稳定的起点。
XYZ 归一化 由于 VAE 是在 RGB 图像上预训练的,直接编码具有不同分布的 XYZ 输入可能导致不稳定和次优性能。为缓解这一问题,受 Chen 等人(2025)启发,本文采用了一种模态感知的归一化策略,以使 XYZ 隐空间变量适应预训练 VAE 的分布先验。具体而言,本文在训练数据集上计算 XYZ 隐空间变量的均值 和标准差 ,并将编码后的表示归一化如下:
其中 表示 XYZ 隐空间变量。在传入 VAE 解码器之前,本文进行反归一化以恢复原始尺度:
mask 设计 参考 Wan 等人(2025),本文引入一个引导mask ,其中 表示已知像素, 表示需要生成的像素。由于本文对第一帧 XYZ 图使用了近似初始化,因此本文分配一个软mask:
这鼓励模型在生成过程中优化初始几何结构。
模态感知的 token 编码 为了在联合建模过程中保持不同模态之间的逐像素对齐,本文为 RGB 和 XYZ token采用共享的旋转位置编码(RoPE)。为了进一步区分它们的语义差异,本文引入了可学习的域嵌入。给定 RGB 和 XYZ 的token序列 ,本文应用以下编码方式:
其中 表示共享的旋转位置编码, 是可学习的域嵌入,在整个序列中进行广播。
后处理优化 由于本文的方法生成表示全局坐标中稠密 3D 点的 XYZ 视频,因此可以通过一个轻量级的后处理优化步骤,恢复生成的 RGB 帧对应的相机参数 和深度图 。具体而言,本文最小化生成的 3D 坐标与反投影坐标之间的重投影误差:
其中 表示生成的三维坐标, 是通过将深度值反投影到三维空间中计算得到的:
该优化在计算上是高效的,并且可以在不同视角之间并行处理,从而生成物理上合理且几何上一致的相机位姿和深度图估计。
实验
设置
基线方法。 按照 Liu 等人(2025)的方法,将本文的方法与现有的 4D 生成方法进行比较,这些方法可以分为两类:text-to-4D 和 image-to-4D 方法。对于 text-to-4D,与该类别中的最新方法 4Real进行比较。对于 image-to-4D,与最新的 Free4D、前馈方法 GenXD 以及基于对象的方法 Animate124进行基准测试。对于 text-to-4D 方法,首先从输入文本提示生成图像,然后将其转换为 image-to-4D 设置。为了保证公平性,在评估过程中对所有方法使用相同的单张图像或文本提示。
数据集与指标。 在从对比方法的官方项目页面收集的一组图像和文本上进行评估。为了评估生成的新视角视频的质量,本文报告标准的 VBench 指标,包括一致性(在主体和背景上取平均)、动态程度和美学评分。鉴于缺乏成熟的 4D 生成基准,本文进一步进行了包含 23 名评估者的用户研究,以增强评估的可靠性。
实现细节。 选择 vanilla Wan2.1 image-to-video 模型作为最终的基础模型,总参数量为 B。最重要的是,考虑到空间坐标 XYZ 与原始 RGB 域之间存在显著的分布差异,需要仔细处理输入数据到扩散模型的归一化,以确保在两个模态之间的噪声调度是平衡的。回顾本文的扩散目标是联合去噪 RGB 和 XYZ,其中带噪的 RGB 隐空间变量位于 KL 正则化的 VAE 空间中,其分布接近高斯分布。然而,XYZ 坐标在三维空间中并不服从正态分布,这在去噪过程中导致模态差异。为了解决这一问题,本文提出进行模态感知归一化。具体而言,在训练数据集中从 5000 个随机样本中追踪 XYZ 域在潜空间中的统计量(均值和标准差)。结果为 和 ,作为训练和推理过程中 XYZ 隐空间变量的常数归一化项。
为了将原始 image-to-video 基础模型的能力完全迁移到目标 image-to-4D 任务中,本文训练了一个秩为 64 的 LoRA,以实现参数和数据效率,而不是进行全参数监督微调。LoRA 微调使用批大小为 32 的 AdamW 优化器进行,学习率设为 ,并采用余弦学习率预热。训练在 32 块 NVIDIA A100 GPU 上分布式进行,总共进行 5000 次迭代,每个模态的空间分辨率为 。
为了生成新视角视频,首先使用本文的前馈模型生成场景的 4D 点云表示,然后使用 YU 等人(2025)的方法进行渲染。
主要结果
4D几何生成。 如下图 7 所示,可视化了从单张图像生成的 RGB 和 XYZ 视频对。结果表明,本文的方法可以同时从单张图像中推断出合理的场景运动和相应的 4D 几何。这种高质量的动态场景几何表示对于后续渲染阶段中新视角合成的一致性和真实感至关重要。
新视角视频生成。 在 VBench 上的定量结果如下表 1 所示。本文的方法在性能上可与当前最先进的方法相媲美,尤其在动态程度(Dynamic Degree)方面显著优于其他方法。Free4D受益于 Kling Team专有的图像动画模型,因此在美学评分上更高。定性比较如下图 9 所示,本文结果在场景动态性方面表现得更显著且连贯,尤其是在相机运动的情况下。此外,用户研究结果(下表 2)显示,在一致性、动态性和美学方面,本文方法在大多数情况下均优于其他基线。尽管结果与 Free4D 相当,但需要注意的是,评估是在 Free4D 的测试集上进行的,该测试集主要以以物体为中心的场景为主。相比之下,本文的方法在更为多样、真实环境中的泛化能力更强,如下图 8 所示。此外,本文的方法是前馈式的,效率极高,能够在 15 分钟内生成一个动态 4D 场景。相比之下,Free4D 依赖于耗时的处理流程,通常需要超过一小时才能生成结果。
消融实验与分析
为了验证本文所采用的宽度方向融合策略的有效性,并支持前文中的分析,本文进行了一个消融实验,对比了五种不同的融合设计,如下图 10 所示。其中,通道方向融合(channel-wise fusion)与预训练先验之间引入了严重的分布不匹配,常导致预测结果出现噪声或失败(a.i-a.ii)。批次方向融合(batch-wise fusion)虽然保留了单模态质量,但未能捕捉模态间的对齐关系,导致 RGB-XYZ 相关性不一致(b.i-b.ii)。帧方向(c)和高度方向(d)策略带来了中等程度的改进,但仍存在对齐不佳和视觉质量不足的问题。相比之下,本文的宽度方向融合(width-wise fusion)将对应的 RGB 和 XYZ token 在序列中距离拉近,显著缩短了跨模态交互距离。这促进了更有效的对齐,并在帧间生成更清晰、更一致的几何与外观,如下图 10(e)所示。
结论
4DNeX,首个可从单张图像生成 4D 场景表示的前馈框架。本文方法通过微调预训练的视频扩散模型,实现了高效的图像到 4D 的生成。为了解决训练数据稀缺的问题,构建了 4DNeX-10M,这是一个具有高质量伪 4D 注释的大规模数据集。此外提出了一种统一的 6D 视频表示,同时建模外观与几何,并引入了一组简单而有效的适配策略,用于将视频扩散模型重定向至 4D 生成任务。大量实验表明,4DNeX 能够生成高质量的动态点云,为新视角视频合成提供可靠的几何基础。生成的视频在与现有方法竞争的同时,还具备更高的效率和更强的泛化能力。本文希望本工作能为可扩展且易于访问的单图像生成式 4D 世界建模开辟道路。局限性与未来工作
尽管 4DNeX 在单图像 4D 生成方面展示了有前景的结果,但仍存在若干局限性。首先,本文的方法依赖伪 4D 注释进行监督,这可能会引入噪声或不一致性,尤其是在细粒度几何或长期时间一致性方面。引入高质量的真实世界或合成数据集对于通用 4D 建模将是有益的。其次,尽管基于图像驱动的生成结果具有 4D 基础,但在光照、细粒度运动和物理属性方面的可控性仍然不足。第三,尽管统一的 6D 表示有效,但其假设输入图像相对干净,在存在遮挡、极端光照条件或背景杂乱的情况下可能性能下降。未来的工作包括通过显式的世界先验改进时间建模、在可能的情况下引入真实世界的 4D 真值数据,以及扩展本文的框架以处理多物体或交互式场景。此外,整合文本或音频等多模态输入可能进一步增强可控性和场景多样性。
参考文献
[1] 4DNEX: FEED-FORWARD 4D GENERATIVE MODELING MADE EASY
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论