AI I024: AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

2025年4月6日星期日

AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Xiaoda Yang等

解读：AI生成未来

文章地址：https://arxiv.org/pdf/2504.02312

图 1 ：OmniCam概述。鉴于内容参考和轨迹引导的不同形式，OmniCam通过相机运动控制生成高质量的视频序列。具体而言，OmniCam集成了内容（如图像或视频）和轨迹（如文本指令或视频中的相机运动）参考的各种组合。这种方法使OmniCam能够准确合成与用户指定输入一致的视频

亮点直击
提出了OmniCam模型，该模型支持复杂灵活的控制，允许帧级控制，通过多模态实现轨迹控制，并能处理多模态数据。
引入了OmniTr数据集，该数据集收集了大量高质量长序列轨迹、视频及描述，使其成为目前规模最大、模态最丰富的数据集。
提出了相机运动领域的新基准，首次解决了空间长序列轨迹规划、视频引导轨迹生成等问题。
实验表明，OmniCam在定量指标和定性效果上均达到了最先进的性能。

总结速览

解决的问题

单图像输入无法实现相机控制：

基于视频生成的方法难以区分相机角度变化与主体运动。
基于重建的方法通常需要多视角信息。
现有方法在连续复杂操作中难以保持空间结构，导致失真。

缺乏通用数据集：现有数据集（如RealEstate）缺乏多模态支持与多样化轨迹控制。
交互成本高且模态受限：现有方法仅支持有限输入模态（如单一文本或视频），且控制能力不足（如长序列、复合运动）。

提出的方案

多模态输入支持：

内容输入：图像或视频（作为内容参考）。
轨迹输入：文本描述、视频轨迹提取或直接参数化输入（6DoF位姿序列）。

三阶段生成流程：

单目重建初始化：根据目标轨迹生成初始视频。
视频扩散模型修复：利用先验知识修复时空一致性。
强化学习微调：优化生成效果。

灵活控制能力：

支持帧级控制、复合运动（任意方向推拉/旋转）、速度调节、长序列多指令衔接、特效（如旋转）。

应用的技术

大语言模型（LLM）：解析文本描述的相机运动指令。
视频扩散模型：生成时空一致的视频，修复单目重建的缺陷。
强化学习（RL）：微调模型以提升控制精度。
多模态数据集构建：OmniTr数据集包含长序列轨迹、视频及多模态描述（时间、速度、方向等）。

达到的效果

高质量生成：在多种指标上达到SOTA，支持复杂轨迹控制（如6DoF连续视角）。
多模态兼容性：支持文本、视频、图像等多种输入组合。
灵活交互：

通过文本描述实现自然语言控制。
通过参考视频提取轨迹迁移控制。
支持自定义参数化轨迹输入。

长序列支持：可无缝衔接多段操作，生成长时间稳定视频。

创新点总结

首个多模态相机控制框架：统一文本、视频、图像输入，解决模态割裂问题。
OmniTr数据集：填补多模态长序列轨迹数据的空白。
6DoF长序列控制：突破现有方法在复杂运动与时空一致性上的限制。

OmniTr 数据集

现有数据集缺乏长序列相机控制能力，无法支持复杂灵活的多模态相机运动输入。为此，我们推出首个面向全方位相机控制的大规模资源库——OmniTr数据集。

如下图2所示，OmniTr以轨迹组为基本单元，每组包含四个组件：轨迹描述文本、离散运动表示、极坐标轨迹和高清视频。本文精心构建了1000组独特轨迹组，形成包含1000条轨迹、10,000条描述文本、30,000段视频及其对应离散运动表示的综合数据集。其中每条轨迹对应10种文本描述和30段常见类别视频。

数据集视频内容基于CO3D数据集构建，并采用大语言模型生成多样化文本描述。该数据集提供帧级精度的控制信息，其离散运动表示可直接转换为完整的六自由度（6DoF）序列，实现精准相机轨迹控制。

如下表1对比所示，OmniTr不仅规模庞大，还全面覆盖所有相机控制方式：每条文本描述包含1-5个相机操作指令，每个操作对应特定离散运动表示。文本精确表述操作的时间范围、速度、方向与角度，离散运动表示则包含关键字段——

starttime/endtime：操作时间区间
speed：运动速度（low表慢速，high表快速）
direction：运动方向（含基础方向与任意角度组合方向）
rotate：旋转方式（顺时针/逆时针/静止）

上图2饼状图展示了数据集对各种操作方法的全面覆盖。

本文通过多维度优化提升数据集实用性：

时间鲁棒性处理：显式时间范围（如"0-1秒"）与隐式默认值（移动默认1秒，旋转默认0.5秒）相结合，支持非连续操作（如首次操作在0-1秒，第二次跳至3-4秒）
角度灵活性处理：文本输入允许组合方向出现任意角度
语言风格多样化：包含正式陈述、简洁表达、夸张描述等形式，确保语义丰富性及多场景适配能力

方法

轨迹生成

本文的相机轨迹生成系统旨在根据输入描述生成合适的轨迹。先前的工作通常局限于单维度的相机运动或仅限于关键帧的简单相机操作，同时在精确控制和长距离轨迹规划方面存在困难。本文的方法通过细粒度控制实现帧级精度，支持任意方向的复合运动和相机变焦操作。本文的方法能够无缝集成多个操作，从而生成更自然流畅的相机轨迹。该系统支持多模态输入，可接受文本和视频序列作为轨迹参考。

描述到离散运动表示

本文利用离散运动表示作为生成连续轨迹的中间表示，以促进长距离细粒度控制。对于文本输入，我们使用大语言模型将描述转换为离散运动表示，其由一系列 <starttime, endtime, speed, direction, rotate> 组成。

使用 LoRA（低秩自适应）对大语言模型进行微调。输入序列可以表示为。离散运动表示包含多个基本语句，每个语句包含一个五元组控制信号，并由 <sep> 标记分隔。生成的离散运动表示序列表示为，其中。这里，表示从描述中导出的控制信号数量，并满足条件。

离散运动表示预测的损失函数定义为

其中表示轨迹序列的总长度。表示模型预测正确的概率，表示时间步之前的所有预测结果。

同样地，视频引导的相机控制也使用离散运动表示作为桥梁。虽然视频轨迹提取在相机姿态估计研究中已有探索，但传统相机姿态估计方法主要关注重建辅助而非优化连续相机轨迹预测，导致处理视频时（尤其在低帧率场景下）结果突兀且不一致。为解决这个问题，我们在特征提取器后加入了平滑模块，该模块在将轨迹映射到下游坐标系的同时确保连续性和平滑性。与传统相机姿态估计方法相比，本文的方法即使在低帧率条件下也表现出鲁棒性能。

离散运动表示到轨迹

获得离散运动表示后，本文采用轨迹规划算法计算轨迹中每个点的空间位置。空间位置由三元组参数化表示，包括方位角、极角和半径。旋转由离散运动表示中的 rotate 参数独立控制。这些位置随后被转换为相机外参序列。该过程是无损且可逆的。

该算法默认将相机围绕物体中心的运动建模为球面运动。首先，我们计算受控制信号影响的起始帧和结束帧。接着基于具体控制信息，计算增量变化，其中和分别表示速度和方向的控制信息。函数为每帧累积相应的角度或距离变化以生成完整轨迹序列。

给定运动指令时，首先根据帧率和持续时间计算帧数。设表示帧率，表示总时长，总帧数表示为。通过这种方法，利用给定比例分割点的概念，本文统一了基于时间和帧的控制。为模拟速度变化，初始化单位增量变化并应用缩放因子，支持高/低层级的控制粒度。

对于平移操作，每帧的位姿通过在前一帧位姿上增加增量来计算，从而形成对应操作的完整位姿序列。旋转操作的实现细节见补充材料。

轨迹引导的视频合成

从轨迹生成视频存在多种方法。传统方法通常使用空间变换块捕获内容信息，时序变换块处理时间依赖性，并将轨迹信息作为条件注入模型。然而此类架构的性能有限。

本文的方法选择利用3D重建获取基础内容信息和时间依赖性。现有重建方法多依赖3D高斯泼溅，但该技术流程复杂：需要从点云定位高斯椭球中心，计算协方差矩阵构建椭球，添加不透明度信息，最后根据目标轨迹渲染视频。鉴于该过程的复杂性，我们选择直接使用点云进行单目重建，并引入扩散模型来解决渲染中的未知区域问题。

重建与渲染

渲染过程需要同时使用点云、相机内参和外参。通过DUSt3R获取点云和相机内参，相机外参来自LLM输出。DUSt3R以两张图像为输入，通过稠密立体匹配计算视差图并生成点云数据。此外，置信度图用于辅助后续内参估计。在假设主点位于图像中心且像素为方形的前提下，采用Weiszfeld算法优化相机焦距，完成相机内参估计。当仅输入单张图像时，可复制该图像构建配对输入以适应DUSt3R。

对于作为内容参考的图像，首先使用稠密立体模型提取其点云数据、相机内参及相机位姿。接着根据相机位姿序列（包含）导航相机，渲染点云并生成渲染结果序列。我们的目标是学习条件分布，通过渲染点云和参考图像生成高质量透视转换视频。

对于视频内容参考，逐帧执行相同处理流程。例如推理输入视频第帧时，从推断视频中选择第帧，以此类推逐帧组装结果。为提升生成效率，我们定期间隔推理获取关键帧后组装，并采用帧插值技术增强视频流畅度。

未知区域修复

如下图3所示，点云渲染结果通常包含未知区域。类似于人类能根据物体前视图想象其后部，扩散模型基于先验知识也具备这种想象能力，因此应用其完成这些未知区域。

为提高计算效率，本文采用隐空间扩散模型(LDMs)架构，使用预训练VAE将图像映射到低维潜在空间处理。本文构建了包含点云渲染序列与真实参考图像的高质量配对数据集。训练时冻结VAE编码器-解码器参数，专注于优化潜在空间。具体而言，将训练数据和编码为潜在变量与条件信号，沿通道维度与采样噪声拼接后输入U-Net。模型通过以下扩散损失函数进行优化：

其中。

本文将参考图像的CLIP特征作为条件注入UNet以防止域偏移。

在推理阶段，首先生成点云序列的渲染结果，将获得的图像序列编码为潜在变量并与噪声样本拼接。随后使用训练好的U-Net对潜在变量进行迭代去噪。最后通过VAE解码器将结果转换为高保真的视角转换输出，实现从不完整渲染到完整视觉效果过渡。

端到端优化

为提升系统性能，在预训练后，进一步探索模块间的耦合优化。由于上游模块的token输出导致梯度截断，采用基于强化学习的方法实现端到端优化，提升模型耦合效果。

将下游网络作为奖励模型，利用下游反馈指导上游模块优化。该反馈机制建立了上下游模块的有效交互，显著提升整体模型的协同性能，使下游评估结果能直接影响和改进上游生成过程。

实现类似RLHF（人类反馈强化学习）框架：首先冻结下游模型作为奖励函数；然后使用轨迹提取器获取生成视频的相机位姿序列，以各维度得分的平均值作为奖励更新上游模型。同时为防止模型能力过度偏离，建立从上游模块初始化并全程冻结的参考模型，确保模型在获得新能力时保留原始性能。

实验

实现细节

OmniCam采用三阶段训练策略：

第一阶段：训练大规模模型及其关联组件。以Llama3.1为骨干网络，采用Lora微调。
第二阶段：以学习率、批量大小16训练视频扩散模型，迭代50,000次。训练数据包含RealEstate、DL3DV和精选的OmniTr数据集子集，每段视频含25帧。推理阶段采用DDIM采样器和分类器无关引导。
第三阶段：通过强化学习微调轨迹大模型，冻结下游视频生成模型作为奖励模型，利用PPO微调大模型。

实验在8块NVIDIA A100 GPU上进行。

评估指标

为评估生成轨迹的准确性，本文提出五个指标来监督离散运动表示。和用于评估模型确定起始和结束时间的准确性，用于衡量模型对速度的理解，评估模型是否正确理解旋转方向，用于判断模型准确理解相机移动方向的能力。这些指标本质均为准确率，计算方式为所有子任务的平均值。其中，和独立评估，而、和需在起始与结束时间均正确的前提下评估。

由于方向信息的复杂性，将细分为和：允许角度偏差但要求方向正确，而需同时保证方向与角度的准确性。离散运动表示唯一决定了轨迹，因此这些指标可评估模型生成轨迹的精确性。本文是首个提出从文本或视频中提取复杂轨迹的评估标准的工作，为未来研究奠定基础。

本文使用经典指标评估生成视频的质量，如 LPIPS、PSNR、SSIM、FID、NIQE 和 CLIPSR，这些指标衡量视频质量与流畅度。

最后，本文计算生成新视角序列与真实旋转矩阵的旋转误差（），其表达式为：

其中和分别表示真实旋转矩阵和生成旋转矩阵。我们还计算了平移距离（），其表达式为：

其中和分别表示真实平移矩阵和生成平移矩阵。由于 COLMAP 对不一致特征敏感，本文采用 DUSt3R以获得更鲁棒的位姿估计。

主要结果与消融实验

如下表2所示，在通过文本描述获取轨迹的任务中，比较了两种主干模型。实验结果表明，LLM 表现更优，因其更专注于文本理解，相比 VLM（视觉语言模型）展现出更强的理解能力。对于从视频提取轨迹的任务，对比了三种方法：实验显示 Llama+SLAM方案效果最佳，因为相机位姿估计需要强三维空间感知能力，而当前 VLM 模型仍存在不足。因此，本文以成熟位姿估计算法为基础，结合 LLM 与 MLP 作为映射器来校正生成轨迹。相比之下，SIFT 方法生成速度更快，但结果不理想。

在最优训练基础上，本文采用离线策略强化学习。实验表明强化学习效果不稳定，但能带来小幅提升，增强模型耦合性与准确性。下游反馈被用于优化上游策略。下表3定量比较了多种有效方法的生成质量及其与真实分布的相似度。实验证明本文的方法在生成高质量视频方面更优。如下图4和下图5所示，可视化展示了通过文本控制相机轨迹与通过视频控制相机轨迹的效果。

通用讨论与人工评估

本文对比了跨领域前沿方法，分析了不同技术路线的潜力，并指出重建方法、4D 重建等方案的缺陷。鉴于各领域模型功能差异显著，采用统一量化评估指标既不公平也不可行，因此采用人工评估方式：邀请 50 名参与者按 1~5 分制评分（最终分数取整），布尔评估（如是否开源）中开源得 5 分，未开源得 1 分。结果如下图6所示：

实验发现 ViewCrafter 交互繁琐（尤其处理复杂指令时），且不支持从视频学习相机轨迹；ZeroNVS作为新视角合成算法仅能单帧生成，使用不便；GenWrap推理速度快但存在泛化问题；CAT4D 作为 4D 模型受限于速度慢且未开源。此外，One-2-3-45++等重建方法针对单物体设计且不包含场景，故未纳入本研究。

结论

OmniCam是一个统一的多模态视频生成相机控制框架。它通过接收文本和视频作为轨迹参考，以及图像和视频作为内容参考，生成符合用户期望的视频。利用 LLM 提取输入特征，通过轨迹规划算法获取相机运动轨迹，最终结合3D重建与扩散模型生成完整视频。

为支持 OmniCam 的全流程训练，构建了首个专为相机控制设计的多模态数据集 OmniTr。实验结果表明，模型在面对不同模态组合输入时表现出卓越的鲁棒性，并能准确生成符合用户意图的相机轨迹视频。

参考文献

[1] OmniCam: Unified Multimodal Video Generation via Camera Control

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024