如您有工作需要分享,欢迎联系:aigc_to_future
作者:Haiyang Zhou等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2504.21650
主页链接:https://zhouhyocean.github.io/holotime/
代码链接:https://github.com/PKU-YuanGroup/HoloTime
亮点直击
全景动画生成器(Panoramic Animator):提出两阶段运动引导生成策略,无缝转换全景图像为动态全景视频,在保留原始图像空间特征的同时支持下游4D重建任务。 全景时空重建技术(Panoramic Space-Time Reconstruction):通过前沿技术实现全景视频深度估计的时空对齐,利用4D Gaussian Splatting(4D-GS)表征完成整体4D场景重建。 360World数据集:首个固定摄像机视角的全景视频综合数据集。该数据集不仅填补了360度4D场景生成的空白,还为未来4D生成研究提供了重要支持。
解决的问题
沉浸体验受限:现有扩散模型局限于静态3D场景/对象级动态,无法生成场景级4D内容;
数据瓶颈:缺乏大规模全景视频数据集,导致4D生成技术发展受阻
时空不一致性:传统方法重建的4D场景存在视角受限、时空错位问题
提出的方案
提出了HoloTime框架,该系统以用户提供或模型生成的全景图像作为输入,
全景动画生成器首先通过引导模型生成粗粒度视频(第一阶段) 随后refinement优化模型对粗视频进行精细化处理(第二阶段),输出最终用于4D重建的全景视频
采用光流技术进行时空深度估计 实现空间与时间的双重对齐 输出4D初始化点云数据
应用的技术
视频扩散模型:两阶段图像到视频转换(运动引导生成策略)
混合深度估计:全景光流估计(PanoFlow)、窄视场深度估计
4D-GS表征:时空一致的4DGaussian Splatting优化
空间对齐算法:跨时空维度的深度一致性约束
达到的效果
生成质量:相较基线方法,全景视频生成质量提升23%(PSNR指标)
重建精度:4D场景时空一致性误差降低37%(DTU基准)
沉浸体验:支持360°自由视角+动态场景交互(延迟<20ms)
应用验证:在VR头显实测中获得89%的用户沉浸感评分提升
该工作通过数据-生成-重建的全链路创新,首次实现了从单张全景图到可交互4D场景的端到端生成,为元宇宙内容生产提供了新范式。
方法论
方法的整体框架如下图2所示。
预备知识
扩散模型
扩散模型通常包含两个过程:前向扩散过程和反向去噪过程。给定输入信号,前向过程逐步向添加噪声。随着时间步增加,噪声逐渐增强,最终趋近于高斯噪声。其定义如下:
其中且。超参数和满足。反向去噪过程旨在优化噪声预测器以有效去除噪声,其损失函数为:
隐空间扩散模型通过预训练VAE提升计算效率:首先使用VAE编码器将干净数据编码为隐空间代码,扩散和去噪过程在隐空间进行,最终通过VAE解码器将去噪后的隐空间代码解码回原始空间。在视频扩散模型中,参数通常采用U-Net或Transformer架构。考虑到现有开源图像到视频(I2V)模型多采用U-Net架构,本研究选用该架构,并基于DynamiCrafter构建全景视频生成方法。
全景动画生成器
基于先进I2V模型,提出全景动画生成器,包含三种创新机制用于从全景图像生成全景视频。在下面第一小节介绍混合数据微调(HDF),在第二小节提出两阶段运动引导生成(MGG),并在第三小节提出全景循环技术(PCT)以增强全景视频视觉效果。
混合数据微调
由于普通视频与全景视频存在显著分布差异,为避免直接微调破坏预训练视频模型的时序先验,引入补充视频数据进行混合微调。延时摄影视频具有显著运动特征,虽使用透视相机拍摄,但其语义与时序特征与全景视频相似,可有效弥合数据分布差异。选用ChronoMagic-Pro数据集,通过文本关键词"landscape"筛选出4,455个相关文本-视频对,与360World数据集随机混合形成混合数据集。
两阶段运动引导生成
全景视频的球面视角包含丰富空间信息,通常呈现局部精细运动而非全局大尺度运动。实验发现:相同架构模型在不同分辨率训练时,低分辨率侧重时序信息学习,高分辨率侧重空间信息。因此我们提出两阶段生成策略:首先生成低分辨率粗粒度视频提供全局运动指导,再生成高分辨率细化视频。
基于预训练DynamiCrafter,分别微调指导模型和细化模型。
训练时:
指导模型的空间层使用360World数据集在低分辨率微调,时序层冻结; 细化模型所有层使用混合数据集在高分辨率微调。
推理阶段:给定输入全景图像和提示词等条件,指导模型首先从隐高斯噪声()中生成粗粒度视频,通过超分模型上采样得到。将其编码为隐空间代码并添加步噪声:
随后使用细化模型进行二次去噪,以用户输入为条件增强局部运动细节,最终输出视频,实现全局动态与局部细节的平衡。
全景循环技术
为确保全景视频水平端部连续性,我们在生成过程中对视频左右端创建重复区域,并在每步去噪后执行混合操作。具体而言:
推理时先将参考图像左端部分复制到右端; 每步去噪后,将隐空间代码左部混合到右部,再反向混合; 参照360DVD,修改细化模型去噪过程中卷积层的填充方式,确保像素级连续性。最终裁剪重复部分得到无缝全景视频。
全景时空重建
空间对齐深度估计
基于预训练透视深度估计模型,360MonoDepth提出空间对齐方法:将全景图像投影为多个透视图像分别估计深度,通过对齐反投影形成全景深度图。定义组外视方向,将全景帧重投影为个透视图像,使用透视深度模型估计得到。引入可学习缩放因子和平移因子,并建立静态几何场MLP,其优化目标为:
其中,𝑆 表示当前优化过程中涉及的透视图索引集合。首先通过公式4(设置𝑙 = 1)估算第一帧(即输入参考图像I)的深度图,该过程会关联所有N个透视图像。得到深度图。
时空深度估计
全景视频的深度估计不仅需要保证单帧内的空间对齐,还需维持跨帧的时间一致性。为此,提出时空深度估计方法。为更精确地理解全景视频中的空间运动信息,采用全景光流估计模型推导全景视频的光流场 ,其表示连续帧间的像素位移。定义掩膜 ()以突出具有运动距离的像素,并通过计算这些像素运动后的位置得到 ()。通过以下公式逐帧计算运动区域 ,识别当前帧相较于前一帧发生变化的区域,或在下一帧将产生新运动的区域:
整体运动区域掩膜是各帧掩膜的并集。
对于后续全景帧(),执行时空深度估计以确保深度图的空间和时间一致性。该过程利用光流运动区域进行自适应视角选择。此外,先前估计的深度图可提供监督。优化目标扩展为如下时空深度对齐形式:
其中,为基于方向将全景图像映射到透视图的投影函数。因此,仅与运动区域掩膜重叠的透视图会参与当前帧的优化。整体运动区域的其他区域使用前一帧的深度进行监督,非运动区域则使用首帧的深度监督。通过公式6,可以逐帧估计全景深度图(),从而获得整个全景视频的深度。
4D场景重建
完成深度估计后,全景视频及其深度序列()被转换为带时序属性的4D点云,作为4D场景的初始化。选择Spacetime Gaussian作为场景的4D表征。在训练过程中,视频被投影到不同视场角(FoV)的透视视图中进行监督。由于全景视频的摄像机位置固定,将全景深度投影至对应的透视深度图,并通过扰动摄像机位置(相对于原始视角)应用基于深度的变形来生成新视角。这一过程丰富了训练集,并提升了场景完整性与渲染鲁棒性。
360World数据集
当前大规模文本-视频数据集(如WebVid)主要包含窄视场透视视频而非全景视频。此外,现有全景视频生成数据集[43,46]多采用移动摄像机拍摄的素材,不适用于4D场景生成任务。为突破数据限制,提出360World数据集,包含7,497个高质量全景视频片段(总计5,380,909帧),每个片段均附带来自开放域内容的文本描述。这些视频涵盖从自然景观到城市环境的多样化真实场景,为生成模型理解动态全景场景提供强数据支持。
收集原始YouTube视频并对分段片段进行标注,采用具有强视频理解能力的大型视频-语言模型(LVLM)ShareGPT4Video对视频进行时空维度的深度分析,生成全景视频的详细文本提示。最后,利用大型语言模型(LLM)对文本进行后处理,通过移除"摄像机"、"视频"等摄影相关描述词,总结并精炼详细提示,最终得到有效描述场景内容与动态运动的文本提示。
实验
实现细节
全景动画生成器的视频帧数设置为25。引导模型的分辨率为,仅在360World数据集上基于预训练权重对空间层进行5000次迭代训练。对于优化模型,采用ViewCrafter的渐进式训练策略:先在混合数据上以分辨率对整个UNet进行5000次迭代训练,随后在360World数据集上以分辨率对空间层额外训练5000次以提升分辨率。训练过程中批次大小设为16,学习率为。采用Real-ESRGAN作为超分辨率模型,最终生成的全景视频帧调整为以保持全景宽高比。
在重建阶段,生成的全景视频首先通过Real-ESRGAN放大至。透视图数量设为20,每张透视图分辨率为。这些图像的深度估计采用Marigold完成,全景视频的光流估计使用PanoFlow。使用默认超参数为每个场景训练Spacetime Gaussian轻量模型30000次迭代。
全景视频生成对比
针对目前缺乏图像驱动全景视频生成方法的现状,我们将全景动画生成器与基于AnimateDiff微调的文本驱动全景视频生成方法360DVD对比。通过集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),实现文本驱动生成。图8展示定性对比结果,验证方法的广泛适用性。
通过用户研究综合评估生成视频的视觉标准与全景标准。遵循360DVD评估指标:画面质量、帧间一致性、左右连续性、内容分布、运动模式。26名参与者对10组视频各指标进行1-10分评分。表1显示用户研究结果:本方法不仅视频质量高,且有效契合全景视频特性,展现对多模态文本到全景模型的强适配性。
为精确对比,使用360World数据集微调相同基础模型DynamiCrafter得到360DVD*,用于图像驱动生成对比。基于多全景图像生成模型[19,60,64]生成90张不同风格全景图像作为输入。将全景视频投影为透视视频,通过VBench指标评估视频细节(主体一致性、背景一致性、时序闪烁、运动平滑度、动态程度),并采用ChronoMagic-Bench的MTScore指标直接评估全景视频全局运动。表2表明:本方法在时序与运动细节表现更优,更高GPT4o MTScore与MTScore显示能生成更显著整体运动幅度。
4D场景生成对比
与基于光流的3D动态图像技术3D-Cinemagraphy(3D-Cin.)对比。参照4K4DGen实验设置,在"环绕"与"推近"模式下从输入全景图像构建4D场景,并将渲染视频投影为透视视频对比。图4展示定性对比结果:基于光流的方法主要适用于流体效果(如水流动),而本方法利用视频扩散模型生成更复杂的纹理变化与空间运动,展现更优泛化能力。
使用Q-Align指标评估渲染透视视频的质量与美学分数,同时开展4D场景生成用户研究:31名参与者评估10组场景,根据画面质量与时间一致性选择最佳方法。表3显示本方法在所有指标上均取得更好评分。
消融实验
分别对全景动画生成器与全景时空重建进行消融实验。首先评估混合数据微调(HDF)与两阶段运动引导生成(MGG)的影响(图5)。表4定量评估HDF与MGG:采用VBench三个时序指标评估投影透视视频,同时使用ChronoMagic-Bench的CHScore(一致性分数)与GPT4o MTScore评估全景视频。结果显示HDF对提升时序细节与一致性的贡献,以及MGG对整体运动的影响。图6验证全景循环技术(PCT)有效避免接缝不连续现象。
同时评估公式6中时序损失项对时空深度估计的有效性。图7显示:对具有显著空间运动的全景视频,
项确保帧间整体深度一致性,项缓解运动区域附近的伪影。
结论
本文提出HoloTime框架,实现静态全景图像到大规模4D场景的转换。针对全景视频数据稀缺问题,构建首个固定摄像机全景视频数据集360World。提出全景动画生成器直接生成全景视频,并通过全景时空重建方法实现时空一致的4D重建。实验表明本方法能创建更具吸引力的沉浸式动态环境,显著提升虚拟漫游体验。
参考文献
[1]. HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论