如您有工作需要分享,欢迎联系:aigc_to_future
作者:Peng Wang等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2505.21060
项目链接:https://nickisdope.github.io/Styl3R/
亮点直击
提出了一种前馈网络用于3D风格化,该网络处理稀疏无位姿的内容图像和任意风格图像,无需测试时优化,并能很好地泛化到域外输入——使其适用于交互式应用。 设计了一种双分支网络架构,将外观建模与结构建模解耦,有效增强了新视角合成与3D风格化的联合学习。 本文方法实现了最先进的零样本3D风格化性能,超越了现有零样本方法,并接近针对特定风格优化技术的效果,这通过定量指标和定性结果得到了验证。
总结速览
解决的问题
3D场景快速风格化的挑战:现有方法依赖计算密集的测试时优化,难以实现实时风格化。 多视角一致性问题:风格迁移易破坏3D场景的结构一致性,导致视角间 artifacts。 输入限制:现有方法需密集多视角图像和已知相机位姿,难以处理稀疏、无位姿的输入。 风格与重建的解耦:风格迁移与3D重建目标存在冲突,需平衡艺术风格与场景结构保真度。
提出的方案
Styl3R模型:基于前馈网络的端到端框架,直接联合重建与风格化3D场景,无需测试时优化。 双分支架构: 结构分支:从无位姿稀疏图像预测3D高斯的结构参数,保持几何一致性。 外观分支:通过Transformer解码器融合多视角内容特征与风格特征,生成色彩。 身份损失(Identity Loss):在风格化微调时,随机输入原内容图像,保留原始重建能力。
应用的技术
3D高斯表示:利用密集几何先验高效建模场景结构。 Transformer特征融合:在外观分支中跨视角混合内容与风格特征。 无监督预训练:通过新视角合成任务初始化模型,兼顾重建与风格化能力。 轻量化设计:支持2-8张无位姿输入,处理时间仅0.15秒。
达到的效果
高效性:0.15秒内完成3D风格化,比优化方法快数个数量级。 多视角一致性:双分支设计避免结构失真,显著优于现有方法。 输入灵活性:支持稀疏(2-8张)、无位姿图像和任意风格图像输入。 保真度:在域内外数据上均实现高质量风格化,平衡艺术风格与场景真实性。 兼容性:保留原始重建能力,无需场景或风格特定的微调。
方法
给定一组稀疏无位姿图像 (,其中 和 为图像高度和宽度,上标 表示内容)捕获的场景以及任意风格图像 (上标 表示风格),本文的任务是即时获得场景的风格化3D重建,表示为一系列像素对齐的高斯分布 ,同时不损害多视角一致性和底层场景结构。这些高斯分布 由参数 定义,其中 、、、 和 分别表示高斯分布的位置、不透明度、朝向、尺度和风格化颜色。此外,该方法还能预测非风格化的高斯分布 ,其共享其他属性但具有与不同的颜色集 。
本文提出一种双分支架构,将网络分为结构构建分支和外观着色分支。在外观分支中,采用风格化解码器,首先对所有视角的内容 token 执行全局自注意力以确保多视角一致性,随后注入风格 token 并与内容 token 进行交叉注意力,同时不干扰结构分支。
下图2展示了整体流程。本节首先介绍利用 DUSt3R 密集几何先验的结构分支,随后说明控制输出高斯分布颜色的外观分支,最后设计一种训练策略以促进风格化学习并有效保留几何先验。
结构分支
为利用 DUSt3R 的密集几何先验,采用基于 ViT 的编码器-解码器架构来估计场景结构。捕获场景的一组稀疏无位姿图像 首先被分块,随后通过共享的 ViT 编码器编码为一组内容 token ,其中 为分块大小。单视角的编码 token 随后输入 ViT 解码器,与来自其他所有视角的拼接 token 执行交叉注意力以确保多视角信息传递。对于每个视角的解码器输出 token,一个 DPT 头 用于预测高斯分布的中心位置 ,另一个 DPT 头回归其他结构属性:朝向 、尺度 和不透明度 。
外观分支
为将高斯分布的颜色估计与场景结构估计分离,提出外观分支以确保后续风格化不会降低结构分支中学到的几何先验。为便于对齐编码后的内容与风格 token,采用与内容图像编码器相同的架构作为风格图像编码器,但使用不同的可学习权重。基于 ViT 的风格编码器接收任意风格图像 ,输出一组风格 token ,随后输入风格化解码器。
风格化解码器。在风格化解码器中,内容编码器输出的内容 token 被风格 token 风格化。首先,多视角的 被拼接并执行全局自注意力以获得 以确保多视角一致性。随后,这些自注意力后的内容 token 用于生成查询,而风格 token 用于生成键和值,通过交叉注意力融合这两类信息(如式1所示)。
其中 、 和 是用于生成交叉注意力查询、键和值的投影矩阵。经过此融合后,风格化解码器最终输出一组风格化内容 token 。
颜色头。从这些风格化内容 token 出发,使用 DPT 头预测每个高斯分布的风格化颜色 ,该颜色根据给定风格图像 调整。这些颜色分量 与结构分支回归的其他参数共同构成风格化高斯分布 的完整属性集 。
内容作为风格。内容图像 也可视为特殊风格图像,将内容映射至原始外观。这自然使得外观分支的风格化变为新视角合成中的真实感着色。因此,将内容图像 输入风格分支将得到非风格化高斯分布 。这一思路用于辅助后续训练。
训练策略
3D风格化与重建并非天然对齐,因为优化风格损失可能损害场景的底层3D结构。本文采用两阶段训练策略。第一阶段训练模型准确估计场景结构并执行标准真实感着色。此阶段后,进入风格化微调阶段,期间冻结结构分支以确保场景几何的忠实保留。
新视角合成预训练。此阶段通过仅使用从 渲染的新视角图像与真实目标RGB图像间的光度损失(如公式2),端到端训练整个模型进行新视角合成(NVS)。NVS训练期间,随机将一张内容图像 输入外观分支,促使该分支在此阶段保留原始场景颜色。预训练后,给定一组稀疏无位姿图像,结构分支可预测复杂3D结构,而外观分支能为高斯分布执行真实感着色,为后续风格化微调奠定基础。
风格化微调。基于前述新视角合成(NVS)预训练,模型可集中学习高斯分布外观的风格化。每次前向传播中,将内容图像 和风格图像 输入网络,输出风格化高斯分布 以在新视角渲染风格化图像。这些图像用于计算式2的损失以更新外观分支。朝风格损失优化所有高斯参数会严重破坏重建场景的结构,因此此阶段仅微调外观分支并冻结结构分支。
在损失函数方面,首先采用风格损失与内容损失的加权组合。对于风格损失,测量从 渲染的新视角图像与参考风格图像 在VGG19的 relu1_1、relu2_1、relu3_1 和 relu4_1 特征图上的均值与方差差异。对于内容损失,比较从 渲染的图像与对应真实目标RGB图像在 relu3_1 和 relu4_1 特征图的响应。实验表明,与先前风格迁移方法常用的单层相比,在内容损失中结合 relu3_1 和 relu4_1 能更有效保持原始场景的结构保真度(如下图7所示)。
此外,为在风格化微调期间保留模型的NVS能力,本文采用 [30] 的身份损失。除风格图像 外,还向外观分支输入随机选择的内容图像 以获得非风格化高斯分布 。与第一阶段类似,在优化风格和内容损失的同时,最小化从 渲染的新视角图像与真实目标RGB图像间的光度损失。
训练损失。两训练阶段使用的损失总结如下:
其中, 是光度损失,由 MSE 和 LPIPS 损失线性组合而成,权重分别为 1 和 0.05; 是风格损失的权重。
渐进式多视图训练:为了稳定多视图训练,首先在 2 视图设置下对模型进行新视角合成(NVS)任务的预训练,随后利用该预训练模型初始化 4 视图 NVS 训练及后续的风格化微调。尽管训练时使用 4 个输入视图,但本文的模型在推理时可灵活处理 2 至 8 个视图(如下图 8 所示)。
实验
数据集:采用RealEstate10K(RE10K)和DL3DV的组合作为场景数据集,涵盖具有多样化相机运动模式的室内外视频。对于风格监督,使用WikiArt并为训练集和评估集中的每个场景分配唯一风格图像,确保测试场景和风格均未在训练中出现。为零样本泛化评估,在Tanks and Temples数据集上进行测试,该数据集被先前3D风格迁移方法广泛采用。
基线方法:由于现有方法均无法从稀疏无位姿内容图像和风格参考图像即时风格化3D重建(如下表1所述),精选一组代表性基线进行比较。对于基于2D的方法,采用AdaIN、AdaAttN和StyTr2的两阶段流程:首先生成真实新视角图像,再应用各2D风格化模型。对于3D方法,对比ARF、StyleRF和StyleGaussian,这些方法需密集输入视角和测试时优化。为确保功能正常,以密集输入训练这些方法,承认这使其具有优势,使对比对本方法(仅需稀疏输入)不利。ARF需要逐场景和逐风格优化;StyleRF和StyleGaussian虽支持零样本风格迁移,但仍依赖逐场景优化。
评估指标:由于3D风格化的新颖性和探索不足,缺乏评估风格化质量的指标。本文评估多视角一致性:使用RAFT估计序列图像间光流,通过softmax splatting扭曲前一帧,在有效像素上计算LPIPS和RMSE作为一致性度量。短程和长程一致性分别计算相邻视角和相隔七帧的视角。对新视角合成质量,报告标准图像相似性指标:PSNR、SSIM和LPIPS。
实现细节:使用PyTorch框架。内容与风格编码器采用patch size为16的标准ViT-Large架构,结构与风格化解码器基于ViT-Base模型。编码器、解码器和高斯中心预测头以MASt3R预训练权重初始化,其余层随机初始化。模型在256×256像素分辨率图像上训练,高斯采用0阶球谐函数。训练在8块NVIDIA A100 GPU上耗时约1.5天。
实验结果
三维风格化结果。 如下图3和表2所示,本文的方法显著优于所有基线方法。在视觉效果上,本文的风格化结果在内容保留与风格迁移忠实度之间实现了更平衡的权衡。基于测试时优化的三维基线方法中,StyleRF和StyleGaussian往往无法准确复现参考风格色调,导致输出结果过度泛白或变暗。ARF虽然能更好地捕捉风格色彩,但容易过拟合并施加过度的风格化,从而掩盖场景细节。例如,在图3第三行中,客厅的家具因强烈的素描线 artifacts 几乎无法辨认。作为二维基线,StyTr2在单张真实新视角上生成视觉愉悦的结果,但缺乏多视角一致性(如表2和下图5所示)。相比之下,本文的方法始终生成更优的风格化结果,同时保持最佳的短程和长程一致性指标,这得益于对多视角内容与风格 token 联合操作的注意力机制。尽管StyleRF在短程评估中略低的RMSE,但这主要归因于其过度平滑的输出。
跨数据泛化性。为评估方法的泛化性能,直接将其应用于Tanks and Temples数据集(先前工作中广泛使用的基准)。如下图4所示,本文的模型在分布外场景(如Garden、Ignatius和Horse等与RE10K训练数据差异显著的物体中心场景)上表现出优越性能,超越了现有最优方法。值得注意的是,尽管StyleRF和StyleGaussian需逐场景训练,它们仍无法泛化到任意风格输入。而ARF虽在某些场景中表现更好,但需要密集标定视图及逐场景、逐风格的优化,限制了其在时间敏感应用中的实用性。
新视角合成。本文的最终模型支持风格化与标准三维重建两种模式,具体取决于外观分支的输入是风格图还是内容图。本文报告两组指标:一组针对风格化输出(Ours-stylization),另一组针对未经过风格化微调的标准重建(Ours)。如下表3所示,Ours的性能与NoPoSplat相当,尽管未使用预训练权重初始化风格化解码器。而Ours-stylization虽性能略有下降,但可同时支持照片级真实感和风格化重建。本文的结果来自RE10K双视图模型,与NoPoSplat一致。
风格化时间。本文将风格化时间定义为从接收输入内容图和风格图到生成最终风格化输出的总时长。该指标更实际地反映用户获取结果的速度。对于三维方法,该时间包括重建时间和风格化相关训练或优化时间。如表2所示,本文的方法风格化时间显著快于所有现有三维方法,同时接近最先进二维方法的速度。
消融实验
身份损失对保留NVS能力的作用。探究了风格化微调中身份损失的必要性。下图6表明,若禁用该损失,模型在进行新视角合成时将无法恢复场景原始外观。
内容损失层数。同时使用relu3_1
和relu4_1
计算内容损失能更好地保留结构细节而不牺牲艺术表达。下图7显示,仅依赖relu3_1
会导致风格压倒场景底层结构。
输入视图数量的灵活性。以4张内容图像训练的模型展现出强泛化性,可有效处理2至8张输入视图。下图8中,无论是2视图还是4视图模型,在仅输入2张内容图像时均能生成满意风格化结果。但当输入增至8张内容图像时,2视图模型难以跨视图对齐高斯体,导致重复 artifacts(如多根立柱和沙发)。而4视图模型表现优异,尽管从未接受过8视图输入训练。
应用
风格插值。下图9中展示了模型的一项应用——风格插值。在将风格 token 输入风格化解码器前,对两幅参考风格图的风格 token 进行插值,从而生成融合两种风格的平滑过渡结果。此方法可轻松扩展至多于两种风格的情形,只需计算对应风格 token 的加权和。
结论
本文提出一种前馈网络,可从稀疏、未标定输入视图和单张参考风格图中实现即时三维风格化,且无需测试时优化即可泛化至任意场景和风格。该网络由结构分支和外观分支组成,共同实现一致的新视角合成与风格化。大量实验表明,本文的方法在零样本风格化质量上优于现有基线,同时推理速度显著更快,使其更适用于现实世界和交互式应用。需指出,当前方法仅支持静态场景;将其扩展至动态场景是未来工作的重要方向。
参考文献
[1] Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论