如您有工作需要分享,欢迎联系:aigc_to_future
作者:Weiliang Chen等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2506.10975
git地址:https://chen-wl20.github.io/GenWorld
亮点直击
高质量真实场景数据集:GenWorld首次专注于现实世界场景(如自动驾驶),提供多样化、高逼真度的生成视频,弥补领域空白。 物理合理性驱动检测:提出通过3D多视角一致性(而非传统像素瑕疵)区分生成视频,适应生成技术快速发展的挑战。 简单有效的模型设计:SpannDetector仅需结合立体重建和时序模块即实现显著性能提升,为可解释检测提供新方向。
总结速览
解决的问题
AI生成视频检测的挑战:当前缺乏高质量、真实场景的AI生成视频数据集,现有数据集质量参差不齐,且多为卡通或人脸伪造,难以应对真实世界场景的检测需求。 现有方法的局限性:现有检测器依赖生成瑕疵(如像素异常),但高质量生成视频(如世界模型生成的视频)已难以通过此类方法区分,亟需基于物理合理性的检测方法。
提出的方案
数据集GenWorld:构建大规模、高质量、真实场景模拟的AI生成视频数据集,特点包括: 真实世界模拟:聚焦自动驾驶、室内导航等现实场景。 高质量生成:采用多模态输入(文本/图像/视频)和10种先进生成模型(如Cosmos)。 跨提示多样性:覆盖多种生成器和输入模态,增强泛化性。 检测模型SpannDetector: 利用多视角一致性(如3D物理合理性)作为检测标准,结合立体重建模型和时间记忆模块。 通过真实性评分器对立体特征进行全局评估,判断视频真伪。
应用的技术
数据集构建:整合多模态生成模型(文本/图像/视频到视频),确保数据多样性和质量。 立体重建模型:分析生成视频的3D一致性缺陷(如物理规律违反)。 时空特征融合:在SpannDetector中结合时间记忆模块,增强视频时序信息处理能力。
达到的效果
数据集价值:GenWorld填补了高质量真实场景生成视频数据集的空白,推动可信检测器的研发。 检测性能:SpannDetector在高质量生成视频(如Cosmos生成的视频)上显著优于现有方法,验证了物理合理性特征的有效性。 可解释性:基于多视角一致性的方法为AI生成视频检测提供了可解释的物理依据。
GenWorld
Motivation of GenWorld
尽管现有数据集收集了大量用于AI生成视频检测器研究的AI生成视频,但在实践中存在两个根本性问题:
嘈杂且不连贯的语义内容:当前数据集包含各种非结构化的视频混合,包括动漫、游戏画面、漫画风格视频以及其他缺乏具体信息的内容,如图1所示。这引发了对数据集相关性的质疑——这些视频是否真的具有伪造检测价值? 由于缺乏精心设计的提示词和先进模型,生成的视频往往质量较差,容易被人类区分。因此,在这些数据集上训练的模型难以检测实际应用中的伪造视频。
GenWorld 重新评估了哪些类型的生成视频最具影响力且需要检测。最重要的检测视频应具备以下特征:
真实世界模拟:漫画或抽象内容等视频对现实世界影响甚微。相比之下,模拟真实场景(如驾驶场景或人类活动)的视频更可能影响现实。 高质量和真实感:视频越逼真,就越可能误导人类并影响现实世界。因此,AI生成视频检测应优先考虑高质量生成的视频,特别是具有挑战性的边缘案例。
Collection and Organization of GenWorld
本文旨在构建一个高质量、真实世界的AI生成视频检测数据集。首先,对于真实世界数据,我们分析了真实场景和当前视频生成世界模型,选择了涵盖人类生活广泛场景的四个关键场景:驾驶、室内外导航、具身智能操作和人类活动,作为我们数据集的核心场景。
对于AI生成视频,本文设计了模拟真实场景的视频生成流程,如下图2所示。首先利用强大的视频理解模型Video-Llava对选定的真实世界视频内容进行标注,以促进下游生成。在生成过程中,采用了多种生成方法,包括文本到视频、图像到视频和视频到视频,因为这些方法以不同方式模拟真实世界视频,各自具有独特的分析价值。文本到视频方法伪造语义内容同时保留模型的外观偏好;图像到视频方法同时伪造语义和外观,实现更高级别的视频伪造;而视频到视频模型不仅伪造语义和外观,还能操控物理规律,展现出最高级别的伪造能力。
下表1展示了GenWorld数据集的统计信息。对于真实世界视频,从Kinetics-400、NuScenes、RT-1和DL3DV-10K中随机选取了10,850个样本。对于AI生成视频,使用了10种不同的生成模型,包括Cosmos和OpenSora等先进模型,涵盖文本到视频、图像到视频和视频到视频等多种伪造级别,共生成89,446个视频。本文的数据集包含100,296个视频,其中20%用于测试,其余用于训练。
由于采用了先进的生成模型和源自真实场景的提示词,本文的数据集具有三个关键优势:多样化的真实世界模拟、高质量的视频内容以及跨生成器和跨生成方法的多样性。这种丰富的组合支持多种分析维度,可对检测方法进行全面分析。
SpannDetector
在构建数据集的过程中,测试了多种检测方法,发现其性能不足,特别是针对最新高质量生成模型时表现欠佳。这促使我们探索识别AI生成视频的新视角。考虑到视频的时序性和多视角特性,对多视角一致性进行了深入分析,并将其确定为检测AI生成视频的潜在线索。基于这一发现,本文设计了SpannDetector——一个基于多视角一致性的AI生成视频检测器,该检测器展现出良好的检测能力,特别是针对世界模型生成的视觉超真实视频。我们首先回顾多视角匹配技术。
多视角匹配基础
多视角匹配旨在识别代表同一3D结构的多个视角中的对应点集。其成功关键在于存在一个满足多视角间不适定约束的3D结构,这被称为多视角一致性。最近,在大规模数据上训练的Dust3R展现了快速准确执行多视角匹配的强大能力。形式上,给定同一3D结构的两个视角,Dust3R估计它们在相机坐标系中的点图,记为,以及相应的置信度图。这可以表述为
其中表示Dust3R模型,可用于后续相机参数估计。
生成视频的多视角一致性
利用强大的Dust3R,分析了生成视频的多视角一致性。对于视频中任意两帧和,首先使用Dust3R获取对应的点图和以及对应的相机内参。然后通过投影变换将投影到的像素坐标系上,其中表示像素坐标系中的点投影。这可以获得从到的投影。接着计算残差,结果如下图3(b)所示。对于真实视频,残差呈现较规则的模式,因为真实视频本身保持多视角一致性,这使得多视角匹配能轻松找到满足视角约束的合理3D结构。然而对于AI生成的视频,呈现不规则且噪声较多的模式,表明生成视频在不同视角间存在不一致性,导致模型难以找到同时满足所有视角约束的合理3D结构。
SpannDetector设计
本文设计一个融合多视角一致性先验的AI生成视频检测器。受Spann3R启发,将记忆模块与Dust3R结合以改进对序列视频数据的检测,如上图3所示。当输入第帧时,使用Dust3R编码器同时处理和帧,获得特征和。然后使用读取记忆信息,获得。接着将和输入Dust3R解码器,得到解码特征。最后特征通过真实性评分器处理得到。整个过程可表示为:
其中和表示冻结的Dust3R编码器和解码器,Memory read是注意力操作。和是记忆参数。同时使用第帧的信息按如下方式更新记忆信息:
在获得所有评分特征后,执行全局平均以获得最终视频评分,该评分指示视频是真实的还是伪造的。
实验
实现细节
数据集。为了全面评估现有方法,本文设计了两项任务并相应划分数据集。对于每个模型,保留20%的生成数据作为测试集。在评估过程中,使用一个模型的训练集进行训练,同时使用其他模型的测试集进行测试。第一项任务——训练测试评估,模拟了现实场景中需要识别未知来源图像的情况。第二项任务——跨提示评估,测试检测方法在不同伪造级别上的表现,而不会对特定类型的生成过拟合。
评估指标。本文使用准确率(Acc.)评估方法的有效性,并以AP、F1和召回率(R)作为补充评估指标。对于图像级检测方法,组合所有帧的预测以获得总体结果。
基线方法。本文选择了AI生成内容检测领域的最先进方法,包括图像和视频检测器,并评估其性能。所有模型均在单个A6000 GPU上训练。
与现有数据集的比较
下表2比较了本文的数据集与现有的AI生成视频检测数据集。突出了以下优势:
真实世界模拟:本文的真实视频精心选自覆盖大多数真实场景的多样化数据集,并源自这些真实视频。 跨提示多样性:不同提示的生成方法以不同方式操纵真实视频。文本到视频生成主要模仿真实视频的语义和内容,同时保留外观风格偏好;图像到视频生成保留外观和语义,同时生成高度欺骗性的视频;视频到视频生成复制外观和语义,并模拟视频的时间演变,使其在时间上更加真实。
下图4展示了本文数据集中的示例,呈现了其多样性、丰富内容和高品质。下图5显示了视频的时间连贯性,突出了流畅的运动和随时间推移的逻辑进展。
训练-测试评估
下表3展示了不同模型在训练-测试评估任务上的性能表现,可以得出几个关键发现:
视频级AI生成视频检测器显著优于基于图像的检测器。这主要因为视频检测器能够从不同时间帧捕捉时序信息,从而获得更丰富的表征以实现更好的伪造检测。 在视频级检测器中,DeMamba和VideoMAE的表现明显优于STIL和TALL。这是因为后两者主要针对深度伪造视频检测设计,而前者旨在捕捉更通用的视频特征。这表明适用于深度伪造检测的方法未必能有效检测通用AI生成视频。 不同模型生成视频的检测难度存在差异。如表所示,多数训练模型在Lavie和VideoCrafter测试集上表现较好,但在HotShot、ModelScope和Cosmos上表现较差。特别是基于世界模型的Cosmos生成的视频检测难度显著高于其他模型,这表明其生成的视频更接近真实世界影像。 本文的模型整体表现最优,在检测Cosmos生成视频时性能提升尤为显著。这是因为除了考虑时序动态特征外,本文的模型还整合了多视角一致性先验,使其能够识别看似真实但细微违反物理规律的视频。这凸显了使用物理先验作为AI生成视频检测方法的潜力。
下表4提供了召回率(R)、F1分数和平均精度(AP)的详细对比。数据显示:
本文的模型在召回率(R)上显著优于其他模型 同时保持了较高的AP值 最终获得最高的F1分数
其他模型如DeMamba在检测Cosmos生成视频时召回率较低,这进一步证明Cosmos生成的超现实模拟视频具有极高的检测挑战性。其生成的视频与真实视频难以区分的特点,为AI生成内容检测领域提出了新的研究方向。
跨提示词评估
本文还选取了代表性模型DeMamba进行跨提示词评估,结果如下表5所示。从表中可观察到,DeMamba容易过拟合训练数据,无法有效区分由另外两种提示词生成的数据。这表明不同生成提示词会产生差异化的伪影模式,导致模型仅学习到特定特征而非泛化性特征。此外,当在三种跨提示词数据上联合训练时,DeMamba仍出现过拟合现象,说明该模型不适用于学习通用的伪造检测特征。相比之下,本文的模型在单一提示词生成数据上训练后,对其它提示词生成的数据展现出一定程度的判别能力,这暗示模型可能捕捉到了更具泛化性的特征(例如多视角不一致性)。
用户研究
为直观比较不同数据集的质量与显著性,本文开展了用户研究来评估现有数据集与自建数据集。评估指标包括视频质量(VQ)、真实世界模拟度(RS)、运动连贯性(MC)和物理合理性(PP)。我们从不同年龄段选取120名参与者,每个数据集随机抽取100段视频供其采用7级李克特量表评估。此外,每位参与者需猜测视频属于真实视频还是AI生成视频。实验结果如下表6所示,数据显示本文的数据集在所有质量指标上均优于另外两个数据集。更重要的是,用户对我们数据集的真假视频判断准确率最低,说明生成视频具有最强的欺骗性,这使得该数据集对AI生成视频检测研究具有特殊价值。
结论
GenWorld——一个模拟真实场景的高质量AI生成视频检测数据集,其具备三大特征:
真实世界模拟性:专注于高度拟真现实活动的视频,可能对社会事件产生更大影响; 高质量性:通过融合多种前沿生成方法,构建了大规模高质量AI生成视频集合; 跨提示词多样性:涵盖文本、图像、视频三类提示词生成的视频,捕获不同层次的伪造特征。
本文对现有先进AI生成视频检测器进行基于GenWorld的深度评估,发现这些检测器难以识别世界模型(如Cosmos)生成的高质量视频,该局限可能源于其未能捕捉真实世界的物理一致性。本文提出SpannDetector——一种基于对真实/生成视频三维一致性深度分析的简洁有效方法。该方法将立体重建模型与时序记忆模块相结合,显著提升了检测性能(尤其针对世界模型生成的视频),这凸显了利用物理一致性进行AI生成视频检测的潜力。
参考文献
[1] GenWorld: Towards Detecting AI-generated Real-world Simulation Videos
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论