2025年9月6日星期六

让虚拟人秒懂人类情感!多模态DiT架构炸裂升级:字节OmniHuman-1。5让Ta拥有灵魂!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Jianwen Jiang等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2508.19209 
项目链接:https://omnihuman-lab.github.io/v1_5/

亮点直击

  • 虚拟人建模的新视角:引入了一个新的视角来分析视频虚拟人,通过系统1和系统2思维的认知科学框架来重新定义该问题。观察到当前模型主要模拟系统1,首次提出了一个同时建模两者的整体方法。
  • 双系统模拟框架:提出了一个新颖框架,其包含两个核心组件。首先,基于MLLM的智能体生成 deliberative 指导("系统2")。其次,一个专用的MMDiT架构,配备对称音频分支和伪最后一帧策略,协同地融合此指导与反应性信号("系统1"),从而解决了关键的模态冲突。
  • 强大的实证性能与泛化能力:标准基准测试极具竞争力,用户研究中更受到显著偏爱。其多功能性通过成功扩展到复杂多人和非人场景得到了进一步证明。
借鉴双系统理论为虚拟化身行为建模,该理论区分了反应性系统 1 和审议性系统 2 认知。左上图:我们框架结合了系统 1 动作(如唇部同步、空闲动作)和系统 2 推理(如逻辑手势)。右上图传统方法与系统 1 类似,擅长唇语同步,但往往会产生重复性、非语境性动作。下图相比之下,我们的方法可以模拟这两个系统,生成与所提供的音频和文本语义一致的各种自然连贯的行为。
借鉴双系统理论为虚拟化身行为建模,该理论区分了反应性系统 1 和审议性系统 2 认知。左上图:我们框架结合了系统 1 动作(如唇部同步、空闲动作)和系统 2 推理(如逻辑手势)。右上图传统方法与系统 1 类似,擅长唇语同步,但往往会产生重复性、非语境性动作。下图相比之下,我们的方法可以模拟这两个系统,生成与所提供的音频和文本语义一致的各种自然连贯的行为。

总结速览

解决的问题

  1. 现有视频虚拟人模型缺乏语义理解能力:当前模型虽能生成流畅的人体动画,但仅停留在外貌模仿层面,无法捕捉人物的"真实本质"(如情感、意图和上下文)。
  2. 动作生成依赖低层次信号:现有方法多基于音频节奏等低层信号进行口型同步和简单手势生成,缺乏对高层语义(如情绪、语境)的理解与响应。
  3. 多模态输入之间存在冲突:音频、图像和文本等多种输入条件在现有模型中难以有效融合,容易出现模态干扰,影响生成一致性与自然度。

提出的方案

  1. 引入多模态大语言模型(MLLM)作为高层语义推理引擎
    • 使用MLLM对多模态输入(文本、参考图像、音频)进行推理,生成结构化的高层语义条件(如情感、意图、上下文),以指导动作生成。
  2. 提出一种多模态Diffusion Transformer(DiT)架构
    • 设计专门的多模态分支(Multimodal Branches)分别提取音频和文本特征。
    • 引入多模态注意力机制(Multimodal Attention)在共同语义空间中对齐和融合多模态特征。
  3. 提出"伪最后一帧"(Pseudo Last Frame)策略
    • 在训练中避免直接使用参考图像作为条件,而是通过概率条件使用起始/结束帧;
    • 在推理时将参考图像视为"伪最后一帧",避免静态图像干扰动态内容生成。

应用的技术

  1. 多模态大语言模型(MLLM):用于理解和推理多模态输入,生成高层语义指导。
  2. Diffusion Transformer(DiT):作为主干生成模型,支持多模态条件输入。
  3. 多模态特征对齐与融合技术
    • 专用音频和文本特征提取分支;
    • 多模态注意力机制,实现跨模态语义对齐。
  4. Chain-of-Thought(CoT)提示策略:用于引导MLLM生成可解释的推理文本。
  5. 身份保持策略:通过"伪最后一帧"设计避免参考图像对动态生成过程的干扰。

达到的效果

  1. 生成动作既物理合理又语义一致:模型能生成与音频、文本和场景上下文高度一致的自然动作。
  2. 在多指标上领先:在口型同步准确性、视频质量、动作自然度和语义一致性等方面均达到领先水平。
  3. 支持复杂场景扩展:可处理多人、非人角色等复杂生成任务。
  4. 实现"系统1"与"系统2"的协同:既保留了对音频的快速响应(系统1),也具备基于语义的 deliberative 行为生成能力(系统2)。

方法

概述

本文目标是生成既视觉逼真又与多模态输入逻辑一致的角色动画。为实现此目标,本文引入了一个旨在同时模拟系统1(反应性)和系统2( deliberative )认知过程的框架。本文模型建立在Diffusion Transformer (DiT) 主干网络之上,该网络首先在通用视频生成任务上进行预训练,以获得基础的视频生成能力。随后,通过两个关键设计将这一基础模型转变为一个具有逻辑性和表现力的虚拟人,这些设计将在以下章节中详述并在下图2中展示。

图片

用于 Deliberative 控制的智能体推理:首先采用基于MLLM的智能体来推理输入上下文并生成高层语义指导。此步骤提供了模拟"系统2"所必需的 deliberative 控制。

用于反应性渲染的多模态融合:接下来,专用的MMDiT架构将此语义指导与音频等反应性信号相融合,以模拟"系统1"。为解决模态冲突,该架构结合了一种伪最后一帧身份策略,该策略可防止静态参考图像在训练期间干扰动态运动。

除了这些核心设计,为求简洁,本文的框架遵循了常见实践。为支持长视频合成,本文的框架可以自回归方式运行,通过使用先前生成片段的最后一帧作为新片段的初始帧来持续生成。本文的框架在预训练的3D VAE的紧凑潜在空间中运行,并使用流匹配目标进行训练。省略了对这些标准组件的进一步讨论,以专注于我们的主要贡献。

用于 Deliberative 控制的智能体推理

模块输入与输出。为建模"系统2"的 deliberative 特性,本智能体推理模块对输入条件进行推理,以生成高层次、逻辑连贯的指导。输入是角色的参考图像和相应的音频片段,并辅以描述期望角色行为的可选文本提示。该模块旨在处理这些输入,以产生两种形式的语义条件:推理文本(Reasoning Text),即来自智能体的、直接用作条件的显式思维链文本;以及推理潜在表示(Reasoning Latents),即提取的中间MLLM特征,用作额外的条件信号并通过专用的注意力机制进行集成。我们的主要方法利用前者,同时我们也研究了后者的集成。

多步推理流程。如上面图2右上部分所示,这种 deliberative 指导是通过两个扮演不同角色的MLLM在一个协作过程中生成的。第一个MLLM,分析器(Analyzer),接收参考图像、相应的文本描述(由辅助模型生成以确保准确的图像解读)、音频片段以及用户提供的可选文本提示。在思维链提示的引导下,分析器MLLM对输入执行迭代推理过程。它系统地推断角色的个性、语言风格、演讲内容、情绪、意图和环境上下文,并将这些洞察整合为一个单一的结构化表示(通常是一个JSON对象)。这些上下文丰富的信息随后传递给第二个MLLM,规划器(Planner)。规划器接收分析器的输出以及原始角色图像以获取视觉上下文。在新的指令提示引导下,其任务是制定一个结构化为镜头序列的行动计划,其中每个镜头定义了角色在对应于我们扩散模型单次生成时长的持续时间内的表情和动作。这种协作推理产生了一个全面的运动计划,通过在整个视频中保持一致的动作来保持连贯的角色个性。

反射性重新规划。为在长视频生成中保持逻辑连贯性,我们的智能体框架包含一个可选的"反射"过程。在自回归合成过程中,通过重新评估最近生成的输出来动态更新生成计划。此过程缓解了基于扩散的合成中的一个常见挑战,即细微的执行偏差会累积并随时间推移降低逻辑连贯性,尤其是在较长的视频中。在实践中,规划器将最后生成的帧和原始参考图像作为新输入来重新评估其计划。此反射循环纠正语义漂移并有助于保持视频的逻辑一致性。

潜在特征条件化的研究。本文还研究了上述利用MLLM潜在特征作为语义条件信号的方法。该方法直接利用了分析器智能体Transformer中的音频令牌。其基本原理是,Transformer层中的跨模态注意力将用高层语义(例如,推断出的情绪和意图)丰富这些音频令牌表示,同时保留其原始时间结构。基于此考虑,我们从最终的Transformer层选择了这些"注入推理的"音频潜在表示,并将它们与原始音频特征连接起来。这个组合信号随后取代了DiT网络的原始音频输入。

上述设计使本文的智能体能够为整个场景制定一个全局的、连贯的计划。与仅模拟"系统1"的纯反应性方法不同,本文方法进一步集成了来自"系统2"的 deliberative 推理,以提供深思熟虑的、自上而下的指导。

通过多模态扩散进行反应式渲染

本文的扩散模型如何合成最终视频。它协同地结合了来自智能体的高层推理(主要以文本形式表示)与音频输入的低层反应信号(主要以音频特征表示)。

重新思考参考条件化。在详细阐述本文的驱动条件建模之前,我们首先必须分析视频化身模型中的一个关键输入:条件图像,它有两个不同的用途。第一个是提供自回归连续性的初始帧,通过连接真实(GT)帧采用的标准做法。第二个更具问题性的目的是使用参考图像进行身份保持。虽然早期工作使用专用网络,并且最近的方法重用模型参数,但这两种方法都注入了从训练视频中采样的参考图像。如下图3所示,这产生了一个关键的人工痕迹:模型学习到一个虚假的关联,即参考图像应该字面意义上地出现在生成的序列中,这严重限制了运动动态,并与音频和文本驱动信号相冲突。虽然这种人工痕迹可以通过从训练视频片段之外概率性地采样参考图像来部分缓解,但这种方法可能会引入新的问题,导致模型学习到生成的输出应该与参考图像展现出显著的变化。

图片

这个问题的根本原因是参考图像是一种人为构造,而不是视频数据本身固有的条件。正是出于这个原因,我们的解决方案是在训练期间完全丢弃它,并在其位置引入一种新颖的引导机制。如图2右下角所示,在训练期间,我们概率性地以视频片段的GT第一帧和最后一帧作为模型的条件,因为这两者都是固有信号。在推理过程中,我们通过将用户的参考图像放置在最后一帧的位置来重新利用这个机制,创建一个伪最后一帧。关键的是,移动其位置编码(例如,RoPE)以保持与生成内容的固定时间距离。这个伪帧在渲染后被丢弃,其功能如同"挂在棍子上的胡萝卜":它引导模型朝向参考身份,而不强制其复制图像。正如我们的实验所示,这种方法消除了训练人工痕迹并减轻了自回归误差,在运动动态和稳定性之间实现了更优的权衡。

对称融合与预热。既然所有训练条件现在都是固有且兼容的,着手解决联合建模的挑战。采用MMDiT主干网络,但在音频条件化方法上不同于先前的工作。我们没有通过额外的交叉注意力层注入音频特征,而是引入了一个专用的音频分支,在架构上与视频和文本分支对称。然后,所有三种模态在每一层通过共享的多头自注意力机制进行融合。这种对称设计有两个关键优势。首先,它允许音频特征与视频和文本一起迭代细化,确保深层的语义对齐。其次,它实现了真正的联合建模,因为所有三种模态的标记相互关注,促进了向共享语义空间更有效的映射。虽然这个新分支增加了参数,但由于音频与视频标记的低比率,计算开销可以忽略不计。

这种对称架构虽然有益,但也带来了训练挑战。天真地联合训练整个模型会导致模态冲突,即模型学会过度依赖时间上密集的音频信号进行所有预测,从而忽略或冲淡来自文本分支的更抽象的指导。冻结预训练的分支也是次优的,因为它会导致音频分支过拟合并错误地学习与音频无关的属性,如光照和相机运动。为了解决这个问题,本文提出了一个两阶段预热策略。在阶段1,我们联合训练完整的三分支模型,迫使模型学习一个最优的分工:文本和视频分支处理高层语义,迫使音频分支专注于其核心能力(例如,唇形同步、言语习惯)。对于阶段2,我们构建最终模型。文本和视频分支使用其原始的预训练权重进行初始化,而音频分支使用从阶段1获得的预热权重进行初始化。然后对该模型进行微调。此策略确保每个分支都以自己强大的、专业化的先验开始,减轻了模态冲突,并允许每个输入保留其独特的条件化能力。

最终,所提出的架构执行了深思熟虑的计划。通过重新设计参考条件化并为模型配备音频条件化分支,我们的渲染过程忠实地翻译了来自系统2的高层指导,同时保持了系统1的反应保真度。

实验

实验设置

实现细节。本模型基于MMDiT架构,并在一个大规模文本-视频/图像对数据集上进行了预训练。在大多数实验中,模型以24 fps的帧率生成120帧、短边为480p分辨率的片段。使用相同架构的独立超分辨率模型将输出升级到720p或1080p。更长的视频以自回归方式生成。我们使用AdamW优化器,学习率为,全局批次大小为256,梯度裁剪范数为1.0。训练在256个计算节点上进行,包括三个阶段:3天的音频分支预热、7天的主训练阶段和1天在高质量数据上的微调阶段。

训练数据。训练集包含15,000小时的过滤后视频数据。遵循先前工作,使用唇形同步模型来识别并丢弃唇音相关性差的视频中的音频。这些样本占数据的70%,在训练期间与音频丢弃一起使用。在最终的微调阶段,我们根据质量指标对训练数据进行排名,并选择了前100小时。

评估数据集。为了严格评估本文的模型,注意到当前基于DiT的方法在标准人类说话场景中已经表现良好。因此,为了测试本文方法的真正泛化极限,构建了两个新颖且极具挑战性的测试集。本文的第一个自定义基准是一个多样化的单主体集,包含150个案例,包括真实世界人物肖像、AIGC人物、动漫角色和动物。每张图像都由专家手动配对了相应的音轨,如语音、歌唱或戏剧表演,以创建一个要求很高的泛化测试。为了评估更复杂场景中的性能,还构建了一个多主体集,包含57个案例,具有相同的视觉多样性以及由专家配对的多角色交互音频。此外,为了评估本文模型的文本条件化,专家为所有150个单主体案例编写了描述性提示,使我们能够衡量对文本指导的遵循程度。最后,为了与先前工作进行公平比较,采用了他们的实验设置,使用来自CelebV-HQ的100个视频进行说话头任务,并使用CyberHost测试集(269个视频,119个身份)来评估全身场景中的性能。

评估指标。为了全面评估本文方法,本文采用了一个多方面的评估协议,包括客观和主观指标。对于客观评估,使用Fréchet Inception距离 (FID)和 Fréchet 视频距离 (FVD) 来衡量生成质量,同时使用无参考图像质量 (IQA) 和美学 (ASE) 分数。我们还使用Sync-C评估视听同步,使用手部关键点置信度 (HKC) 和手部关键点方差 (HKV) 评估手部质量。然而,由于这些客观指标通常无法捕捉更高层次的语义质量和整体感知真实感,还进行了一项有40名参与者参与的全面主观用户研究。该研究包括两个主要协议。第一个是成对比较,参与者以随机顺序观看来自不同方法的两个视频。这种比较是双重的:从积极的角度,用户选择具有最佳整体质量的视频,我们据此计算好/相同/差 (GSB) 分数,定义为 ;从批判的角度,他们识别特定缺陷:唇形同步不一致性 (LSI)、运动不自然性 (MU) 和图像失真 (ID),使我们能够计算每个缺陷的比率。第二个协议是最佳选择任务,参与者从所有竞争方法中选择单个最佳视频。这产生了Top-1选择率,提供了对整体吸引力的直接衡量。

消融研究

进行了一系列消融研究,以严格验证本文提出的组件的贡献。实验在一个包含150个视频片段的定制单主体测试集上进行。本文的分析系统地分离了两个关键要素的影响:(1) 智能体推理模块和 (2) 扩散模型中提出的条件化架构。为了进行全面评估,采用了定量和主观评估。定量指标提供了性能的客观衡量,而随后的用户研究则评估了唇形同步一致性、运动自然度、图像质量和整体用户偏好方面的感知质量。

智能体推理的有效性。在此,本文通过剖析其中间步骤来分析智能体推理模块的贡献。我们首先移除多步推理过程进行实验,然后消融整个分析器,最后完全移除推理模块,得到一个"仅系统1"的模型。如表1所示,图像质量 (IQA) 和唇形同步 (Sync-C) 的标准指标在这些消融中仅显示出微小的变化。这是预期的,因为这些指标主要评估低层保真度,这在所有基于扩散的变体中都很高。然而,它们并非设计用于衡量逻辑连贯性等更高层次的语义质量。一个更具说明性的客观趋势出现在HKV指标上,该指标随着推理能力的减弱而逐渐降低,表明生成的动画变得更加静态且表现力更差。

为了真正评估我们推理模块对这些语义质量的核心贡献,因此转向主观评估。结果呈现在表2的(a)部分,提供了有和没有智能体推理模块的模型之间的直接比较。整体用户偏好 (GSB分数) 立即显示出我们完整模型的显著优势。更具体地说,引入推理导致感知运动不自然性 (MU) 显著降低,在成对比较中提高了20%以上。此外,如LSI和ID指标所反映,它保持或略微改善了唇形同步一致性和图像质量。这些发现支持了我们智能体推理模块的有效性,特别是在其增强生成动画的合理性和语义运动自然度方面的能力,这些质量是客观指标无法完全捕捉的。

所提出条件化模块的有效性。本文现在消融我们的核心架构设计,结果与先前的研究一起呈现在表1和表2中。在这些实验中,智能体推理模块保持固定,为所有模型变体提供相同的输入。我们测试了几个关键变体:使用标准交叉注意力进行音频集成而不是我们的MM-Attention,移除MM-Warmup策略,以参考图像为条件并在推理时省略伪最后一帧。如下表1所示,本文的完整模型再次在大多数客观指标中领先,其优越的HKC和HKV分数突显了增强的运动动态。为了进一步验证本文方法,下表2的(b)部分提供了与OmniHuman-1 的直接主观比较,后者是一种最先进的方法,它使用参考注意力机制和标准交叉注意力进行音频注入,而不是我们提出的条件化实现。结果表明,本文方法不仅在整体GSB分数上取得了显著优势,而且在多个细粒度维度上(包括唇形同步准确性、运动自然度和视觉质量)也表现出优势。这清楚地证明了我们提出的条件化技术的有效性,这反过来又为执行智能体推理模块生成的计划提供了坚实的基础。

图片
图片

除了消融研究,上表2还展示了在纯文本条件下与基础模型的直接比较。在此评估中,忽略了音频组件以隔离对视觉保真度和角色运动的评估。我们进行了GSB成对比较,以分析三个关键领域的性能:文本对齐 (TA)、运动自然度 (Mot) 和视觉质量 (VQ)。结果表明,本文的模型成功集成了多模态输入,同时保持了与预训练通用模型相当的文本提示跟随能力。关键的是,本文方法在运动自然度和整体视觉质量方面也显示出显著领先,这由Mot.和VQ指标反映出来。

应用的进一步探索

多样化输入的应用。如下图4所示,本文还探索了本文的模型在非人主体上的泛化能力,包括拟人化和动物角色。结果展示了显著的鲁棒性,将其归因于本文的双系统框架有效地集成了高层理解与低层合成。此外,图4的第四行突出了模型通过智能体推理模块实现的对话理解能力。对于顶部和底部的图像,我们提供了相同的对话文本,但为每个图像输入了对应不同说话者的音轨。如图所示,角色在说话和空闲状态之间无缝转换,正确地反映了对话中的轮替。这种能力,结合高效的模型加速技术,展示了我们框架在实时、交互式对话代理应用中的潜力。

图片

多人场景的应用。为了实现多人动画,通过两处修改来扩展本文的模型。首先,我们在合成过程中使用一个特定说话者的掩码作为条件,该掩码在多模态注意力过程中将音频特征注入仅导向被掩码区域。遵循InterActHuman,采用一个轻量级即插即用预测器来动态生成这些掩码,确保通过运动和遮挡进行鲁棒的说话者跟踪,而不影响基线单人模型。其次,我们利用我们框架固有的基于智能体的设计,通过增强规划器也接受此掩码来识别活跃说话者。由于推理流程的其余部分保持不变,这个简单的扩展使模型能够为场景中的所有人生成逻辑一致且协调的动作。

如下表3所示,在多人测试集上进行了定量和主观比较。我们配备智能体推理模块的完整模型,相对于两个缺乏此能力的基线模型(无智能体推理的本文的模型(消融)和InterActHuman)展示了显著改进。具体来说,本文方法在衡量手势运动动态(HKC和HKV)的指标上显示出明显优势,并实现了更好的唇形同步准确性。值得注意的是,本文使用Sync-D进行评估,因为原始的Sync-C对单人唇形同步有效,而在多人场景中对非说话个体的可靠性较低。此外,在与消融模型的成对主观评估中,本文的完整模型实现了更高的驱动准确性(DA),其定义为正确动画的个体(说话或沉默)与总人数之比。它还产生了更少的唇形同步不一致性(LSI)和运动不自然性(MU)实例。这些主观优势体现在整体胜率(GSB分数)上,共同验证了我们所提出方法的有效性。

图片

与最新方法的比较

与最先进方法的比较。在两个不同场景(肖像和全身生成)中,针对领先的学术基线方法对本文方法进行了全面评估。对于肖像场景,在CelebV-HQ测试集上将本文的模型与专门的说话头方法以及最先进的基于DiT的方法进行了比较,包括SadTalker、EchoMimic、Hallo、Hallo3、Loopy和OmniHuman-1。对于更具挑战性的全身合成任务,在CyberHost测试集上的评估包括一系列强大的近期基于DiT的模型:Skyreels-A1 、FantasyTalking、OmniAvatar、MultiTalk和OmniHuman-1。

下表4中的定量结果显示,本文方法在大多数指标上 consistently 排名前两位。在肖像场景中,本文的模型与强大的OmniHuman-1基线表现相当。我们将此归因于肖像视频中有限的运动范围,这对客观指标捕捉细微面部表情提出了挑战。我们的优势在全身场景中变得更加明显。虽然在图像质量和唇形同步方面领先,但本文的模型在生成动态、大规模运动方面表现出色,高HKV分数证明了这一点。关键的是,它在不牺牲局部细节的情况下实现了这一点,保持了有竞争力的HKC分数。综上所述,这些评估结果证明了本文方法相对于现有方法的明显优势。

图片

为了提供对感知质量更全面的评估,本文进行了用户研究以补充定量指标。首先,针对全身比较中的顶级学术基线进行了用户偏好评估,结果如下图5a所示。此外,将本文方法与四个领先的专有模型进行了基准测试,将这些模型分类为端到端(E2E)或两阶段(2S)系统(结合I2V和视频配音)。为了遵守最终用户许可协议(EULA)并避免利益冲突,这些模型被匿名化为CS-A (E2E)、CS-B (E2E)、CS-C (2S) 和 CS-D (2S)。该比较的结果如图5b所示。这些用户研究证明了我们方法的优越性,这在其处理上下文连贯性方面尤其明显,人类用户对此因素高度敏感,但客观指标往往无法捕捉到。

图片

扩展实验结果

推理过程的消融研究。在下图6中可视化展示了本文反思过程的影响。这个可选模块旨在纠正初始行动计划中的错误。没有反思过程时(顶行),模型以单次传递的方式生成动作计划。这可能导致逻辑不一致;例如,在"拿出信"之后,它生成"摩擦表面",导致信件消失并破坏语义连续性。相比之下,带有反思功能的本文的模型(底行)在生成第一个片段后修订了计划。它观察到"拿出信"的结果,并修正后续动作以与阅读信件的主题相关,确保逻辑进展并减轻错误累积。然而,由于此反思过程引入了额外的推理开销,在本文的定量比较中禁用了它。还研究了将推理潜在变量注入合成模型。虽然这鼓励了更细腻的面部表情和细微动作,但它也抑制了大的、动态的动作。由于这似乎更像是一种美学权衡而非明确的改进,并且在用户评估中不是一个重要因素,将其排除在最终模型配置之外。

图片

与基线的视觉比较。在下图7中,展示了与OmniHuman-1的视觉比较,在先前实验中确定的一个强大基线。提供了每个视频对应的语音内容。可以看出,本文方法在音频和生成动作之间表现出显著更强的语义相关性和逻辑关联性。例如,在第一个视频中,角色在呼喊"Mary"时转过头;在第二个视频中,她执行了描述中提到的画眼线和指向眼影盘的具体动作;在第三个视频中,水晶球响应巫师的咒语而发光和变化。这些高层次的、上下文感知的结果很难用客观指标捕捉,并且对现有方法仍然是一个挑战。这些定性证据进一步证实了我们方法的优越性。鼓励读者查看我们项目页面上的示例,以更直观地理解生成动作、语音内容和角色意图之间的相关性。这种对齐是先前工作中经常被忽视的一个关键方面。

图片

结论

本工作引入了一种受人类认知双系统理论启发的人类视频生成新范式。现有方法主要模拟反应式的"系统1"思维,未能将动作与高层意图对齐。提出了OmniHuman-1.5,这是一个通过两个关键创新额外模拟审慎的"系统2"过程的框架:一个基于MLLM的智能体用于语义规划,以及一个专门的MMDiT架构,带有新颖的伪最后一帧策略来融合多模态信号。实验表明,本文方法生成了更具表现力和逻辑一致性的结果,用户因其自然性和合理性而显著偏好。通过证明此框架的有效性,甚至将其扩展到多人场景,我们相信模拟认知能动性为创建下一代逼真数字人提供了新的视角。

更广泛的影响

本工作核心贡献是引入了一种视频化身生成的新范式。通过模拟双系统认知框架,本文的模型在运动表现力和逻辑连贯性方面达到了新的水平,超越了单过程生成的局限性。虽然这一进步为AI驱动的电影制作和音乐视频等创意应用开辟了令人兴奋的可能性,但我们敏锐地意识到高度逼真的化身技术可能被滥用的潜在风险。为了解决这些伦理问题,主张建立一个负责任的部署的稳健框架。尽管当前的结果可能仍然带有AI生成的细微人工痕迹,这可以起到轻微的威慑作用,但主动的保障措施至关重要。强烈建议采取以下措施:(1) 在所有生成内容上应用显著、可见的水印,以明确标记其为AI生成;(2) 实施过滤算法,拒绝不适当或恶意的输入提示并审查输出内容;(3) 嵌入可追踪的、不可见的水印,以确保问责制并在发生滥用时帮助识别来源。通过整合这些安全协议,我们可以帮助确保我们的技术促进创造力,同时最小化欺诈或虚假信息等恶意应用的风险。

参考文献

[1] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

让虚拟人秒懂人类情感!多模态DiT架构炸裂升级:字节OmniHuman-1。5让Ta拥有灵魂!

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 作者:Jianwen Jiang等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2508.19209  项目链接:htt...