AI I024: 破局角色一致性！京东发布百万级高清数据集+Lay2Story，实现故事角色像素级精准操控

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Ao Ma等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2508.08949

亮点直击
一种进阶版的故事生成任务：布局可切换的故事生成（Layout-Togglable Storytelling），通过引入布局条件实现主题的精准控制。该方法在确保主题一致性的同时，支持对主题位置、外观、服装、表情、姿态等细节的精细调控。
构建了Lay2Story-1M数据集，是目前规模最大的故事生成数据集，包含超100万张720p及以上分辨率的图像，并附带详细主题标注。
Lay2Story，一种基于DiTs架构的训练方法，专为布局可切换的故事生成任务设计。通过与现有故事生成方法的广泛对比，验证了Lay2Story在一致性、语义相关性和美学质量上均优于相关方法。

总结速览

解决的问题

主题一致性不足：现有方法（训练无关和训练相关）在生成连贯故事序列时，难以保持主题（如人物、物体）的细粒度一致性（如位置、外观、服装、表情、姿态）。
缺乏精细控制：现有技术无法精确控制生成内容的关键细节（如主题位置、属性），主要由于缺乏高质量标注数据。
数据稀缺：领域内缺少大规模、高分辨率且带有布局标注（如边界框、掩码）的数据集，制约了任务发展。

提出的方案

布局条件引导：引入布局条件（如主题位置、属性标注）作为细粒度指导，增强帧间交互，提升一致性和可控性。
新任务定义：提出Layout-Togglable Storytelling任务，支持通过布局条件精确控制主题生成。
数据集与基准：

构建Lay2Story-1M：包含超100万张720p+图像（源自11,300小时卡通视频），带布局标注。
发布Lay2Story-Bench：含3,000提示词的评测基准，用于方法对比。

模型框架：提出Lay2Story，基于DiTs架构，通过双分支（全局分支+主题分支）实现布局条件融合与主题一致性生成。

应用的技术

基础模型：基于扩散Transformer（DiTs）的PixArt-α作为主干模型。
双分支设计：

全局分支：以噪声潜变量和全局文本提示为输入，生成整体场景。
主题分支：结合噪声潜变量、主题掩码和参考图像潜变量，通过主题文本提示保持细节一致性。

布局条件注入：通过主题掩码和位置标注控制生成内容的精确空间布局与属性。
数据构建：从视频中提取高分辨率帧，人工标注主题位置、外观等属性，形成高质量训练与评测数据。

达到的效果

性能优势：在一致性、语义相关性和美学质量上超越SOTA方法（如1Prompt1Story、FLUX.1-dev IP-Adapter等）。
精细控制：实现主题位置、外观、姿态等属性的精准调控，生成结果更符合用户意图。
数据贡献：填补领域数据空白，Lay2Story-1M和Lay2Story-Bench为后续研究提供资源支持。
任务扩展：推动 storytelling 任务向布局可切换的高级控制方向发展，为影视、游戏等场景提供新工具。

Lay2Story-1M

Lay2Story-1M 是专为布局可切换故事生成（Layout-Togglable Storytelling）任务设计的数据集。它包含约20万组帧序列，每组包含4至6张图像，均以同一主题为核心且分辨率不低于720p。数据集总计约100万张图像。每张图像均标注了全局描述（格式为"身份提示+帧提示"），与其他故事生成方法类似。为实现对主题生成的精准控制，本文额外标注了布局条件，包括主题位置和描述性文本。

为简化任务并降低标注工作量，本文聚焦卡通场景数据，仅标注每帧中最显著的主题角色（即使存在多个主题）。如下表1所示，Lay2Story-1M在现有故事生成数据集中规模最大、分辨率最高且标注最细。该数据集还可用于其他任务，如高质量卡通图像生成和布局到图像生成。接下来介绍数据收集与筛选流程，帧序列构建流程，基于Lay2Story-1M构建的测试集Lay2Story-Bench。

数据收集与筛选

视频收集：鉴于视频数据天然具备主题一致性，本文选择视频作为主要数据源。从互联网采集三类视频：

PBS Kids与Khan Academy：从支持教育与非盈利项目的平台（如PBS Kids和Khan Academy）收集约1.2万部卡通视频；
Internet Archive：从公共版权库Internet Archive获取约8000部无版权视频；
YouTube视频：从YouTube下载约2万部高质量卡通视频，并通过以下措施规避版权风险：

仅使用公开频道数据，不涉及独家或私有来源；
仅共享视频ID与数据处理代码，不提供原始数据；
严格遵守YouTube数据隐私与合理使用政策，数据仅限研究用途。

视频筛选：

基础筛选：仅保留分辨率≥720p、时长1分钟至2小时的视频，且每部动画最多采集100个片段以平衡类别分布；
质量过滤：参照MiraData，按8帧/分钟采样帧序列后，使用Laion-Aes美学评分模型评估质量，并通过Stable Diffusion安全检测器排除NSFW内容；
最终数据：筛选后保留约2.5万部视频（总时长约1.13万小时），平均单视频时长27.2分钟。视频时长分布如下图2所示。

帧序列构建

如下图3所示，本文开发了一套鲁棒的数据处理流程来生成符合训练和测试要求的帧序列。该流程包含以下关键步骤：

(1) 帧提取
对于每个输入视频，我们使用FFmpeg以0.25 FPS的速率采样帧。过高的采样率会导致帧冗余，而过低的采样率可能造成显著数据丢失。

(2) 主题检测
采用GroundingDINO-B检测采样帧中的主题，仅保留检测分数最高的边界框作为主题位置。

(3) 特征提取与聚类
使用CLIP-L提取每帧主主题区域的视觉特征，并通过K-means聚类对相似帧分组。为平衡聚类效率与效果：

每150帧为一组时，设置12个聚类中心；
不足150帧的组，设置6个聚类中心。

(4) 分组
聚类后，按预设概率分布将帧组织为4、5、6帧的序列，以丰富训练和测试数据。

(5) 标注
对每组帧序列：

使用GPT-4o mini生成结构化标注：

首先生成全局描述（格式为"身份提示+帧提示"）；
随后基于位置坐标裁剪主题图像，生成细粒度描述（涵盖外观、服装、表情、姿态等）。

该流程确保了数据集的高质量生成，同时保持训练与评估的一致性和多样性。通过此流程，处理了前面筛选的视频，最终得到约102万张图像的Lay2Story-1M数据集。其中4、5、6帧序列分别占总帧数的50%、30%和20%。

Lay2Story-Bench

从Lay2Story-1M中精选了3,000个样本构建Lay2Story-Bench，确保其中帧序列长度为4、5和6的比例与训练集中的比例一致。最终测试集包含375个长度为4的序列、180个长度为5的序列和100个长度为6的序列。
为了提升最终测试结果的视觉质量，从美学评分排名前10%的视频中筛选序列。并通过限制每个视频类别的帧序列集不超过8个，手动维护测试数据集的多样性和平衡性。为确保公平性，我们记录了所选序列的视频ID，并保证训练集中不会出现来自相同视频的其他序列。

如下表2所示，与之前最常用的基准测试ConsiStory相比，Lay2Story-Bench提供了更大规模的提示集、更高的提示多样性、高分辨率的原始帧作为真实值（GT），以及详细的主体标注。

方法

Lay2Story

在布局可切换的故事生成任务中，模型需要根据主体的位置和描述性标题精确控制图像中主体的位置和外观。为此，本文提出了Lay2Story，如下图4所示。它是一个故事生成模型，需要参考图像及其对应的边界框，以及故事中每张图像的主体边界框。边界框和会被处理成掩码和以供进一步计算。Lay2Story包含两个主要分支：全局分支和主体分支。全局分支的输入是噪声潜在表示，并以全局标题为指导，专注于图像的整体质量。主体分支的输入则包括噪声潜在表示、参考图像的潜在表示以及给定图像的掩码。在主体分支中，模型使用主体标题作为条件，并利用主体位置约束注意力计算的范围，确保注意力仅计算在包含主体的区域内。此外，还采用了跳跃连接设计，将每个模块的输出返回到全局分支，促进全局和局部信息的更好融合。为确保故事中不同图像的主体外观一致性，主体分支引入了3D注意力机制，并以主体标题为指导。

全局分支

本文使用在Lay2Story训练集上微调的PixArt-α模型作为全局分支。PixArt-α中的每个Transformer模块包含三个核心组件：AdaLN-single、自注意力和交叉注意力。

AdaLN-single
在AdaLN-single中，使用第一个模块中的时间嵌入计算一组全局的平移和缩放参数，这些参数在所有模块中共享。对于每个模块，通过特定于层的可训练嵌入调整参数，使模型能够独立调整每个模块的平移和缩放。具体而言，给定当前时间步作为输入，通过多个MLP层映射得到六个参数，用于调整不同模块中的缩放和平移参数。

自注意力层
DiTs中的自注意力机制在捕获输入数据不同部分之间的依赖关系方面起着关键作用。对于第个模块，自注意力层将第个模块输出的噪声潜在表示作为输入，并将其用作查询（）、键（）和值（）。

交叉注意力层
在自注意力和前馈层之间插入了一个多头交叉注意力层，使模型能够与全局文本嵌入灵活交互。全局文本嵌入通过语言模型T5获得，即。在交叉注意力层中，我们使用噪声潜在表示作为查询（），全局文本嵌入作为键（）和值（）。

主体分支

Lay2Story中主体分支的设计旨在实现更可控的故事生成。该分支的设计灵感来源于ControlNet。为节省计算资源，我们每经过两个全局分支模块后引入一个主体分支模块的输出。为提高训练效率，我们部分复用了全局分支的参数。主体分支的指导条件包括主体的掩码及其详细描述。该分支的核心由四个关键组件组成：AdaLN-single（遵循PixArt-α的设置）、掩码自注意力、掩码交叉注意力和掩码3D自注意力。掩码注意力的计算可以优雅地统一如下。

其中表示掩码，其维度与相同，背景区域值被设置为较大数值，表示softmax函数。

参考图像拼接
对于输入部分，首先将参考图像通过VAE编码得到四通道特征图。根据帧中主体边界框信息生成参考图像的掩码。对和进行零填充使其通道数扩展至与噪声潜在表示的帧数一致。随后沿通道维度拼接图像特征、掩码和噪声潜在表示，得到9通道输出。最终通过卷积层将通道数降为4，生成主体噪声潜在表示作为主体分支的输入。

掩码自注意力层
为加强对主体区域空间上下文的关注，采用掩码自注意力机制。根据跨帧主体边界框生成掩码作为自注意力机制的输入掩码。第个模块中，掩码自注意力层将第个模块输出的噪声潜在表示作为输入，并分别作为查询()、键()和值()，同时以作为注意力掩码。

当用户未提供边界框时，初始化25%的掩码为全有效值，即在训练时将整个区域标记为主体区域。该策略促使模型在标注缺失时仍能优先关注主体区域，同时保持空间感知鲁棒性。

掩码交叉注意力层
为融入更细粒度的主体外观描述，本文引入掩码交叉注意力层。首先使用T5编码主体标题获得文本嵌入。在掩码交叉注意力中应用掩码（为标题长度），以主体噪声潜在表示作为查询()，主体文本嵌入作为键()和值()，作为注意力掩码。该设计旨在增强模型捕获主体细节属性的能力，同时保持空间一致性。

当用户未提供主体标题时，我们以25%概率将随机替换为全局标题进行训练。

掩码3D自注意力层
为确保跨图像主体一致性，借鉴视频生成任务设计了掩码3D自注意力机制。首先将主体噪声潜在表示重塑为以实现跨帧信息传播，并应用注意力掩码约束模型仅关注主体位置。该层以作为查询()、键()和值()，作为掩码，有效保障故事生成中主体的连贯性。

主体分支信息传播
采用类似ControlNet的方式将主体分支更新后的特征传播至全局分支。由于跳跃连接结构的设计，全局分支每经过两个基础模块后，其输出将同步接收经过零线性层处理的主体分支输出。该过程可表示为：

实验

实现细节

基线方法与基准测试
将本方法与以下故事生成方法进行对比：BLIP-Diffusion、StoryGen、ConsiStory、StoryDiffusion、1Prompt1Story 和 FLUX.1-dev IP-Adapter。采用其论文或开源实现中指定的默认配置。

在评估阶段，使用Lay2Story-Bench对上述方法进行定性与定量比较。定性比较中，所有方法均采用4帧提示集生成推理结果。需特别说明，由于本方法支持布局条件（包括主体位置和标题）的可切换输入，分别展示包含与不包含这些输入的生成结果。定量比较中，所有方法均在Lay2Story-Bench完整提示集上评估，同样展示带/不带布局条件输入的生成结果。
评估方法
基于先前方法[38,80]，采用DreamSim和CLIP-I评估主体一致性。为确保相似度测量仅聚焦主体身份，参照DreamSim方案，使用CarveKit去除图像背景并替换为随机噪声。同时采用FID指标评估生成图像质量，Recall@1衡量top-1图文匹配准确率，人工偏好度反映三位标注者的平均二元评分。

定性结果

如下图5所示，定性对比了Lay2Story与StoryDiffusion、ConsiStory、1Prompt1Story和FLUX.1-dev IP-Adapter。现有研究在保持图像序列主体一致性方面存在困难（如StoryDiffusion中的棕熊和ConsiStory中的加菲猫），并出现语义关联错误（如1Prompt1Story第7帧和FLUX.1-dev IP-Adapter第4帧）及美学质量失真（如StoryDiffusion第4帧和ConsiStory第4帧）。综合比较表明，Lay2Story在一致性、语义相关性和美学质量上均优于基线方法。

同时展示Lay2Story带/不带布局条件的生成结果（最后两行）。当提供布局条件（含主体标题和位置）时，Lay2Story能实现更精细的主体控制（例如末行中加菲猫在第2帧穿着绿裙，熊在第5帧佩戴眼镜）。

定量结果

如下表3所示，定量对比了Lay2Story（带/不带布局条件输入）与基线方法。在主体一致性指标（DreamSim和CLIP-I）方面，当提供布局条件时，Lay2Story优于所有其他方法——CLIP-I超过第二名约1.6个百分点，DreamSim领先约2个百分点。语义相关性指标（Recall@1）上，带布局条件的Lay2Story同样超越所有方法，较第二名提升约2个百分点。美学质量指标（FID）显示，布局条件下的Lay2Story显著优于其他方法，较第二名高出约6.4个百分点。

即使不提供布局条件输入，Lay2Story仍具竞争力：CLIP-I排名第二，Recall@1、DreamSim和FID均位列第三。推理时间对比表明，无布局条件时Lay2Story仅产生0.4秒差异，速度仅次于BLIP-Diffusion但性能全面领先。

消融实验

Lay2Story关键组件消融
如下表4所示，评估了主体分支、参考图像拼接和掩码3D自注意力层的影响。通过FID、Recall@1和人工偏好度三项指标验证了各核心组件的有效性。

布局条件输入消融
如下图6所示，通过调整去噪步数（带/不带布局条件）评估模型性能。测试提示为"夜晚森林中，小象和小熊围着篝火跳舞"。结果表明布局条件能显著提升效果，尤其在早期去噪阶段（如T=5时小象轮廓更清晰）。后期阶段（T=30）带布局条件的图像质量同样更优。

结论

本文提出故事生成任务的进阶形式——布局可切换故事生成（Layout-Togglable Storytelling），支持通过布局条件实现精准主体控制，同时保留用户选择权。构建了Lay2Story-1M数据集，包含超100万张720p及以上分辨率的高质量图像及精细主体标注；基于此推出含3000条提示的评估基准Lay2Story-Bench。提出的Lay2Story方法基于DiTs架构，实验表明其在一致性、语义相关性和美学质量上均超越现有方法。

参考文献

[1] Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年8月13日星期三

破局角色一致性！京东发布百万级高清数据集+Lay2Story，实现故事角色像素级精准操控