👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Wei Chow、Jiachun Pan等
论文链接: https://arxiv.org/pdf/2511.11434
项目链接:https://weichow23.github.io/weave/
亮点直击
数据集创新:WEAVE-100k——首个面向多轮上下文感知图像理解与生成的大规模数据集。包含10万个样本、37万轮对话和50万张图像,全面覆盖图像理解、编辑与生成三大任务。 评估体系构建:WEAVEBench是首个面向交错式多模态理解与生成任务的人工标注评测基准。该基准包含100个精心设计的测试案例,并创新性地采用混合VLM评估框架,系统评估多轮生成、视觉记忆与世界知识推理能力。 实证研究突破:验证了基于WEAVE-100k的训练能显著提升模型在传统基准测试中的性能,并有效激发视觉记忆能力的涌现。WEAVEBench评估结果揭示了现有模型在多轮上下文感知生成方面仍存在持续性的技术局限。
总结速览
解决的问题
核心局限:现有统一多模态模型的数据集和基准测试主要针对单轮交互,无法支撑对多轮次、上下文关联的真实世界图像创作与编辑过程的研究与评估。
提出的方案
核心方案:推出名为WEAVE的全套解决方案,这是首个面向上下文交错式跨模态理解与生成的研究体系。 组成部分: WEAVE-100k:一个包含10万样本、37万轮对话和50万图像的大规模数据集,覆盖需历史上下文推理的理解、编辑与生成任务。 WEAVEBench:一个包含100项任务(基于480张图像)的人工标注基准测试平台,用于系统评估模型能力。
应用的技术
混合VLM评估框架:在WEAVEBench中,创新性地结合参考图像及 "原图+编辑指令" 的方式进行综合评估。 多任务数据集构建:在WEAVE-100k数据集中,整合了理解、编辑和生成三大任务维度,并要求模型进行历史上下文推理。
达到的效果
能力提升:基于WEAVE-100k的训练能有效提升模型的视觉理解、图像编辑及理解-生成协同能力,并促进视觉记忆这一新能力的涌现。 评估与发现:WEAVEBench的评估揭示了当前先进模型在多轮上下文感知图像生成与编辑方面仍存在持续的技术局限。 社区贡献:为多模态社区研究上下文交错式理解与生成提供了全新的视角和重要的基础支撑。
WEAVE
为评估上下文交错式理解与生成能力,首先介绍WEAVE-100k和WEAVEBench的数据收集流程,随后详述评估设置与指标,并呈现WEAVE的核心统计数据。
数据收集
WEAVE-100k 为生成具备视觉记忆能力的丰富多样数据,本文构建了如下图3所示的数据流水线。该流水线包含四条独立生成路径,并经过多轮过滤优化阶段以确保数据准确性与质量。为生成具有视觉记忆能力的多轮编辑数据,本文实施了四种方法路径:(i) 多图像融合:通过融合编辑后或直接生成的图像实现历史迭代参照;(ii) 移除后复原:采用先移除/替换对象再重新添加的技术,使系统能够回忆先前删除的视觉元素;(iii) 衍生想象与比较:在融合前引入推导替代方案或生成新图像的衍生方法;(iv) 序列化流程:按照叙事进程或结构化编辑操作实施序列化编辑。
WEAVEBench 由具有STEM专业研究生学历的人员进行标注。该基准包含16个任务类别的100个测试项,既涵盖需要视觉记忆的多轮编辑任务,也包含需要世界知识(文化背景、物理现象与化学过程)的挑战性任务。如下图2所示,任务包括生成涉及东京塔的实例及展示对交通信号反应的理解。所使用的图像包含网络采集内容以及来自三个模型的合成生成图像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。
评估设置与指标
本文采用VLM-as-judge自动评估框架。为实现聚焦评估,本文采用基于关键点的结构化评分方法:通过混合策略指导VLM同时依据参考图像及"原图+编辑指令"组合进行评估。如下图5所示,评估器调用不同图像作为参照,并根据预设关键点进行评分。
本文的评估包含4项指标(前三项适用于编辑任务,末项适用于理解任务):
关键点正确性 (KP):衡量编辑后图像是否满足指定编辑要求。 视觉一致性 (VC):确保非目标元素保持不变,保持与原始图像的一致性(场景保留时未编辑区域完整保留;场景修改时编辑区域保持风格协调),并评估编辑对象的身份保持度。 图像质量 (IQ):评估生成图像的整体质量。 准确率 (Acc):衡量推理结果的正确性。
数据统计
对于WEAVE中的每个实例,本文提供文本提示、一张或多张初始图像以及真实示例。测试集还包含正确输出图像必须满足的关键信息。
附录D提供了代表性数据集示例。下表4展示了训练集的关键统计数据。大多数实例包含超过五张图像,每个实例平均有3.8轮对话。上图5展示了训练集和测试集的类别分布,显示出跨数据类型的相对均衡分布。
实验
首先评估了22个模型在WEAVEBench上的表现,发现当前模型在上下文交错生成方面存在困难,且随着内容长度增加出现性能下降。随后,本文通过微调Bagel验证了WEAVE-100k的高质量特性。最后进行了质量分析并评估了评判器的有效性。
WEAVEBench
设置。 如下表2所示,本文在WEAVEBench上评估了4个LLM、7个编辑模型和11个UMM。评估在三种不同的上下文条件下进行:(1) 无上下文(无上下文信息的单轮生成),(2) 部分上下文(仅使用自生成图像及明确提及的视觉上下文,排除其他历史交互),(3) 完整上下文(可见所有先前交互)。对于图像放置,本文采用两种配置:"首次提及"(图像出现在首次提及位置)和"前置集中"(所有图像整合在输入开头),下表2报告了后者的结果。对于无法处理序列格式输入的模型,本文按照先前工作[19,89]的方法实施了拼接方案。
根据表中结果,本文得出以下结论: 上下文图像生成仍具挑战性。测试模型中,表现最佳的编辑模型和UMM方法分别仅获得0.68和0.767的最高分。此外观察到显著的领域偏差,创意图像领域的表现持续优于科学和逻辑领域。这表明生成能力在有效整合世界知识方面仍有较大提升空间。
上下文使用至关重要 (a) 对于理解任务,使用上下文信息相比无历史上下文的基线条件带来显著性能提升。如下图6(a)所示,QwenVL表现出163%的显著提升,表明WEAVEBench成功将历史信息纳入模型评估。(b) 对于生成任务,增加上下文内容对不同模型类型产生分化效应。开源模型随着历史上下文增加出现性能逐步下降——Qwen-Edit分别出现5.3%和8.6%的性能递减。这表明受单轮编辑能力限制的开源模型,在处理扩展上下文信息时定位精度下降,因而无法有效利用上下文数据。相反,Nano等闭源模型表现出渐进式改进,表明其成功利用了上下文信息。(c) WEAVEBench展现优异图像质量。如下图6(b)所示,采用WEAVEBench真实图像作为上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表现出7.1%的显著提升,这可能源于其生成能力相对nano-banana[21]固有较弱。
序列输入优势。 如上图6(c)所示,序列图像输入相比拼接输入展现出显著性能优势。该效应在Bagel模型中尤为突出,拼接输入导致10.3%的性能下降。这些发现凸显了UMM作为有效编辑模型的潜力,特别是考虑到传统编辑模型无法直接处理多图像和历史信息作为输入。
WEAVE-100k训练
为验证数据的有效性,本文在Bagel上进行实验。在四类任务上实现性能提升: (i) 视觉理解。 本文的数据有效提升理解任务性能,尤其在MMMU上获得9.8%的提升。(ii) 图像编辑。如下表3所示,微调后的Bagel在GEditBench上总分提升4.8%。该模型在多数任务中超越基线版本,材质变更和风格变更类别提升尤为显著,分别达到13.4%和15.6%。(iii) 理解与生成协同。上表4显示,微调后Bagel在RISE认知任务中实现显著提升。空间推理和逻辑推理任务均呈现100%的性能增长,表明微调后模型能更有效利用理解能力和世界知识来增强生成过程。这些发现印证了WEAVE-100k方法的高质量特性。(iv) 交错式跨模态理解与生成。如表2所示,本文的微调模型在WEAVEBench上相比Bagel提升42.5%。在更具挑战性的科学问题上表现提升34.6%,表明使用本数据集训练显著增强了模型的交错式跨模态理解与生成能力。
质量分析
如下图7所示,通过质量结果分析本文得出以下结论:(i) 指令遵循能力仍需提升。例如图中左侧案例,OmniGen和Ovis未能正确执行生成;右侧案例第三列显示Qwen-Image-Edit仅生成塔楼而未包含任何人像。(ii) 基于weave数据集的微调催生了视觉记忆能力。微调模型在左侧案例中正确区分穿粉色和黄色衣服的主角,在右侧案例中展现出先移除人像再重新整合的能力。
评判器使用的可靠性
为评估VLM-as-a-judge评分的可靠性,开展了专家评估研究,邀请三位人类专家对Nano-banana、Qwen-Image-Edit和SeeDream模型进行交叉评估,每个模型分析100个实例。通过计算GPT-4.1评分与专家评分之间的皮尔逊相关系数,并与Claude Opus 4.1评估结果进行对比分析(上图6)。结果表明:GPT-4.1与人类评分的相关性持续超过0.8,而Claude评估则展现出强大的跨VLM一致性,这说明VLM评估器的具体选择对评估结果影响甚微。
结论
WEAVE——首个面向上下文交错式跨模态理解与生成的综合套件。推出了包含10万样本、37万对话轮次和50万图像的大规模数据集WEAVE-100k,以及由100项任务(含480张图像)构成、配备混合VLM评判器评估框架的人工标注基准WEAVEBench。实验表明,基于WEAVE-100k的训练在多个权威基准上取得显著提升:MMMU提升9.8%,GEditBench提升4.8%,同时促进了UMM中视觉记忆能力的涌现。与此同时,WEAVEBench的广泛评估揭示当前模型在多轮上下文感知生成方面仍存在困难,尤其在内容长度增加时表现更为明显。此外,这项挑战性任务已被证明超出传统编辑模型的能力范围。WEAVE为上下文交错式多模态理解与生成研究奠定了基石,并凸显了该领域发展的迫切必要性。
参考文献
[1] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论