2025年12月22日星期一

NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench :全能故事可视化基准首发!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu

解读:AI生成未来
图片

论文链接: https://arxiv.org/abs/2505.24862
项目链接: https://vistorybench.github.io
代码链接: https://github.com/vistorybench/vistorybench

亮点直击

如果把"故事可视化"理解成一次跨媒介的"编码—传输—解码":文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。那么,难点从来不只是"画得好看",而是叙事信息能否稳定、可控、可验证地被传递。ViStoryBench 的价值就在于:第一次把这套"传播链路"拆开来测。

  • 首个全能故事可视化基准:ViStoryBench 是一个全面的基准测试套件,涵盖80个多镜头故事、10种视觉风格和1300+个分镜,旨在评估模型在复杂叙事结构、视觉风格和角色设定下的生成能力。
  • 12维硬核评测指标:引入包括角色ID一致性(CIDS)同屏角色计数(OCCM)复制粘贴检测(Copy-Paste)等在内的12项自动化指标,并通过人类评估验证了其可靠性。
  • 30+主流模型大考:评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。
  • ViStoryBench-Lite:针对评估成本高的问题推出 Lite 版本,在保持统计分布一致性的前提下,用更低成本实现"可代表性"的能力测评。
图片

解决的问题

1)现有基准"只测画面,不测叙事链路"
当前故事可视化(Story Visualization)基准往往范围狭窄:要么局限于短提示词、要么缺乏角色参考图(Character Reference),要么只关注单张图像。结果是:它们很难覆盖真实创作里最关键的传播目标——多镜头连续叙事中的信息一致性(角色、场景、动作、镜头语言)。

2)缺乏统一标准,导致"各说各话"
不少工作只用少量指标评估,缺少衡量叙事对齐度风格一致性角色交互的共同标尺。传播学上这会造成一个后果:你无法区分模型到底是"理解了故事",还是"碰巧生成得像"。

3)"复制粘贴"作弊:一致性被刷出来了
很多模型为了维持角色一致性,直接把参考图"贴"到生成结果里(或高度复用其局部特征),牺牲了剧情所需要的动作、表情变化。更麻烦的是:传统指标往往会把这种"作弊式一致性"当作能力提升,从而让评测结论失真。

图片

提出的方案

多面数据集构建(Multifaceted Dataset Creation)ViStoryBench 精选80个故事片段,来源覆盖电影剧本、文学经典、民间传说等,LLM 辅助摘要与剧本生成并经人工校验。它用结构化提示工程把 LLM 变成"可控的分镜剧本生成器",剧本由五个维度构成:

  • 场景描述(Setting)
  • 情节对应(Plot)
  • 登场角色(Onstage Characters)
  • 静态镜头描述(Static Shot)
  • 镜头视角设计(Shot Perspective Design)

数据集包含344个角色、509张参考图,覆盖10种视觉风格(如日系动漫、写实电影、绘本风等)。这相当于把"叙事传播"拆成可标注、可复核的单位,让评测不再停留在"感觉像不像"。

图片

全方位评估指标(Comprehensive Evaluation Metrics)为了把"讲故事能力"落到可量化的维度,ViStoryBench 设计了12项自动指标,核心是把模型的输出拆成几类传播失真:身份失真、数量失真、对齐失真、风格失真、以及投机失真。例如:

  • 角色识别相似度(CIDS):检测角色并提取特征,计算生成图与参考图(Cross)及生成图之间(Self)的余弦相似度。
  • 同屏角色计数匹配(OCCM):针对"幻觉加人/漏画人",量化生成角色数量的准确性。
  • 复制-粘贴检测(Copy-Paste Detection):通过几何归一化特征比对,检测过度复用参考图的投机行为。
  • 提示词对齐(Prompt Alignment):利用专家模型与 VLM,对场景、运镜、角色交互、个体动作进行细粒度打分。

应用的技术

  • LLM-driven Script Creation:用大语言模型做剧本的结构化拆解与分镜化表达。
  • Hybrid Evaluation Framework:结合专家模型(ArcFace, Grounding DINO)与多模态大模型(GPT-4o, Qwen-VL)的混合评估框架。
  • Character Identification Similarity(CIDS):基于特征提取与二分图匹配的角色一致性计算。
  • Copy-Paste Rate:基于 Softmax 概率分布,衡量生成特征对某张参考图的"过拟合式贴图"。
图片

国内外各个模型的表现

对30+方法的大规模评测给出了几条很"现实"的结论——不同路线在传播链路的不同环节各有强项:

GPT-4o 的双面性
GPT-4o 在 叙事对齐(Alignment Score: 3.67) 和 角色计数(OCCM: 93.5) 上非常强,说明它在"理解剧本并按指令组织信息"方面优势明显;但在视觉质量(Inception Score)与风格多样性上略逊,体现出"会讲"未必"会画"。

商业软件的优势
MorphicStudio、Doubao 等商业工具在 美学质量(Aesthetics) 和 风格一致性上更稳,更像面向生产的"视觉呈现优化";但细粒度叙事控制弱一些,对镜头语言的精准响应也不如 LLM 路线稳定。

Sora2 的多镜头能力
作为原生视频模型,Sora2 在 跨镜头一致性(Self-Sim: 0.813) 表现突出,背后是对电影数据的学习红利;但在遵循特定视觉参考(Image Ref Cross-Sim)上仍有提升空间——更"像电影",但未必更"像你指定的角色"。

视频 vs 图像
目前视频生成模型(Vl ogger、MovieAgent)在单帧质量与角色一致性上,普遍不如专门的故事图像方法(OmniGen2、UNO)。时间维度带来连贯性红利,也带来每帧细节的损耗。

权衡(Trade-off)
一致性(Consistency)与多样性(Diversity)存在明显权衡:越一致越可能"复制粘贴",越多样越可能"跑角色"。Copy-Paste 指标把这个隐性矛盾显性化,避免被"刷分式一致性"误导。

图片

结论与局限性

ViStoryBench 是目前评估故事可视化任务最全面、最严格的基准:它不仅提供高质量多镜头数据集,还把"讲故事"拆成可自动化度量的能力结构。实验结果也很直观:没有任何单一模型能在所有维度通吃——LLM 更擅长叙事组织,商业工具更擅长视觉呈现,视频模型更擅长跨镜头连贯。

局限性:目前主要聚焦多图一致性评估,尚未纳入音频对齐或更复杂的时序动态指标;混合评估中使用的 VLM 仍可能存在少量幻觉(已做稳定性测试)。未来工作将补齐背景一致性评估,并向长视频叙事基准迈

参考文献

[1] ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

当公益AI挡了某些人的财路,他们选择了最脏的手段……

我们深知,在逐利的时代坚持纯粹的公益,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。 我们深知,在逐利的时代坚持 纯粹的公益 ,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。 一、 突如其来的"暴雨":复盘疯狂的...