字节跳动团队开源Lance,一款仅3B参数的原生统一多模态模型,支持图像和视频的理解、生成与编辑。在GenEVAL、DPG-Bench等基准测试中表现强劲,超越现有开源统一模型。适用于科研、开发及AIGC应用,提供论文、代码和模型权重。
Tags:
字节跳动研究团队提出的 Lance 是一个 3B 原生统一多模态模型,支持在单一框架内理解、生成和编辑图像和视频。
高效处理 30 亿级数据。Lance仅需30 亿个活动参数,即可在图像生成、图像编辑和视频生成基准测试中展现强劲性能。 从零开始训练。Lance采用分阶段多任务方案构建,并在128 个 A100 GPU 的预算内完全从零开始训练(ViT 和 VAE 编码器除外;Transformer 主干网完全从零开始训练)。
文本转图像
具有代表性的文本转图像输出,涵盖照片级写实、风格化、构图式和以文字为主的提示。
图像编辑
图像理解
文字转视频
相关链接
论文:https://arxiv.org/pdf/2605.18678 仓库:https://github.com/bytedance/Lance 主页:https://lance-project.github.io 模型:https://huggingface.co/bytedance-research/Lance
论文介绍
Lance是一款轻量级原生统一模型,可支持图像与视频的多模态理解、生成及编辑任务。与依赖模型容量扩展或文本-图像主导设计的传统方法不同,Lance探索了一种通过协同多任务训练实现统一多模态建模的实用范式。该模型以两大核心原则为基础:统一上下文建模与解耦能力路径。具体而言,Lance采用从头训练的方式,在共享的交错多模态序列上构建双流混合专家架构,既能实现跨模态的联合上下文学习,又能解耦理解与生成的路径,确保两种核心能力各自优化。此外,模型引入模态感知旋转位置编码,以减轻异质视觉令牌间的干扰,提升跨任务对齐效果。训练过程中,Lance采用分阶段多任务训练范式,结合能力导向目标与自适应数据调度,进一步强化语义理解与视觉生成性能。实验结果表明,Lance在图像和视频生成任务上显著优于现有开源统一模型,同时保留了强大的多模态理解能力。
总体概述
Lance概况。给定跨 X2T、X2I 和 X2V 的多任务输入,Lance 对所有输入标记进行编码转化为统一的 MaPE 增强型多模态上下文序列。双专家骨干执行广义 3D 对共享上下文的因果关注并产生特定于任务的隐藏状态,这些隐藏状态由 LM 进一步解码用于自回归下一个标记预测的头和用于视觉潜在空间中速度预测的流头。
实验结果
多模态基准测试的比较
雷达图将 Lance 与具有代表性的统一基线和任务专用基线进行比较。 详细表格: GenEVAL、 DPG-Bench、 GEdit-Bench、 VBench和 MVBench。
GenEVAL 图像生成
GenEVAL 评估对象数量、颜色、位置和属性绑定。Lance 在列出的统一模型中综合得分最高,同时仍保持紧凑的 3B 型模型特性。
DPG-Bench 图像生成
DPG-Bench 强调在全局、实体、属性、关系和其他组成维度上遵循复杂的提示;Lance 在关系基础方面尤其出色
结论
Lance是一种轻量级的原生统一多模态模型,用于图像和视频理解、生成和编辑。论文主要发现是多任务协同可以有效推进统一 多模式建模,使不同的任务能够在共享框架内相互增强。Lance 将统一的交错上下文建模与解耦的功能路径相结合,从而允许语义理解和视觉合成进行交互,同时保留特定于任务的专业化。广泛实验表明,Lance 在图像生成、视频生成、多模式编辑和视频理解基准。值得注意的是,这些结果仅通过 3B 获得激活的参数和最大 128-GPU 训练预算,表明有能力统一多模式可以以资源有效的方式构建模型。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论