2026年5月21日星期四

字节开源多模态模型Lance,3B参数搞定图像视频理解生成与编辑

字节跳动团队开源Lance,一款仅3B参数的原生统一多模态模型,支持图像和视频的理解、生成与编辑。在GenEVAL、DPG-Bench等基准测试中表现强劲,超越现有开源统一模型。适用于科研、开发及AIGC应用,提供论文、代码和模型权重。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

字节跳动研究团队提出的 Lance 是一个 3B 原生统一多模态模型,支持在单一框架内理解、生成和编辑图像和视频。

  • 高效处理 30 亿级数据。Lance仅需30 亿个活动参数,即可在图像生成、图像编辑和视频生成基准测试中展现强劲性能。
  • 从零开始训练。Lance采用分阶段多任务方案构建,并在128 个 A100 GPU 的预算内完全从零开始训练(ViT 和 VAE 编码器除外;Transformer 主干网完全从零开始训练)。
    图片

文本转图像

具有代表性的文本转图像输出,涵盖照片级写实、风格化、构图式和以文字为主的提示。

图片

图像编辑

图片

图像理解

图片

文字转视频

图片

相关链接

  • 论文:https://arxiv.org/pdf/2605.18678
  • 仓库:https://github.com/bytedance/Lance
  • 主页:https://lance-project.github.io
  • 模型:https://huggingface.co/bytedance-research/Lance

论文介绍

图片

Lance是一款轻量级原生统一模型,可支持图像与视频的多模态理解、生成及编辑任务。与依赖模型容量扩展或文本-图像主导设计的传统方法不同,Lance探索了一种通过协同多任务训练实现统一多模态建模的实用范式。该模型以两大核心原则为基础:统一上下文建模与解耦能力路径。具体而言,Lance采用从头训练的方式,在共享的交错多模态序列上构建双流混合专家架构,既能实现跨模态的联合上下文学习,又能解耦理解与生成的路径,确保两种核心能力各自优化。此外,模型引入模态感知旋转位置编码,以减轻异质视觉令牌间的干扰,提升跨任务对齐效果。训练过程中,Lance采用分阶段多任务训练范式,结合能力导向目标与自适应数据调度,进一步强化语义理解与视觉生成性能。实验结果表明,Lance在图像和视频生成任务上显著优于现有开源统一模型,同时保留了强大的多模态理解能力。

总体概述

图片Lance概况。给定跨 X2T、X2I 和 X2V 的多任务输入,Lance 对所有输入标记进行编码转化为统一的 MaPE 增强型多模态上下文序列。双专家骨干执行广义 3D 对共享上下文的因果关注并产生特定于任务的隐藏状态,这些隐藏状态由 LM 进一步解码用于自回归下一个标记预测的头和用于视觉潜在空间中速度预测的流头。

实验结果

多模态基准测试的比较

雷达图将 Lance 与具有代表性的统一基线和任务专用基线进行比较。 详细表格: GenEVAL、 DPG-Bench、 GEdit-Bench、 VBench和 MVBench。

图片

GenEVAL 图像生成

GenEVAL 评估对象数量、颜色、位置和属性绑定。Lance 在列出的统一模型中综合得分最高,同时仍保持紧凑的 3B 型模型特性。图片

DPG-Bench 图像生成

DPG-Bench 强调在全局、实体、属性、关系和其他组成维度上遵循复杂的提示;Lance 在关系基础方面尤其出色

图片

结论

Lance是一种轻量级的原生统一多模态模型,用于图像和视频理解、生成和编辑。论文主要发现是多任务协同可以有效推进统一 多模式建模,使不同的任务能够在共享框架内相互增强。Lance 将统一的交错上下文建模与解耦的功能路径相结合,从而允许语义理解和视觉合成进行交互,同时保留特定于任务的专业化。广泛实验表明,Lance 在图像生成、视频生成、多模式编辑和视频理解基准。值得注意的是,这些结果仅通过 3B 获得激活的参数和最大 128-GPU 训练预算,表明有能力统一多模式可以以资源有效的方式构建模型。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

腾讯ARC联合清华Pixal3D:单图生成重建级精度3D模型(开源)

Pixal3D由腾讯ARC与清华大学联合提出,论文被SIGGRAPH 2026收录。该技术实现像素级对齐、重建级精度的单图生成3D,保真度超越TRELLIS等主流模型。已开源代码并上线Hugging Face在线试用,无需专业建模技能即可生成高精度3D资产,适用于设计、游戏、元宇...