2025年9月19日星期五

美团提出统一多模态模型OneCAT,一键搞定视觉问答/图像编辑/文生图任务,性能表现SOTA。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片

美团提出的 OneCAT 是一个统一的多模态模型,采用新颖纯解码器 Transformer 架构,将理解、生成和编辑无缝集成。其独特模态混合专家结构,摒弃外部组件,提升处理高分辨率输入的效率,还原生支持动态分辨率。同时,率先在大型语言模型中采用多尺度视觉自回归机制,减少解码步骤且保持性能。研究表明纯自回归模型潜力巨大,OneCAT 树立新性能标准,在多模态多项基准测试中超越现有开源统一多模态模型。

图片

主要特点

  • 🌟 纯解码器设计 在推理过程中消除外部视觉编码器和 VAE 标记器,仅使用轻量级补丁嵌入层进行原始图像处理。

  • 🌟 混合专家(MoE) 三位专门的 FFN 专家:用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。

  • 🌟 多尺度自回归 先锋下一代尺度预测范式,可生成由粗到细的图像,与扩散模型相比,大大减少了生成步骤。

unsetunset示例展示unsetunset

聊天和视觉问答

图片

文本到图像生成

图片

基于指令的编辑

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2509.03498
  • 项目:https://onecat-ai.github.io

unsetunset

  • 论文:OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

OneCAT 是一个开源的统一多模态模型,它将理解、生成和编辑功能无缝集成在一个新颖的纯解码器Transformer 架构中。我们的框架独特地消除了推理过程中对 Vision Transformer (ViT) 或 Visual Tokenizer 等外部组件的需求,从而显著提升了效率,并为统一多模态智能树立了新的性能标准。

unsetunset方法概述unsetunset

图片
  • 纯解码器设计 在推理过程中消除外部视觉编码器和 VAE 标记器,仅使用轻量级补丁嵌入层进行原始图像处理。

  • 混合专家(MoE) 三位专门的 FFN 专家:用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。

  • 多尺度自回归 先锋下一代尺度预测范式,可生成由粗到细的图像,与扩散模型相比,大大减少了生成步骤。

unsetunset训练流程unsetunset

图片

第一阶段:单独预训练

  • 理解蒸馏:使用 InterViT 教师模型对 4.36 亿个图像文本对进行师生蒸馏

  • 生成预训练: 5100 万个文本到图像样本,具有 Next-Scale 预测损失

第二阶段:统一中期训练

  • 通过集成 Scale-Aware Adapter 对所有任务进行统一训练,以实现生成。原生分辨率策略,支持动态宽高比,适用于理解和生成。

第三阶段:监督微调

  • 具有扩展生成分辨率支持的高质量指令跟踪数据

unsetunset实验结果unsetunset

多模态理解

图片

文本到图像生成

图片
图片

图像编辑

图片
图片

效率分析

图片

unsetunset结论unsetunset

OneCAT 是一个纯粹的解码器式统一多模态模型,它将理解、生成和编辑功能无缝集成在一个精简的架构中。通过消除外部编码器和分词器,采用特定于模态的 MoE 设计,并引入多尺度自回归生成机制,OneCAT 在广泛的基准测试中取得了优异的性能,同时显著提高了推理效率。研究结果证明了基于第一性原理的多模态建模方法的可行性和优势,为未来通用多模态智能的研究和应用提供了强大的新基础。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

美团提出统一多模态模型OneCAT,一键搞定视觉问答/图像编辑/文生图任务,性能表现SOTA。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球! 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 扫描下方二维码,加入AIGC Studio知识星球 ! 可以获得 最新AI前沿应用/ AIGC实践教程 / ...