AI I024: 美团提出统一多模态模型OneCAT，一键搞定视觉问答/图像编辑/文生图任务，性能表现SOTA。

2025年9月19日星期五

美团提出统一多模态模型OneCAT，一键搞定视觉问答/图像编辑/文生图任务，性能表现SOTA。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

美团提出的 OneCAT 是一个统一的多模态模型，采用新颖纯解码器 Transformer 架构，将理解、生成和编辑无缝集成。其独特模态混合专家结构，摒弃外部组件，提升处理高分辨率输入的效率，还原生支持动态分辨率。同时，率先在大型语言模型中采用多尺度视觉自回归机制，减少解码步骤且保持性能。研究表明纯自回归模型潜力巨大，OneCAT 树立新性能标准，在多模态多项基准测试中超越现有开源统一多模态模型。

主要特点

🌟 纯解码器设计在推理过程中消除外部视觉编码器和 VAE 标记器，仅使用轻量级补丁嵌入层进行原始图像处理。
🌟 混合专家（MoE）三位专门的 FFN 专家：用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。
🌟 多尺度自回归先锋下一代尺度预测范式，可生成由粗到细的图像，与扩散模型相比，大大减少了生成步骤。

unsetunset示例展示unsetunset

聊天和视觉问答

文本到图像生成

基于指令的编辑

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2509.03498
项目：https://onecat-ai.github.io

unsetunset

论文：OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

OneCAT 是一个开源的统一多模态模型，它将理解、生成和编辑功能无缝集成在一个新颖的纯解码器Transformer 架构中。我们的框架独特地消除了推理过程中对 Vision Transformer (ViT) 或 Visual Tokenizer 等外部组件的需求，从而显著提升了效率，并为统一多模态智能树立了新的性能标准。

unsetunset方法概述unsetunset

纯解码器设计在推理过程中消除外部视觉编码器和 VAE 标记器，仅使用轻量级补丁嵌入层进行原始图像处理。
混合专家（MoE）三位专门的 FFN 专家：用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。
多尺度自回归先锋下一代尺度预测范式，可生成由粗到细的图像，与扩散模型相比，大大减少了生成步骤。

unsetunset训练流程unsetunset

第一阶段：单独预训练

理解蒸馏：使用 InterViT 教师模型对 4.36 亿个图像文本对进行师生蒸馏
生成预训练： 5100 万个文本到图像样本，具有 Next-Scale 预测损失

第二阶段：统一中期训练

通过集成 Scale-Aware Adapter 对所有任务进行统一训练，以实现生成。原生分辨率策略，支持动态宽高比，适用于理解和生成。

第三阶段：监督微调

具有扩展生成分辨率支持的高质量指令跟踪数据

unsetunset实验结果unsetunset

多模态理解

文本到图像生成

图像编辑

效率分析

unsetunset结论unsetunset

OneCAT 是一个纯粹的解码器式统一多模态模型，它将理解、生成和编辑功能无缝集成在一个精简的架构中。通过消除外部编码器和分词器，采用特定于模态的 MoE 设计，并引入多尺度自回归生成机制，OneCAT 在广泛的基准测试中取得了优异的性能，同时显著提高了推理效率。研究结果证明了基于第一性原理的多模态建模方法的可行性和优势，为未来通用多模态智能的研究和应用提供了强大的新基础。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2025年9月19日星期五

美团提出统一多模态模型OneCAT，一键搞定视觉问答/图像编辑/文生图任务，性能表现SOTA。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

主要特点

unsetunset示例展示unsetunset

聊天和视觉问答

文本到图像生成

基于指令的编辑

unsetunset相关链接unsetunset

unsetunset

unsetunset方法概述unsetunset

unsetunset训练流程unsetunset

第一阶段：单独预训练

第二阶段：统一中期训练

第三阶段：监督微调

unsetunset实验结果unsetunset

多模态理解

文本到图像生成

图像编辑

效率分析

unsetunset结论unsetunset

没有评论:

发表评论

美团提出统一多模态模型OneCAT，一键搞定视觉问答/图像编辑/文生图任务，性能表现SOTA。