添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
美团提出的 OneCAT 是一个统一的多模态模型,采用新颖纯解码器 Transformer 架构,将理解、生成和编辑无缝集成。其独特模态混合专家结构,摒弃外部组件,提升处理高分辨率输入的效率,还原生支持动态分辨率。同时,率先在大型语言模型中采用多尺度视觉自回归机制,减少解码步骤且保持性能。研究表明纯自回归模型潜力巨大,OneCAT 树立新性能标准,在多模态多项基准测试中超越现有开源统一多模态模型。
主要特点
🌟 纯解码器设计 在推理过程中消除外部视觉编码器和 VAE 标记器,仅使用轻量级补丁嵌入层进行原始图像处理。
🌟 混合专家(MoE) 三位专门的 FFN 专家:用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。
🌟 多尺度自回归 先锋下一代尺度预测范式,可生成由粗到细的图像,与扩散模型相比,大大减少了生成步骤。
示例展示
聊天和视觉问答
文本到图像生成
基于指令的编辑
相关链接
论文:https://arxiv.org/pdf/2509.03498 项目:https://onecat-ai.github.io
论文:OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
OneCAT 是一个开源的统一多模态模型,它将理解、生成和编辑功能无缝集成在一个新颖的纯解码器Transformer 架构中。我们的框架独特地消除了推理过程中对 Vision Transformer (ViT) 或 Visual Tokenizer 等外部组件的需求,从而显著提升了效率,并为统一多模态智能树立了新的性能标准。
方法概述
纯解码器设计 在推理过程中消除外部视觉编码器和 VAE 标记器,仅使用轻量级补丁嵌入层进行原始图像处理。
混合专家(MoE) 三位专门的 FFN 专家:用于语言理解的文本 FFN、用于视觉标记的理解 FFN 和用于图像合成的生成 FFN。
多尺度自回归 先锋下一代尺度预测范式,可生成由粗到细的图像,与扩散模型相比,大大减少了生成步骤。
训练流程
第一阶段:单独预训练
理解蒸馏:使用 InterViT 教师模型对 4.36 亿个图像文本对进行师生蒸馏
生成预训练: 5100 万个文本到图像样本,具有 Next-Scale 预测损失
第二阶段:统一中期训练
通过集成 Scale-Aware Adapter 对所有任务进行统一训练,以实现生成。原生分辨率策略,支持动态宽高比,适用于理解和生成。
第三阶段:监督微调
具有扩展生成分辨率支持的高质量指令跟踪数据
实验结果
多模态理解
文本到图像生成
图像编辑
效率分析
结论
OneCAT 是一个纯粹的解码器式统一多模态模型,它将理解、生成和编辑功能无缝集成在一个精简的架构中。通过消除外部编码器和分词器,采用特定于模态的 MoE 设计,并引入多尺度自回归生成机制,OneCAT 在广泛的基准测试中取得了优异的性能,同时显著提高了推理效率。研究结果证明了基于第一性原理的多模态建模方法的可行性和优势,为未来通用多模态智能的研究和应用提供了强大的新基础。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论