2025年12月18日星期四

美团开源图像生成模型 LongCat-Image,支持中英文文本渲染,所有开源模型中综合性能排名第二!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片

美团推出了LongCat-Image,这是一个开创性的开源双语(中英文)图像生成基础模型,旨在解决当前领先模型中普遍存在的多语言文本渲染、照片级真实感、部署效率和开发者可访问性方面的核心挑战。 LongCat-Image在所有开源模型中综合性能排名第二,仅次于 320 亿参数的 Flux2.dev。

图片

主要特点

  • 🌟卓越的效率和性能:LongCat-Image 仅需60 亿个参数,在多个基准测试中超越了许多规模大数倍的开源模型,展现了高效模型设计的巨大潜力。
  • 🌟卓越的编辑性能:LongCat-Image-Edit 模型在开源模型中实现了最先进的性能,提供领先的指令遵循性和图像质量,以及卓越的视觉一致性。
  • 🌟强大的中文文本渲染:与现有的最先进的开源模型相比,LongCat-Image 在渲染常用汉字方面展现出卓越的准确性和稳定性,并实现了业界领先的中文词典覆盖率。
  • 🌟卓越的照片级真实感:通过创新的数据策略和训练框架,LongCat-Image 在生成的图像中实现了卓越的照片级真实感。
  • 🌟全面的开源生态系统:我们提供完整的工具链,从中间检查点到完整的训练代码,大大降低了进一步研究和开发的门槛。

unsetunset文本转图像unsetunset

图片

unsetunset图像编辑unsetunset

图片

unsetunset相关链接unsetunset

  • 论文:https://www.arxiv.org/pdf/2512.07584
  • 代码:https://github.com/meituan-longcat/LongCat-Image
  • 模型:https://huggingface.co/meituan-longcat/LongCat-Image

unsetunset评估结果unsetunset

文本转图像生成

在公开基准测试中的定量评估结果表明,LongCat-Image 具有很强的竞争力:

图片

文本渲染

图片

人工评估(MOS)

图片

图像编辑

图片

unsetunset使用教程unsetunset

安装

# create conda environment
conda create -n longcat-image python=3.10
conda activate longcat-image

# install requirements for model inference
pip install -r infer_requirements.txt
pip install git+https://github.com/huggingface/diffusers

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3

点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:Minglei Shi等 解读:AI生成未来 论文链接:https://arxiv.org/pdf/2512...