2025年12月11日星期四

美团又悄悄开源新模型?!第一手实测来了!

最新的开源 SOTA 生图模型来了!

图片

继文本、音频、视频后,美团又双叒叕开源了图像模型:LongCat-Image 。

图片

主打两大核心亮点:中文文本渲染单图编辑高度可控

图片
图片
图片

在 X 上刷到评价还不错,我也去实测了一波。

图片
图片

在看实测效果之前,先快速了解一下模型更多信息。

一、模型介绍

LongCat-Image 是一个中英双语的图像模型,参数量只有 6B 。

除了开头介绍的两大亮点,LongCat-Image 同时重点瞄准了写实性、部署效率和开发者可及性等核心挑战。

图片

先来看看它的跑分成绩。

基准评测

图片

在图像编辑基准 ImgEdit 上拿下开源第一。在 GEdit-EN 和 GEdit-EN 上的表现甚至直逼闭源 SOTA 。

更夸张的是在中文文字生成任务 ChineseWord 上的表现直接来到独一档,达到了 90.7 ,狂甩第二名 30 分以上。

技术亮点

LongCat-Image 使用了文生图与图像编辑同源的架构设计。

模型架构
模型架构

结合渐进式训练策略,在 仅 6B 参数下做到开源 SOTA ,在指令遵循精准度、生图质量和文字渲染上的表现尤其突出,体现出了高效模型设计的巨大潜力。

说了这么多,一起来看看它的实际表现。

二、实测 case

中文文本渲染能力

先重点看看它得分最高的中文文本能力。

手写书法

让它用行书写一幅竖排书法作品,内容是"落霞与孤鹜齐飞,秋水共长天一色",落款"王勃"。

生成的图片:

图片

整体表现不错,提示词中的文本能正确渲染,但细看像笔画比较多的"鹜"在局部渲染得不是特别清晰。

繁体字海报

针对笔画比较多的繁体字,我们进一步测试它的生成能力。

图片

在尝试了几次之后,得到了下面的效果。

图片

艺术效果不错,满足提示词中块面感的要求,繁体字的渲染也没问题。

店铺门头图

大家在点外卖的时候应该都刷到过用 AI 做的店铺头像。

目前已经形成一条产业,报价 40 块,一家店铺成交量就能突破 6w 单。

图片

我们让 LongCat-Image 试试。

为了测试它的中文文本能力,我专门找了带生僻字的店铺名。

使用的提示词很简单:

餐饮店门头,店内店外有顾客,色调温馨,店名是莜麦栲栳小铺

图片

餐饮店门头,店内店外有顾客,色调温馨,店名是饸饹巷面馆

图片

即使是生僻字也能正确渲染,但有个普遍的问题在饭店总是会缺少窗户。

小伙伴们可以帮忙看看,我感觉这看上去像是有又像没有。

图片

电商营销

双十二马上到了,LongCat-Image 在默认风格中提供了电商营销,可以用来零成本快速出图。

图片

来看看效果~

美妆电商海报

使用如下提示词:

图片

生成的图片:

图片

整体很有质感,但在未指定的英文渲染上会出现乱码的情况。

双十二促销海报

用它来做一个双十二促销活动海报。

图片
图片

指令清晰的情况下,即使文字比较多,也能正确渲染。

照片写实性

人物摄影

人像摄影佳作,强透视,混暗调风格,特写魅力。暗漫背景下,白皙皮肤的女性闭眸,嘴唇微张,表情平静,精致五官若隐若现,头发遮脸,神秘安静氛围拉满,光影交错,细节动人,杰作。

图片

光影、面部细节、嘴上的纹路看上去都很写真,没有某些 AI 生成的"塑料感"。

食物特写

一碗红烧牛肉面特写,面条根根分明,上面铺着大块炖煮软烂的牛肉,汤汁浓郁红亮,撒有翠绿的葱花和香菜,碗边放着一双木质筷子,背景是简约的深色木质桌面,光线从斜上方打下来,形成柔和的光影,突出食物的光泽和层次感,整体色调温暖

图片

图像编辑

连续一句话P图

去掉挂件

图片
原图
原图
图片

在简单的提示词下,模型能够正确找到元素并自然地去除。

穿上外套

再来试试给人物穿上外套。

图片
原图
原图
图片

人物能在背包的情况下正确穿上指定服装,不过这里人物揣手的位置从裤兜变成了外套。

于是我又给它加了条限制。

图片
原图
原图
图片

P地面

我还尝试用它来 P 环境,比如:

图片
原图
原图
图片

一致性保持得不错,但我发现它也有一个图像模型一个共有的问题,即图像每编辑一次整个画面就会"褪色"一点,像是套了层灰色滤镜。

材质更换

用它来修改物体材质效果也不错。

针织改玻璃:

原图
原图
图片

再把玻璃改成毛绒。

原图
原图
图片

文字修改

我们可以用它迅速修改图中的文字。

比如使用以下提示词:

将图片中的文字"他强任他强 清风拂山岗"改成"大雪压青松 青松挺且直"。

图片

生成图片:

图片

中文表情包

疯狂动物城 2 大家都看了吗?我们用它来做 Judy 的多格表情包。

图片

生成的图片:

图片

更多例子

模型还提供了其他风格可供选择,一起来看看效果。

图片

赛博朋克

CP 就该整整齐齐,赛博朋克风的 Judy & Nick be like :

图片
图片

再来张 Judy 单人的。

原图
原图
图片

中国风

幽蓝色背景中,万里江山图用纵向彩色流畅曲线呈现山峦,塔楼,瀑布,溪流,树木,花草,小村落的单边轮廓(细线),采用极简主义的一笔画形式,大师级排版

图片

是好看到可以直接拿来当壁纸的程度。

采用北宋《清明上河图》工笔淡彩古画风格(做旧浅棕褐色调、线条细腻、淡设色质感),背景为高饱和度暖橙色纯色; 画面主体:4 位身着宋代平民服饰的人物(古画质感),围绕中药台进行中医药材制作:1 人端盛有药材的陶碗、1 人在木桌上操作器具、1 人手持中药、1 人整理中药;周围散落古画风格的中式厨具(陶罐、陶碗)与盛放的中药材

图片

卡通

以玄幻风格呈现的古代玄猫的特写,风云构成猫头,云雾缭绕且凶猛翻滚,猫长相狰狞,低下头俯视着,夸张惊悚恐怖的压抑的气氛。

图片

三、最后

不得不说,美团这波输出动作是真快啊,从九月初开源 LongCat-Flash 到现在不过三四个月。

从文本、音频、视频,到图像,开源全家桶算是凑齐了。

图片

LongCat-Image 的整体表现,对于一个开源、仅 6B 参数的模型来说,确实超出了我的预期。

最让我印象深刻的是两个点,一个是包括生僻字和繁体在内的汉字终于能写对了,不过在未指定文字等情况下仍然会出现乱码的问题。

还有它的图像编辑能力,用来一句话连续 P 图很方便。

大家可以去以下链接亲自体验一下:

https://longcat.chat/

图片

开源指路:

Hugging Face :

https://huggingface.co/meituan-longcat/LongCat-Image

https://huggingface.co/meituan-longcat/LongCat-Image-Edit

GitHub :

https://github.com/meituan-longcat/LongCat-Image

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

AI画不出的左手,是因为我们给了它一个偏科的童年。

都是偏见 昨天刷到了一条非常有意思的推特。 是我关注的一个博主,Howie.Serious发的。 他发了一个很有趣的点,就是即使是世界上现在最牛逼的NanoBananaPro,在世界知识如此屌爆的情况下,AI,还是没有办法生成左手写字的图片。 这事特别有意思。 我立马用Gem...