最新的开源 SOTA 生图模型来了!
继文本、音频、视频后,美团又双叒叕开源了图像模型:LongCat-Image 。
主打两大核心亮点:中文文本渲染和单图编辑高度可控。
在 X 上刷到评价还不错,我也去实测了一波。
在看实测效果之前,先快速了解一下模型更多信息。
一、模型介绍
LongCat-Image 是一个中英双语的图像模型,参数量只有 6B 。
除了开头介绍的两大亮点,LongCat-Image 同时重点瞄准了写实性、部署效率和开发者可及性等核心挑战。
先来看看它的跑分成绩。
基准评测
在图像编辑基准 ImgEdit 上拿下开源第一。在 GEdit-EN 和 GEdit-EN 上的表现甚至直逼闭源 SOTA 。
更夸张的是在中文文字生成任务 ChineseWord 上的表现直接来到独一档,达到了 90.7 ,狂甩第二名 30 分以上。
技术亮点
LongCat-Image 使用了文生图与图像编辑同源的架构设计。
结合渐进式训练策略,在 仅 6B 参数下做到开源 SOTA ,在指令遵循精准度、生图质量和文字渲染上的表现尤其突出,体现出了高效模型设计的巨大潜力。
说了这么多,一起来看看它的实际表现。
二、实测 case
中文文本渲染能力
先重点看看它得分最高的中文文本能力。
手写书法
让它用行书写一幅竖排书法作品,内容是"落霞与孤鹜齐飞,秋水共长天一色",落款"王勃"。
生成的图片:
整体表现不错,提示词中的文本能正确渲染,但细看像笔画比较多的"鹜"在局部渲染得不是特别清晰。
繁体字海报
针对笔画比较多的繁体字,我们进一步测试它的生成能力。
在尝试了几次之后,得到了下面的效果。
艺术效果不错,满足提示词中块面感的要求,繁体字的渲染也没问题。
店铺门头图
大家在点外卖的时候应该都刷到过用 AI 做的店铺头像。
目前已经形成一条产业,报价 40 块,一家店铺成交量就能突破 6w 单。
我们让 LongCat-Image 试试。
为了测试它的中文文本能力,我专门找了带生僻字的店铺名。
使用的提示词很简单:
餐饮店门头,店内店外有顾客,色调温馨,店名是莜麦栲栳小铺
餐饮店门头,店内店外有顾客,色调温馨,店名是饸饹巷面馆
即使是生僻字也能正确渲染,但有个普遍的问题在饭店总是会缺少窗户。
小伙伴们可以帮忙看看,我感觉这看上去像是有又像没有。
电商营销
双十二马上到了,LongCat-Image 在默认风格中提供了电商营销,可以用来零成本快速出图。
来看看效果~
美妆电商海报
使用如下提示词:
生成的图片:
整体很有质感,但在未指定的英文渲染上会出现乱码的情况。
双十二促销海报
用它来做一个双十二促销活动海报。
指令清晰的情况下,即使文字比较多,也能正确渲染。
照片写实性
人物摄影
人像摄影佳作,强透视,混暗调风格,特写魅力。暗漫背景下,白皙皮肤的女性闭眸,嘴唇微张,表情平静,精致五官若隐若现,头发遮脸,神秘安静氛围拉满,光影交错,细节动人,杰作。
光影、面部细节、嘴上的纹路看上去都很写真,没有某些 AI 生成的"塑料感"。
食物特写
一碗红烧牛肉面特写,面条根根分明,上面铺着大块炖煮软烂的牛肉,汤汁浓郁红亮,撒有翠绿的葱花和香菜,碗边放着一双木质筷子,背景是简约的深色木质桌面,光线从斜上方打下来,形成柔和的光影,突出食物的光泽和层次感,整体色调温暖
图像编辑
连续一句话P图
去掉挂件
在简单的提示词下,模型能够正确找到元素并自然地去除。
穿上外套
再来试试给人物穿上外套。
人物能在背包的情况下正确穿上指定服装,不过这里人物揣手的位置从裤兜变成了外套。
于是我又给它加了条限制。
P地面
我还尝试用它来 P 环境,比如:
一致性保持得不错,但我发现它也有一个图像模型一个共有的问题,即图像每编辑一次整个画面就会"褪色"一点,像是套了层灰色滤镜。
材质更换
用它来修改物体材质效果也不错。
针织改玻璃:
再把玻璃改成毛绒。
文字修改
我们可以用它迅速修改图中的文字。
比如使用以下提示词:
将图片中的文字"他强任他强 清风拂山岗"改成"大雪压青松 青松挺且直"。
生成图片:
中文表情包
疯狂动物城 2 大家都看了吗?我们用它来做 Judy 的多格表情包。
生成的图片:
更多例子
模型还提供了其他风格可供选择,一起来看看效果。
赛博朋克
CP 就该整整齐齐,赛博朋克风的 Judy & Nick be like :
再来张 Judy 单人的。
中国风
幽蓝色背景中,万里江山图用纵向彩色流畅曲线呈现山峦,塔楼,瀑布,溪流,树木,花草,小村落的单边轮廓(细线),采用极简主义的一笔画形式,大师级排版
是好看到可以直接拿来当壁纸的程度。
采用北宋《清明上河图》工笔淡彩古画风格(做旧浅棕褐色调、线条细腻、淡设色质感),背景为高饱和度暖橙色纯色; 画面主体:4 位身着宋代平民服饰的人物(古画质感),围绕中药台进行中医药材制作:1 人端盛有药材的陶碗、1 人在木桌上操作器具、1 人手持中药、1 人整理中药;周围散落古画风格的中式厨具(陶罐、陶碗)与盛放的中药材
卡通
以玄幻风格呈现的古代玄猫的特写,风云构成猫头,云雾缭绕且凶猛翻滚,猫长相狰狞,低下头俯视着,夸张惊悚恐怖的压抑的气氛。
三、最后
不得不说,美团这波输出动作是真快啊,从九月初开源 LongCat-Flash 到现在不过三四个月。
从文本、音频、视频,到图像,开源全家桶算是凑齐了。
LongCat-Image 的整体表现,对于一个开源、仅 6B 参数的模型来说,确实超出了我的预期。
最让我印象深刻的是两个点,一个是包括生僻字和繁体在内的汉字终于能写对了,不过在未指定文字等情况下仍然会出现乱码的问题。
还有它的图像编辑能力,用来一句话连续 P 图很方便。
大家可以去以下链接亲自体验一下:
https://longcat.chat/
开源指路:
Hugging Face :
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
GitHub :
https://github.com/meituan-longcat/LongCat-Image
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论