视频模型圈又上新了!
继推理、语音之后,LongCat 模型系列再添一员视频生成模型:LongCat-video。
参数量为 13.6B ,一个模型同时支持文生视频、图生视频、视频延续多种任务。
长视频创作业界领先,4 分长的视频也不会越跑越花。
来看看测评得分:
文生视频测评:
图生视频测评:
虽然成绩打不过闭源模型 Veo3 ,但是综合得分明显高于 SeedDance 1.0 Pro 、 Wan 2.1 、Hunyuan Video 等一众模型,尤其是在文本对齐和视觉质量上的表现格外突出。
外网上的风评一致向好。
GitHub 上也是好评连连。
更让人吃惊的是该模型采用的是 MIT 可商用许可证,Hugging Face 高管的反应 be like :???
和其他家模型还有一点不同的是,美团这次并不执着于做一个能生成动漫或者短剧的视频模型,而是想让模型更好地理解世界,正式踏出迈向世界模型的第一步。
他们的思路很简单:专注于聚焦链接比特世界和原子世界。
这一波境界属于是在大气层了。
在进一步分析美团布局思路之前,我们先来看看这个最新开源 SOTA 视频模型的效果究竟怎么样。
一、实例展示
LongCat-video 文生视频支持生成 720p 30fps 规格的视频。
动态场景
先通过文本生成一个滑雪视频。
滑雪的动作非常丝滑,动作连贯性很好。
动态场景下,根据人物动作溅起的雪花效果十分自然,光源以及环境一致性也保持的很好。
再来看一个能很好反映出模型对真实世界理解能力的例子。
水花效果非常真实,人物倒影跟随度非常高,远处山峦的倒影也会随着水面波纹变化,说是以假乱真也不夸张。
产品宣传
双十一快到了,商家们完全可以用它来做一波产品宣传视频。
操作非常简单,上传一张产品图,也不用费心写什么提示词,只需要输入"广告宣传"。
生成效果:
手的纹理质感非常真实,而且保持着图片中的蓝框特效。一键直出,加上音效就可以直接拿去用了。
我还试了下面这一张:
看看生成的效果:
是不是和某些厂商的广告大片都有的一拼?细节维持的很到位,比如瓶身上冷凝的水珠、溅起的水花,以及随着瓶身晃动的水面等,真实度拉满。
长视频生成
LongCat-video 不得不提的一个核心优势在于其生成长视频的能力。
它解决了色彩漂移、动作断裂、质量下降等问题,能够稳定生成 5 分钟级的长视频。
用它来生成吃播。
即使是在长视频下,人物和环境一致性都保持的非常好,镜头也会随着人物进食的动作进行拉近和拉远操作,避免镜头的单调感。
视频延长
LongCat-video 支持视频延长功能。你可以上传原视频,输入对视频后续的描述词。反复操作之后,就能不断扩展你的创意,生成一段情节完整的视频,并且保持画面的连贯性和一致性。
比如先生成一段让女人切面包的视频,再让她放下刀、去倒牛奶,接着放下牛奶盒,拿起牛奶喝一口。
场景、人物维持的十分稳定,动作之间的连贯性也非常好。
超现实风格
各种风格都能驾驭,即使是下面这种气势恢宏的画面 LongCat-video 也能抗住。
二、技术亮点
多任务原生适配
LongCat-Video 将文生视频、图生视频、视频延续多项任务统一在一个框架内,无需额外适配。
主干采用 48 层的 DiT ,使用 3D 注意力机制和交叉注意力机制,RMSNorm 归一化以及一个 WAN2.1 VAE,文本采用 umT5 压缩。
模型参数配置如下:
高效推理
为了更高效地生成视频,LongCat-Video 先把生成 480p 15fps 质量较低的视频,然后使用 LoRA 优化将其优化为 720p 30fps 。
并使用 3D 块稀疏注意力机制来进一步加速,蒸馏简化至 16 步,将注意力计算量减少到 10% 以下,从而实现了 10x 的运行速度。
多奖励 GRPO 训练
传统直接对模型做 RLHF 在扩散模型上常常遇到收敛慢、归因模糊、容易出现奖励欺骗( reward-hacking )等问题。
LongCat-Video 采用的多奖励 GRPO ( Group Relative Policy Optimization ,组相对策略优化)使用帧质量评分器、运动评分器和文本视频匹配评分器共同提高画面质量和运动表现,同时还能避免奖励欺骗。
长视频生成
目前视频模型用于生成长视频会遇到不少挑战,比如时间一致性差、显存和计算开销高、时序建模难度大等。
LongCat-Video 对视频延续任务进行了预训练,可以用来生成几分钟长的视频,并且不会出现颜色漂移或质量下降等问题。
更多细节可以移步以下链接:
https://arxiv.org/abs/2510.22200
三、以视频切入"世界模型"
美团以视频切入"世界模型"这个思路,让我想起前不久在 MIT 生成式 AI 影响力联盟研讨会的开幕演讲中 Yann LeCun 提出的观点:
we're never gonna get to human-level intelligence by just training on text AI must learn from high-bandwidth sensory data like video to build true world models Current models look PhD-smart but mostly regurgitate, with no real understanding
简单翻译一下:
我们永远不可能仅仅通过文本训练就达到人类级别的智能。 人工智能必须从视频等高带宽的感官数据中学习,以构建真实的世界模型。 当前的模型看起来聪明绝顶,但大多只是机械重复,毫无真正的理解。
和美团希望让视频模型理解世界的思路不谋而合。不得不说,这一步棋下得非常巧妙。而世界模型的下一站,或许就是具身智能。
回顾美团科技创新这条路,你就会发现,美团能想出这样的思路并不是运气。
从近些年的频繁投资与自研,到上周在 IROS 直接 C 位攒局,2025 美团机器人研究院学术年会现场更是大佬云集。
可以看出,美团在这块领域早就落手布局,并且已经耕耘良久。
四、最后
关注 AI 圈的小伙伴应该都注意到了美团近来进入了疯狂的收获期。
八月底,LongCat-Flash-Chat 开源模型震惊外网,一改"只是个外卖公司"的刻板印象。
不到一个月又连发 LongCat-Flash-Thinking ,直接跻身 SOTA 开源模型。
不到一个月,LongCat-Audio-Codec 正式发布并且开源了。
刚过一周,最新的 SOTA 开源视频模型 LongCat-Video 就端上来了。这么快的操作属实是按月发模型了。
感兴趣的小伙伴抓紧去看看吧~
指路链接:
Github:
https://github.com/meituan-longcat/LongCat-Video
项目主页:
https://meituan-longcat.github.io/LongCat-Video
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论