大家还记得本月初横空出世的 LongCat-Flash-Chat 模型吗?
一发布就在外网上炸开了锅,更是有外国网友感叹:中国的"外卖公司"也开始卷模型了吗?
令人惊喜的是,就在昨天,距离 LongCat-Flash-Chat 发布还不到一个月,美团再次发力,推出了 LongCat-Flash-Thinking 。
这款新模型不仅继承了龙猫系列模型速度快的特点,还在逻辑、数学、代码、智能体等多个领域中达到了全球开源模型的 SOTA 水平。
在多项权威评测中刷新纪录,妥妥的"理科学霸"。
官方称在部分任务上的表现更是逼近没开源的 GPT5-Thinking 模型。
LongCat-Flash-Thinking 一经推出,就在外网上收获了一波好评。
看到这我也很好奇,作为一个开源模型,它的性能究竟怎么样?
只是个外卖公司或许是我们对美团最大的误解。
开源地址:
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
Github:
https://github.com/meituan-longcat/LongCat-Flash-Thinking
体验链接:
https://longcat.ai/
一、模型评测
数学与推理
先来试一道 ChatGPT 老错的题。
solve 10.8+x=10.11
答案秒出,并且没有算错。
再来一道概率相关的。
在一个50人的班级中,最少有两个同学生日正好相差10天的概率是多少?
同样没问题。
代码
游戏
让它帮我们写一个贪吃蛇小游戏。
来看看最后的效果。
再来试一个经典的俄罗斯方块小游戏。
玩起来还不错。
前端
用来写前端页面也不在话下。
比如让它设计一个咖啡品牌官网。
UI 设计的非常大气好看,该有的功能也一个不少。
按钮的跳转也很丝滑。
智能体能力
LongCat-Flash-Thinking 在智能体能力方面也实现了很大的突破。
信息查询
帮我查询未来一周内从北京到成都最便宜的直飞航班。
还在回答最后直接给出买票链接。
点击即可跳转到携程和 114 票务网。
决策策划
它还能被拿来当一个贴心的个人助手,根据我们的需求帮我们制定各种计划。
帮我策划一个为期国庆假前三天的成都情侣出游,预算人均2000元,需要包含文化参观、景点打卡和特色美食。请给我一个详细的方案,包括日程、预算分解和餐厅推荐。
来看它给出的每日详细安排:
预算分解:
餐厅推荐:
还会自发的给出一些行程调整建议。
回答的算是非常全面了。
我们还可以进一步追问。
追问:那三天的天气怎么样?出行需要注意什么?应该准备什么样的衣服?
它会自动查找天气数据,并基于此给出出行注意事项。
以及对应的穿衣指南。
又比如,我想买电脑但是不知道选哪款。也可以交给它。
我想买一台笔记本电脑,预算10000元,主要用来编程和偶尔玩游戏。请按照性价比给我推荐。
它一共推荐了 5 款,并且标上了价格、配置亮点和性价比分析。全都满足我们提出的需求。
接着,我还问了它下面这个问题。
100000以内的回文质数有多少?
它也基本上秒答了,速度快到离谱。
点开思考过程就能看到它调用了内置的 Python 进行编程并执行,最终得到结果。
二、模型创新
LongCat-Flash-Thinking 是 MoE 模型,总参数量为 560B ,其中平均激活参数量为 27B ,可以大幅节省算力。
从官方发布的报告中可以看到这次的模型主抓两个点:推理能力和效率。
一起来看看它都做了哪些创新。
零计算专家机制
模型在 MoE 块中引入了零计算专家机制( Zero-computation Experts Mechanism )。
该机制根据重要性为重要令牌分配动态计算预算,即根据上下文需求激活 186 亿到 313 亿个参数(总共 5600 亿个参数)。
这样按需分配的机制大大降低了推理中的冗余开销,提升了计算效率。
多领域并行再融合
它在模型架构上进行了创新,采用了领域并行方案,将 STEM 、代码和智能体任务的优化过程解耦。分别进行训练后再进行参数融合。
这种多领域并行训练再融合的先进策略帮助模型的综合性能达到近乎帕累托最优(Pareto-optimal),很好地避免了传统混合训练中容易出现的负迁移问题。
双路径推理框架
为了在智能体能力方面实现突破,LongCat 团队研发了全新的双路径推理框架。
该框架让模型自主判断任务流程中哪些需要借助外部工具,哪些可以通过模型推理解决,从而高效解决复杂任务。
同时,高质量的调用工具的推理流程也会被保留下来,用于强化模型的智能体能力。
想要看完整的技术报告的小伙伴移步:
https://arxiv.org/abs/2509.01322
三、最后
不得不感叹一句,大模型赛道真的太卷了,好用的模型层出不穷。
作为一个开源模型,LongCat-Flash-Thinking 无疑又给这个赛道添了把火。
从 LongCat-Flash-Chat 到 LongCat-Flash-Thinking 的能力全面升级,可以看到美团在大模型研发上的持续进展和深耕不辍,绝不是来短暂地蹭一波 AI 的热度。
大模型、智慧物流、机器人等众多 AI 领域都不缺少美团的身影。
或许真的是时候对美团重新进行定位了。
最后,感兴趣的小伙伴不要放过这个开源的 LongCat-Flash-Thinking 啊,可以到下面这个网址上手体验一波~
https://longcat.ai/
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论