10B轻量模型实现100 TPS极速推理,重塑AI开发效率。在实测中,它成功用Flutter从零开发跨端App,展现出色代码生成、UI审美与复杂逻辑处理能力,标志AI从堆参数转向务实高效新阶段。
在过去几年的 AI 圈,大家似乎都有个执念,认为模型参数越大,能力才越强。不搞个万亿参数,都不好意思说自己是在做大模型。
但对于体验最为频繁的开发者来说,现阶段大模型最大的问题,已经不是不够聪明,而是太慢、太贵。随便调个 API,跑下任务,转头一看 Token 消耗,心里那叫一个心疼。
可预计的,「延迟」与「成本」将成为未来大模型重点攻克的一个主流方向。
前不久,我有幸拿到了 MiniMax M2.5 的大模型内测权限。起初,我估计这就是一个常规的迭代,直到我看到了两个极具反差的数据:
极致轻量: 激活参数量仅为 10B,是目前第一梯队中,参数规模最小的旗舰模型。
极速推理: 推理速度飙到 100 TPS,数据约是 Claude Opus 的 3 倍。
这就很有意思了,相当于我们用小平板车,就能承载堪比大型卡车的货物。
另外,还不止于此,按照他们的定位,M2.5 将成为下一代数字化办公的主力模型,并在编程能力上,足以比肩现有的顶级旗舰。
甚至针对此前编程能力较为薄弱的移动端开发,专门做了优化,提供了对 App、React Native、Flutter 等跨端开发的支持。
M2.5 的能力,是否真如他们说的这么顶?
为了验证这一点,我决定跳过枯燥的跑分环节,直接上真家伙:用 M2.5 的 Coding 能力,从零开始写一个移动端 App Demo。
这篇文章,就是我本次暴力测试 M2.5 的真实记录。
我倒想看看,在真实的代码生成和复杂逻辑规划面前,这个 10B 的小模型,能给我们带来的,到底是惊喜还是惊吓?
发起挑战:用 M2.5 编写「春禧助手」App
这次挑战的难度在于反差。
我们的对手是 MiniMax M2.5,一个激活参数量仅 10B 的模型。
通常在这个参数量级,我们只敢奢求它写写文案,但这次官方宣称,它在 Coding & Agentic(编程与智能体) 性能上可比肩顶级旗舰,并且支持 PC、App、RN、Flutter 等全栈开发。
那我们就来挑战,怎么不写一行代码,仅通过自然语言 Prompt,让 M2.5 用 Flutter 搞定 Android/iOS/Web 三端适配。
马上到春节了,我想做一个喜庆一点的 App,名字叫「春禧助手」。主要有三个功能:1、"礼簿":用来记人情账的,谁给了我红包,我回了多少礼。2、"锦囊":用来生成一些拜年吉祥话,以及回答亲戚一些尴尬提问。3、"亲戚":用来算亲戚关系的,比如"二大爷的孙子"该叫什么。这个 App 我希望能在手机上使用,也能在浏览器上打开,你帮我用 Flutter 语言来实现它。请先帮我设计好整个 App 的结构,并写出第一版的代码,让我能看到界面。
一、实测阶段 :Vibe Coding 与审美重构
第一关是意图理解与 UI 构建。 老实说,这是我最担心的一环。以往用 AI 写前端,最头疼的就是"审美隔离":代码能跑,但丑得没法看。
但 M2.5 的表现让我有点意外。我只在提示词当中提及了一下:"做一个喜庆一点的 App"。
它没有直接甩给我大红大绿的配色,而是给出了一个非常有质感的春节红 + 流金色的界面。
大家可以看下面这张生成的首页截图:它自动使用了圆角卡片设计,背景不是以往那种平平无奇的纯色,而是略带纹理的深红。部分统计卡片,甚至还加上了磨砂玻璃的效果。
这种对审美的理解,在 10B 这个参数量级上,我个人觉得应该是非常少见的。
图注:M2.5 生成的首页,"礼簿" 模块清晰展示了收支统计,配色更是一绝
二、实测阶段:Agent Native 的后端实力
一个只有 UI 的 App 是没有灵魂的,因此,它的真正考验,还得是逻辑。
在「锦囊」模块,我要求它实现本地数据持久化和接入模型 API 请求。
M2.5 展现了其 "智能体原生架构" 的优势,精准构建了数据模型,并对数据做好了本地持久化存储。
如下图所示,当我输入来自舅妈的 "灵魂拷问",它能以一种非常幽默的方式轻松应对。
另外,数据也能直接删除,这也说明了它是真正跑通了前后端增删改查的全栈逻辑。
图注:请求 M2.5 模型 API 获得的回答
三、 实测阶段:100 TPS 的嘴替
第三关是「亲戚」模块,专门用来应对亲戚之间的复杂关系。
这就触及到了 M2.5 的核心杀手锏:极致推理逻辑。
我发起了一条亲戚关系极其绕的提问:"他是二姑奶奶的孙女的儿子,应该怎么叫我"。
M2.5 的响应,几乎是瞬时的。官方数据称其支持 100 TPS,实际体验下来,确实是秒回并且回答正确。
图注:针对"复杂亲戚关系称呼"问题,M2.5 能极速推理出来并回答正确。
同样的问题,也拿去问了下 Claude Opus 4.6,推理过程很详细但结果却是错的。
终极挑战:跨平台适配的隐藏关卡
最后,咱们来验验它是否真的支持 Web 和 App 的跨端开发。
细心的朋友可能发现了,上面的截图,都是在 Chrome 浏览器 中运行的。
我用的是 MacOS,在本地安装好了 Xcode 和 CocoaPods 时,经过简单配置,即可在 iOS 端完美运行该应用。
下面是具体运行效果:
可以看到,基于 MiniMax M2.5 开发出来的应用,在移动端也能完美运行,左滑删除等交互操作,跟原生端基本没啥差别。
很难想象,这么轻量级的大模型,竟能驾驭这些复杂需求,最终生成的效果还颇为惊艳。
写在最后
回看本次测评,M2.5 给我的最大冲击,并不是某个单一的技术指标,而是 AI 行业中,某种技术风向正在悄然转变。
过去两年,所有人都在卷大模型,认为参数越大越好,算力越贵越好。但作为开发者,随着我们不断尝试与使用,一个问题也逐渐暴露出来:巨大的参数量,往往伴随着高昂的延迟和难以承受的成本。
但这次 MiniMax M2.5 的诞生,直接用 10B 的极致轻量化和 100 TPS 的超高吞吐量,向行业证明:AI 的下半场,将不再只执着于「大」,而是更加务实的「快」与「准」。
这意味着,无论你是独立开发者,还是中小企业的技术负责人,在未来都可以用极低的成本、极快的速度,把 AI 接入到工作流、App 甚至私有服务器上。
MiniMax M2.5 的出现,将开始催生一大波「AI 超级个体」的诞生。
为什么这里要特指 AI?因为随着大模型的不断演化,人与人之间的差距将被摊平,最后只剩下 AI 在展开竞争。
得益于 M2.5 10B 的极致轻量,我们可以轻松把一个旗舰级大脑装进私有服务器。用仅需几千块成本的 Mac Mini,就能让 AI 全天候工作。
在保证数据隐私安全的前提下,开发者能以几乎可以忽略不计的边际成本,进行高频的试错与迭代。
正所谓:天下武功,唯快不破。
谁能利用好 M2.5 这种降本增效神器,谁就能在灵感乍现的瞬间,以最快的速度打通产品从 0 到 1 的闭环,这便是「AI 超级个体」的魅力所在。
传统软件行业正在逐步向以「Agent Native」为主的软件迁移,而 MiniMax 显然也是押注了 Agent-verse(智能体生态)赛道,试图为下一阶段的 Agent 互联网模式,构造一套低成本且轻量化的基础设施。
如果你也觉得大模型应该效率至上,相信 AI 应该更便宜、更快速、更易于落地,那么 MiniMax 绝对是一个值得长期关注的国产大模型。
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
没有评论:
发表评论