2026年3月20日星期五

实测MiniMax M2。7:AI模型自我进化,Agent Harness与月费29元起

本文实测MiniMax最新旗舰模型M2.7,重点解析其Agent Harness自我进化能力、复杂Excel处理与代码生成表现。模型月费仅29元,适合追求高性价比AI工具的开发者与爱好者,实测中可完成2万行数据分析并自主搭建开发系统。

Tags:

年后这波AI更新潮,节奏是真有点失控。

OpenClaw的浪头还没完全过去,各路年度最强的模型又双叒开始排队疯狂狂涌。

而某个蓝色小鲸鱼,却完全查无此人,让我倍感疑惑。

好在昨天我打开邮件,忽然看见看到一条推送。

MiniMax它终于更新了!发布了全新旗舰模型:M2.7模型。

好好好,我最最喜欢的性价比卷王,这次你又给我们整了什么新活?

打开更新文档一看,好家伙竟然更新了不少!

图片

什么「Agent Harness」,让Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块。

说实话,本来以为这次2.7模型只是波小更新,毕竟才刚过去了一个月。

图片

可一看到官网文档上这句「开启模型的自我进化」,我越来越好奇这次到底更新了什么?

图片

所以今天,我们来一起看看MiniMax到底藏了什么大招。

图片

基础更新

这次M2.7一共更新的有六个方向,

首先是Agentic指令遵循,M2.7这次专门针对这点做了优化,50+个Skill技能,60-150个功能清单同时塞进去,它也仍然能稳住,一步一步把任务分解完。

说人话就是,多步骤、长流程,跑完不翻车。

其次代码能力继续迭代增强,算是在M2.5前一代上的二度迭代,再次升级了一波。

图片

据官方宣称,这次优化打磨主要还覆盖有日志分析、Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。

看到这,可能很多人要说了,感觉就是参数迭代吗,有什么好说的?

但在我看来,M2.7是站在一个本来就不低的起点上,又往上走了一步。

要知道M2.7的前一代,M2.5在SWE-Bench Verified的工程精准测试中就已经达到了行业第一档的水平。

图片

当然肯定又会有人会说:那还是不如claude呗,

但MiniMax 的 M2 系列,激活参数只有 10B,它没有那些大厂砸千亿训练数据,本就不是一个量级的东西。

你非让一个 60公斤的拳手硬上擂台打重量级120公斤,还拉在一起比,然后说它不行。

图片

在我看来,这件事判断的维度根本不应该是有没有赢过Claude。

便宜。好用。够用。

这三个条件满足,真的就足够了。

图片

Agent Harness

然后是官方这次主推的Agent Harness 能力,

这里有个概念,我得说清楚,不然后面看MiniMax说「Agent Harness 能力」,完全不知道他们在说什么。

什么是 Agent Harness?

简单做个类比,模型是引擎,那Harness是整辆车。

图片

当然,你也可以把整个 AI 系统理解成一台电脑,大模型相当于CPU,提供计算能力。

上下文窗口则等同内存,有一定上限,没办法超出。

而Agent就等于你桌面上的应用,不同的应用来完成不同的任务。

Agent Harness就是操作系统,也算是底层的架构之一,负责调度,管理资源,以及让程序跑起来。

它决定让模型能看到什么、能用什么工具、以及失败后该怎么办。

假如没有操作系统,那你的电脑那就是块砖。

不过目前Agent Harness还没有统一标准,大家各自造车,各有各的路子。

拿三个比较有代表性的例子来说:

图片

Claude Code(Anthropic)是让模型来控制循环,而不是代码控制模型,模型返回工具调用,循环继续,模型返回文字,则循环结束。

Cursor则是把所有东西都映射成文件,自己再针对不同的底层模型专门调优 Harness。

至于Manus则是死磕KV缓存效率(注:模型复用之前计算结果的机制),让大模型能够调用常驻的工具

那MiniMax这次的思路是什么?

让模型自己来造Harness,然后用这个 Harness 套娃再把自己优化一遍。

图片

人负责定方向,模型负责造工具,然后工具再加速模型成长。

仅用1个人,4天,零人工编码。M2.7 以解决方案架构师的身份自主搭建了完整的开发 Agent 系统,包含CI(注:持续集成,代码自动测试+发布流程)、代码审查、测试全流程。

图片

而这次Minimax在MLE-bench Lite的得牌率测试,没想到竟然同几家外厂保持持平。

图片

在 MLE Lite 的 22 道高难度竞赛题目中,Minimax也同时一举拿下 9 枚金牌。

图片

可见Minimax这回,的确是在Agent模型自我进化训练上是真下了功夫。

图片

office测试

然后是官方这次主推的另一个点,针对复杂Office的处理。

尤其是Excel,宣称支持复杂数据操作,竞赛题型与金融分析任务。

图片

既然它都这么自夸了,那我肯定是要测上一测。

所以我直接祭出了一份数据巨多的Excel表:山东省2022年到2024年的高考分数线记录,一共34514行数据。

图片

我把这份表直接扔给了M2.7,让它帮我分析趋势,出图,告诉我哪些分数线在涨。

图片

说实话,我心里其实没抱太大期望,毕竟这个表,我自己的电脑打开都会卡一会儿。

结果,它不仅整理出来了,还顺手给我做了一份分析网页。

图片
图片

直接整理出来了足足20000多条数据,看来是真有点东西!!!

图片
图片
图片

网页制作

前一阵M2.5网上有个传疯了的 bug:MiniMax 的模型认不出「马嘉祺」这三个字。

图片

有人还专门调侃,以后 OpenRouter 上出现匿名模型,如果它认不出「马嘉祺」,那大概率是 MiniMax。

而 M2.7 这次官方也针对这个问题做了专项优化。

图片

看来这回确实是认识了,但先前的抽象操作也对马嘉祺粉丝造成了极大的心理伤害。

所以,我让 M2.7 来帮我做一个向马嘉祺粉丝的道歉网站。

图片

真的要赛博道歉,而且诚意满满的那种!

你别说,打开的第一眼感觉还行,没啥问题,页面设计没问题,视觉上过得去。

图片
图片

结果当我打开了马嘉祺的影像画廊?

发现 MCP 应该是在联网抓图的时候用错了图源,这下尴尬了🤣。

图片

不过这都是小问题,我让它重新改了一下。

改完之后效果还挺不错,画廊布局干净,点击还能放大欣赏,交互动画细节也做得挺完善。

图片
图片

当然还有最后的 Minimax 满满的道歉爱心,

打开这个网站的每一秒,MiniMax 都会用这颗爱心自动进行赛博忏悔。

图片

对不起嘉祺粉丝,这次 MiniMax 是真的真的有在认真反省!

图片

角色扮演

最后说说角色扮演这块,这里我要说句真心话,

这是我最认可MiniMax的一个方向,没有之一。

因为角色扮演比的从来不是「有多聪明」,而是「有多入戏」。

图片

能不能记住角色设定,接住人物对话,能不能在长对话里保持人格稳定,

这些场景,我拿MiniMax跑,从来没让我失望过。

图片

而且还有一个最硬核的优势,每月最低才29元。

29元,现在一杯瑞幸都不止这个价了,他真的我哭死。

图片

够用,好用,用完还不心疼。

顺带一提,官方这次还发布了一个彩蛋:OpenRoom

一款可以本地部署的沉浸式UI互动空间,接入M2.7 api后就可以直接进行交互。

包括它原本内置好的音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等等。

对话即驱动,说完还有反馈,角色甚至能主动和环境互动。

再加上M2.7 原生的 Agent 能力,以及长期记忆和角色人格保持,还有代码扩展。

全部都能在这个框架里跑起来,完完全全属于你自己。

而且官方的项目已经开源,地址放在评论区了。

感兴趣的大家,也可以接入 Minimax 2.7 体验玩一玩啊。

如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~

图片·················END·················

没有评论:

发表评论

视觉自回归模型新突破:reAR正则化以177M参数媲美675M扩散模型

视觉自回归生成面临生成器与分词器不一致的瓶颈,导致图像质量下降。reAR通过噪声上下文正则化与码本嵌入正则化,即插即用地提升模型对分词器的兼容性,仅用177M参数即可达到675M扩散模型的性能,FID降至1.42。适合AI研究人员与开发者,用于高效高质的图像生成任务。 Tags:...