本文实测MiniMax M3 AI模型,展示其在3小时内复刻苏丹的游戏2D叙事卡牌demo,15分钟生成马斯克告OpenAI官司网页,30分钟搭建北京AI公司卫星地图。模型具备长链路任务稳定、多模态生成、代码迁移克制等亮点,适合开发者及AI爱好者参考。
Tags:
MiniMax 最近有点忙。
5 月 29 号,它跟中信证券签了协议,正式启动 A 股上市辅导。
今年 1 月,MiniMax 才刚在港交所挂牌。从成立到上市,它只用了大约四年,是全球从成立到 IPO 历时最短的 AI 公司。
结果,港股这边落地还不到半年,MiniMax 马上又把 A 股排上了日程。
6 月 1 号,M3 上线。
一家正在冲刺双上市的公司,挑这个节骨眼甩出新旗舰,多少是想让市场看见点东西的。
那它到底有没有这个底气?
我直接上手测了一遍。
一、复刻苏丹的游戏(3小时)
听说 M3 做长链路任务的稳定性很强,我斗胆复刻了一下苏丹的游戏。
这是去年一款现象级的 2d 卡牌游戏,由于题材新颖,当时火得一塌糊涂。玩家扮演苏丹身边的近臣,被迫卷进一场残忍的命运游戏中。
先上我 3 小时跑的成品:
怎么样,是不是已经很有那味了?
用 AI 做游戏,难就难在它不是写一段能跑通的代码就行,而是要搭建一整套系统。
不仅时间长,而且任务复杂。但凡稳定性差一点,跑一半就断掉是常事。
提示词:帮我做一个可以在浏览器里玩的 2D 叙事卡牌游戏 demo,目标是 10 分钟左右的可玩流程。题材参考苏丹的游戏的经典框架:玩家扮演侍奉一位残暴统治者的近臣,每一轮必须在限定回合内调用手里的人物牌和资源牌去完成苏丹的任务,完不成就会触发惩罚。氛围阴郁、华丽、带宿命感,画风走暗金加深色的中世纪宫廷调性。请先做核心策划方案。
我的做法是,先让 M3 生成了10分钟 demo 的核心玩法策划方案和剧本文本,确定 demo 里要展现什么。
然后依照这个,反推需要的美术资产,让 M3 调用工具依次生成。
如果是做普通的游戏,M3 给的这套美术资产,完全够用。
但我要的是复刻苏丹的游戏的画风,所以最后还是用 Image 2.0 辅助生成了一下。
丢入资产后,就可以按照策划方案开始跑了。
我个人体验下来,M3 比较方便的有两点:第一,它根据任务自主调用了两个 Agent ,一个负责跑代码,另一个负责作检验。
每更新完一个版本,无论改变的地方是大还是小,都会有自主检验环节,并给到报告。
第二,每跑出一版,都会给你 4 张截图,便于你调整页面布局。不用每次都下载 html 文件进去查看细节。
更让我感叹的是它的稳定性,三个小时几十次迭代跑下来,一次没崩断,根本就不给你抽打它的机会。
除了以上这些,M3 还给我了一个惊喜。
这是 M3 跑的 demo 的主界面:
这是其他模型用同样的美术资产跑的 demo 的主界面:
这一 Part 我没有用到复杂的提示词,全靠它自己统筹生成,不禁感慨有点太强了....
大家觉得跑得怎么样?我反正是跑爽了。
二、给马斯克和奥特曼做了网页(15分钟)
由于前面这个长程任务跑了太久,我决定做点轻松的。
我让它把马斯克告 OpenAI 那场官司,梳理成一个网页。直接作效果展示:
不得不说,M3 的前端审美真的很不错。15分钟,成品网页就做好了。
我一开始嫌它第一版没有人像,追加了一句,让它再生成几张马斯克和奥特曼的同框图,顺便把数据看板和时间轴也做扎实点。
然后 M3 就自己去画图了。
一口气出了 4 张马斯克和奥特曼的同框图,封面的双人肖像也是它生成的,生成好,就自己嵌入了网页里。
这才是多模态该有的样子。丢一句话,把查资料、写代码、画图、排版一条龙全干了,根本不用我在几个工具之间来回折腾。
网页做完了它还自己验收了一下,用 Playwright 跑了遍校验,自己截图看渲染对不对,确认没有报错、十个板块全都正常显示,才将文件交付给我。
其实各家模型的前端能力都不弱了,但是能力强是一回事,跑任务靠不靠谱是另一回事。
有些模型上线时吹得神乎其神,结果用一会儿就降智。跑不了多久,就开始偷懒了。
这个 Case 测下来, M3 是真的省心,至少没让我守在屏幕前当监工。
三、卫星地图 (30分钟)
最后,我让它做一张北京 AI 公司的卫星地图。它的难点在于,几百多家公司,得一个个落到真实坐标上,还得在缩放时不打架。
提示词:给我做一个北京市AI公司的行业导览地图,要求可以互动,请自主设计,自主抓取地点信息。
开工前 M3 没急着写代码,先自主加载了相关的 skill,然后调了一份北京的 GeoJSON 地理数据打底,用 ECharts 搭出第一版。
不过,M3 自己嫌这张图不够真实,主动把底图换成了真正的卫星图层。
这一换就出大问题了,公司标记一个都显示不出来。
我把那张光秃秃的图甩给它。
M3 没狡辩,直接滑跪认错,说自己之前被 headless 浏览器的截图骗了。
认完错,它马上开始查这个 bug。
没有随便瞎改一通,而是先加日志,把中间算出来的坐标打出来看,问题一下就暴露了。
原来那份坐标数据是经度在前、纬度在后,而 M3 基于公式,把顺序读反了。改过来之后,标记全部归位。
bug 修完,M3 还自己加了一条能从九十年代滚到 2026 的时间轴,外加缩小时自动聚类的视图。
成品在此:
我觉得当作 demo 拿出去,效果已经很不错了。但最大的问题就是数据精度太粗糙,离真能用还差很多。
里面不少坐标都是估算的。想要解决这件事,只有真去高德抓 POI ,或者用企查查 API 作批量解析。
四、能力提升
跑完前面的 Case,是时候看看硬指标了。
先看官方的成绩单。M3 是国内第一个把编程智能体、百万上下文、原生多模态这三样前沿能力凑齐的模型,而且是这个梯队里唯一开源的。
编程能力上,官方称它在 SWE-Bench Pro 上超过了 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。
视觉生成能力,SVG-Bench 上反超 Opus 4.7;
多模态能力,OmniDocBench 上压过 Gemini 3.1 Pro;
智能体能力,Claw-Eval 上拿最高分。
不过,我更在意的是另一个官方放出来的细节。为了测 M3 能不能扛住长任务,官方让 M3 在英伟达的高端 GPU 上,手写并优化一个 FP8 矩阵乘法的底层算子。
在这个长达 24 小时的 CUDA 优化任务里,大多数模型撞墙三十次就主动退出了,只有 M3 和 Opus 4.7 还在硬扛,M3 的最优解一直到第 145 次提交才出现。
如果这个稳定性是真的,那比任何一个跑分都更打动我。
我在实测过程中,觉得 M3 的 3D 建模能力和代码能力有明显提升。
这是我让它做的赛博朋克风售货机,它不仅生成了一套 SVG 选择界面,售货机的部分外观能在页面上改;做出来的质感也确实在线,玻璃的透明度、PBR 材质的金属反光、屏幕的自发光,都兼顾到了。
然后我测试了一道 Nuxt 3 升到 Nuxt 4 的代迁移题。这题的考点在目录结构,Nuxt 4 要求把 pages、components、中间件这些归进新的 app 目录,而 server 目录留在外面不动。
要知道这种题最容易让模型手痒,借升级之名把项目重写一遍,美其名曰升级,实则推倒重来。
M3 很克制,答得很干净。
没有推翻源码逻辑,但凡是真正要迁移的地方,它都精准修改了,让我很有好感。
五、絮叨
测评下来,我对 M3 的体感是:好用、便宜、开源。
开源就不用说了,大家都清楚。
关键是它确实好用,能自己把活儿从头跑到尾,而且不偷懒。
便宜,是它另一个让我留下来的理由。
MiniMAX 常态的 Token Plan 有三档,Plus 49 块一个月给约 6 亿 token,Max 119 块给约 18 亿,Ultra 469 块给约 55 亿。
不过,MiniMax 平时是有周限额的,这事之前还闹过一些争议。
好在MiniMAX 也及时给了老用户补偿措施。
之前那批补偿积分的有效期也从一个月延到了一年,再加上 M3 API 上线即开的 7 天限时 5 折。
如果你在这一周里上手,等于可以用打折的价格,去用它最强的模型。
想试的话,这个时间点正好。
体验链接:
https://agent.minimaxi.com/
·················END·················
没有评论:
发表评论