周六在杭州有一个 GOSIM 大会。
这个大会上,清华大学联合中软评测中心发布了《2025 大模型服务性能排行榜》。
这个排行榜挺有意思的,它不是对比各个 AI 大模型在数学、代码等评测集上的表现。而是看各个大模型 API 服务提供商提供的服务质量如何。
真是瞄准了国内开发者选型大模型 API 时要开盲盒的痛点:
面对一大堆模型服务商,根本不知道该选哪家;响应时快时慢,吞吐量也摸不着规律,调 API 调得头皮发麻;
排行榜背后是由 AI Ping (aiping.cn) 提供的权威评测数据支持。
我看了一下这个清华系发布的评测工具,堪称大模型服务界的 「大众点评」,帮你清清楚楚选模型,明明白白用服务。
01
啥是 AI Ping?
目前市面上的大模型五花八门,像手机应用商店里的 APP 一样多。
而且有各种服务商都提供 API 可以调用,选对合适的服务却有点头疼,毕竟每家都宣称自己家是最快、最好、最稳的。
但是,真实情况如何?
清华系团队打造了 AI Ping 评测平台,直接给各个大模型服务装了个体检仪,7×24 小时不间断监测各项指标。
它重点关心三个问题:延迟、吞吐、可靠性。
快不快、稳不稳这些指标直接关系到用户体验,不管是 DeepSeek、Qwen3 这些热门模型,还是阿里云、火山方舟等平台服务,都逃不过它的火眼金睛。
体验地址:aiping.cn
02
评测范围广泛
这个测评平台覆盖了主流的供应商,信息一目了然。
AI Ping 整合并评测了 21 个国内主流供应商,226 个模型服务,涵盖了DeepSeek、千问等知名大模型。
而且每一个大模型下面的各种尺寸、各个版本都有,帮你按照大模型分好类了。
随便点开一个,这个模型和供应商都有详细的描述,之前提到的延迟、吞吐、可靠性、上下文长度、价格等关键参数都列的很清楚。
你只需要看两三个表、几张图,就能全面了解各家的优势与特点。
03
测试方法很实在
各个厂商的服务表现不是拍脑袋或者从它们官网爬的信息,而是用普通开发者的身份匿名测试,完全模拟真实使用场景。
为了能更说明情况,AI Ping 会持续监测一周七天、每天 24 小时的数据,连上下班高峰期的性能波动都看得清清楚楚。
比如下面这两张图, DeepSeek-R1 模:一周平均的吞吐、延迟,各个服务厂商的情况都给你梳理的很清楚。
未来 AI Ping 还会加入图片、视频等多模态模型的评测,测试地点也会覆盖更多地区。
如果你正在做 AI 应用开发,或者打算用上大模型服务,不妨现在就打开 aiping.cn 看看。毕竟选对模型服务,可能让你的项目开发效率翻倍。
欢迎扫码前往 AI Ping 官网。
没有评论:
发表评论