你知道目前一共有多少个大模型吗?
Hugging Face 上已经有超过 70 万个大模型了。
即使抛去不好用的,被 Artificial Analysis 收录的大模型也有 269 个。
不仅模型琳琅满目,供应商也是多得让人眼花缭乱。
但这也给消费者带来了更多隐形的选择成本。
选哪一个模型?选哪一家供应商?
都是摆在消费者面前不可避免的难题。
对此,在几天前的杭州 GOSIM 大会-应用与智能体论坛上,清华大学也联合中国软件评测中心发布了《2025大模型服务性能排行榜》。
这个性能排行榜虽然有参考意义,但是在实际服务采购中还需要考虑到成本等因素。
并且在 AI 时代,模型、服务更迭速度极快,也让很多榜单不久就"过期"。
同时我也很好奇这些数据都是从哪来的。
搜索了一波之后,我发现这份榜单是由 AI Ping 提供的评测数据和技术支持。
更让人惊喜的是这个平台能做的远不只是给出一份性能排行榜。
它能为每一个大模型使用者提供全面、客观、真实的大模型服务评测,并且实时更新。
目标很明确:帮助开发者快速高效选定模型服务和供应商。
指路链接:
https://aiping.cn/
一、AI Ping 介绍
AI Ping 由清程极智推出,被称为是模型服务界的大众点评。
除了提供模型以及供应商的数据,它还通过各种可视化工具直观呈现出大模型服务的优次,方便挑选。
AI Ping 的评测维度也很贴心。
它从开发者角度出发,围绕 MaaS ( Model as a Service )性能,评测包括延迟、吞吐、可靠性等在内的多项指标,让开发者能够全面了解各供应商的服务。
为了结果绝对的客观公正,AI Ping 确保在模型、提示词、时间窗口完全相同的情况下,以匿名的形式进行 7*24 的持续监测。
目前已经整合并评测了来自 21 个供应商的 226 个模型服务。这个数量还在不断增长中。
GPT 、DeepSeek 、Qwen3 、Kimi-K2 、Llama 等国内外主流大语言模型它都有。
说了这么多,我们来看看在实际场景中怎么上手。
二、案例
选品选商
比如我现在要做一个类似 AI 客服的应用,需要接入大模型服务,但是对市面上的模型和供应商都不太了解。
在这种背景下,我们来到 AI Ping 官网。
直接来到"探索模型"页面。
这里面归纳了 42 个模型。
你可以直接根据对上下文长度、输出价格、输入价格的需求进行高效的筛选,迅速缩小范围,找到符合需求的模型。
不了解模型也没关系,模型详情页上有你需要了解的所有信息。
模型的基本信息、优缺点、影响力等介绍的很清楚客观,纯小白也能看懂。
假定我们选择经典的 DeepSeek-R1 模型。
选定模型后,下一步就是选择模型的供应商。
我们直接在它的详情页上根据 token 价格、上下文长度、延迟、吞吐等指标对供应商进行筛选。
即使是同一个模型,不同供应商的服务也能差出一大截。
拿延迟指标为例,使用京东云服务的延迟是使用火山方舟的 5-6 倍,这也体现出选商的重要性。
比如这个客服应用对上下文长度要求很高,要以该指标为主。
筛选起来很简单,直接选中该指标呈降序排列。其他指标数据清楚地列在同一行,都满足需求的话我们要找的供应商就有了。
还有一点很贴心的是 AI Ping 在数据列表处都表明了最后一次的更新时间,确保用户浏览到的数据都是在时效期内的。
比如上面的供应商数据就是在今天中午刚刚更新的。
下面还可以看到关于吞吐量和延迟指标的可视化。
里面记载了过去一周所有供应商的数据。
我们还可以选中有意向的供应商,查看它过去一周的表现。
拿我们根据上下文长度选出来的供应商百度智能云为例:
可以看到,过去一周的时间内,它的吞吐量很稳定,延迟指标稍微波动,但波动范围并不大。
至此,选品选商的整个过程就完成了。
是不是非常丝滑?
比起上面这种先确定模型的流程,不排除有些负责采购的小伙伴已经有了目标供应商这种情况。
也不用担心,我们进入"发现供应商"页面。
这里一共收纳了 21 个供应商。
选中意向供应商,这里以阿里云百炼为例。
可以看到该供应商的简介和它旗下提供的模型。
每个模型都标注好了包括上下文长度、输入输出价格、延迟、吞吐等指标,按需选择即可。
点进去就会跳转到该模型的详情页,非常方便。
还能一键跳转到官网对应页面,查看更多信息。
架构问题确定
除了选品选商之外,AI Ping 还特别适合运维的小伙伴在服务出问题的时候迅速确定问题出在哪。
有些企业内部接入了大模型服务,会出现延迟高、吞吐量低等问题,我们就可以用 AI Ping 来快速查看最新的供应商服务的指标数据,以便及时确定问题出在供应商服务还是内部系统架构。
举个例子,公司接入了硅基流动提供的 DeepSeek-R1-0528 大模型,出现了延迟高的问题。
我们直接到 AI Ping 查看该供应商该模型服务的最新数据。
可以看到在过去的几个小时里该服务的延迟是从 3.81s 增长到了 7.07s ,那么延迟的问题大概率出自供应商服务。
反之亦然,如果查看到的数据显示供应商延迟在正常范围内,比如阿里云百炼,那就说明问题出在内部系统上。
三、最后
在大模型遍地开花的当下,选择第三方供应商的大模型服务已经成了很多开发者和企业的选择。
面对多得看不过来的模型和供应商,有 AI Ping 这样一个权威、客观且可靠的选品选商工具,无疑是为开发者和企业节约了大量的人力物力。
未来,AI Ping 的评测将覆盖多模态模型,包括图像、视频、语音模型等。
还将加入更多指标,比如服务可靠性、性能稳定性、波动率等,以便全面满足用户的需求
目前 AI Ping 的测试服务器都在北京,后续还会扩展到华东、华南和西南等地区。
真就是未来可期了。
有需要的小伙伴可以扫描二维码到官网快速了解一波。
>/ 本期作者:Tashi & JackCui
>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。
没有评论:
发表评论