Claude Sonnet 4.0真是太贵了,我用不起了!做了好几个项目,赚了4000多块,还是不舍得花200美刀买个会员。
做了好几个项目,赚了4000多块,还是不舍得花200美刀买个会员。
有没有便宜又好用的大模型?
说实话,好用的大模型真不多,这段时间我试了不少:Claude Sonnet 4.0、GLM-4.5、Kimi K2、Gemini 2……
我常规日常的需求会让GLM-4.5来跑,Claude Sonnet来做一些复杂的任务。合理的降本增效之类。GLM4.5在国内跑了一圈模型比较下来,确实是最好的,Claude Sonnet 4.0好是好,就是太贵了。
我试过,用Claude Sonnet 4.0模型,一个下午,就刷了我10几美元。。。贼心疼。
切换成GLM-4.5,一样的使用强度,不到5块钱,注意,这个是rmb。
用不起claude sonnet模型了,但活儿还得干啊,所以我换成了GLM-4.5。
真别说,还挺好用的。
最近DeepSeek-v3.1火了,问题来了—它能比GLM-4.5更强吗?
我做了一个小实验,用DeepSeek和GLM完成同样的任务,看看他们谁更厉害。
本文中间是一些试验过程,可能有点枯燥~
如果你不想熬过这些,可以直接拖到最后,结论等着你哦!文末有惊喜!
相同任务,谁更强?
我挑了个真实的开发任务,让两个模型一起执行,看看谁更强。
为了对比GLM-4.5和DeepSeek-v3.1,我列出了详细的指标,方便做对比。
根据我的要求,我列了下评分的标准
好了,接下来开始我们的测试任务了。
我们的第一个任务是对比GLM-4.5和DeepSeek-v3.1的理解能力。
1、任务理解能力
下面就是本次测试的提示词,接下来我会让GLM-4.5和DeepSeek-v3.1分别用同样的提示词,看看他们的执行效果
请帮我设计一个网页,要求如下: |
1.1 GLM-4.5任务理解能力测试
在将提示词提交给到GLM-4.5模型后,模型很快把任务进行了拆分。
没几分钟,就生成了下面的页面了。
从功能上,GLM-4.5全部完成了我们的功能,
test是我新增的任务,从整体功能体验来看,功能都实现了,并且体验很丝滑,没有明显的问题,按照我们的评分标准。
然后,再来看看移动端的效果怎么样
嗯,看起来挺好,页面虽说看起来不是很美观,但功能是齐全,也是完善的。
虽然功能实现了,不过,代码写的不好,也是要减分的,我们来看看代码写的怎么样。
glm-4.5将整个工程拆分成3个模块,首页-index.html,逻辑-script.js,样式styless.css。
以我的经验来看,还真的是挺不错的,做到了逻辑和界面分离。
针对这几项,我把分数给列出来了,我对GLM-4.5模型的表现还是很满意的
对比点 | GLM-4.5 |
理解任务要求 | 🌟🌟🌟🌟🌟 5 |
适配移动端 | 🌟🌟🌟🌟🌟 5 |
界面交互完整性 | 🌟🌟🌟🌟🌟 5 |
代码结构 | 🌟🌟🌟🌟🌟 5 |
虽然任务做好,但做的快不快也很重要。
推出Claude Code之后,从Total Duration(API),可以看出,一共花了2m 5.4s,看起来还是很快的。
那么,相同的条件下,DeepSeek-V3.1表现如何呢?
1.2 DeepSeek-V3.1任务理解能力测试
从任务拆分上看,DeepSeek-V3.1相对于GLM-4.5相似,但是没有GLM-4.5分的那么细
任务执行完成后,是下面的这个页面效果
该有的功能都有,然后,再来看看移动端的适配性
界面看起来也完整,没有明显的问题
最后,我们一起来看看代码结构。从实现上看,DeepSeep V3.1在此处比GLM4.5稍逊,项目文件没有进行拆分。导致实现的项目内容很长,接近600多行,这个是不利于维护的。
根据我前面列出来的评分规则,我也把评分列下来了
对比点 | DeepSeek-V3.1 |
理解任务要求 | 🌟🌟🌟🌟🌟 5 |
适配移动端 | 🌟🌟🌟🌟🌟 5 |
界面交互完整性 | 🌟🌟🌟🌟🌟 5 |
代码结构 | 🌟🌟🌟🌟🌟 3 |
代码结构真的很糟糕。。。虽然能实现功能,但真的咋样。
最后,我列下整个测试任务花费的时间
整个任务耗时(Total Duration(API) 1m 41.6s,这个耗时看起来比GLM-4.5稍短一些。
我们在进行下一轮更重要的对比测试-审美能力。
2、网页的审美能力
这项主要是考察我们模型的审美能力,简单的说,就是看他们能不能把网页改的好看。下面是我们的提示词。
请帮我优化一个网页的视觉效果,要求如下: |
网页美化任务
我们的网页就是在前一个任务基础上进行美化的。
先来看看GLM-4.5的成果吧。
我个人是比较喜欢glm-4.5这个版本的,因为看起来比较整洁,大方,模块。
然后,咱们再来看看deepseek的版本。
看起来,UI是进行了美化,但是,我个人感觉,好像模块组件和整个网页搭配不协调,大面积使用了紫色之类的。但是任务列表有颜色区分还不错。
最后,在一起来看看耗时怎么样
首先是glm-4.5的,看起来耗时是3分20秒,这个时间在可接受的范围内
然后再来看看deepseek的,12分钟20秒。。。这时间太长了。
来做个表格简单对比下
对比点 | glm-4.5 | deepseek-v3.1 |
美观度 | 🌟🌟🌟🌟 | 🌟🌟 |
任务耗时 | 3分20s | 12分20s |
美观度其实是带有一点主观性的,毕竟每个人的审美都不一样。如果有不同看法的小伙伴,可以在下方留言
最后,有一项能力也很重要,就是迭代能力。
迭代能力,简单的说,跟模型沟通,让模型帮我们新增功能。
这个在我们用AI进行开发的时候,是经常使用的。
3、沟通能力&抽象表达能力&迭代能力
本轮的测试,主要是通过持续和模型沟通的方式,进行功能迭代,来检验模型的理解能力。
首先,是我们用于测试的提示词
任务:请先用 ASCII 图展示网页布局,然后再生成代码。 |
这个是我们的前置提示词,然后我们后续会和模型进行沟通,增加一个日历模块
3.1 glm-4.5模型
先来看看这个提示词输入到glm-4.5的效果是什么样子的,输入后,模型会输出ASCII的布局图,输出这个图,需要模型对我们网页的布局必须熟悉,并且具有抽象能力。
从现在的结果上看,GLM-4.5能力还是不错的。
然后接下来我们要在里面添加一个日历模块,现在ASCII的布局图确定好布局之后,在进行代码编写。
请帮我新增一个日历模块,先用ASCII帮我画出效果图,我确认后再完成相应的功能。 |
提示词输入到glm-4.5后,可以看到输出下面的布局图
在确认布局符合我们的要求后,就可以让模型完成当前的功能
请帮我完成以上的功能 |
从结果上看,glm-4.5很好得完成了新增的组件,功能上也没有什么问题。
最后来看看时间,整个过程需要6分7.7秒,时间并不长。
3.2 deepseek-v3.1模型
同样的提示词,deepseek-v3.1 也能够理解页面的布局,并且将布局用ASCII画出来
新增模块后,同样的,也能够将新增的模块添加到ASCII布局图中
最后让deepseek-v3.1实现模型,虽然功能页面实现了,但。。,这儿有个很严重的问题
背景风格完全改变了,这是不可接受的。
在保持原有风格的前提下添加功能,对于AI编程来说是非常重要的,毕竟,我们不想网页的风格每次改动都像抽卡一样。
最后咱们一起来看看时长,整个过程花费了15分钟25秒,说实话,这个时间有点长。
为什么选择了GLM-4.5
我把前面测试的结果汇总,列在下方了
对比点 | GLM-4.5 | DeepSeek-V3.1 |
理解任务要求 | 🌟🌟🌟🌟🌟 5 | 🌟🌟🌟🌟🌟 5 |
适配移动端 | 🌟🌟🌟🌟🌟 5 | 🌟🌟🌟🌟🌟 5 |
交互完整性 | 🌟🌟🌟🌟🌟 5 | 🌟🌟🌟🌟🌟 5 |
代码结构 | 🌟🌟🌟🌟🌟 5 | 🌟🌟🌟 3 |
审美能力 | 🌟🌟🌟🌟 4 | 🌟🌟 2 |
从表格上对比可以看出来,写代码的能力和审美能力上,GLM-4.5是比DeepSeek-v3.1要强的。
虽然同一个任务,两个模型都能完成,但是,GLM-4.5能做的更加好。
我们来对比下整体的任务执行时间
对比点 | GLM-4.5 | DeepSeek-V3.1 |
任务理解能力 | 2m 5.4s | 1m 41.6s |
网页审美能力 | 3m20s | 12m20s |
沟通迭代能力 | 6m7.7s | 15m25s |
DeepSeek-V3.1的执行时间有点长了,对我这种急性子来说,是不太能接受的
最后,来看看咱们都关心的--花了多少钱?
我们来看看GLM-4.5的
GLM-4.5只用了0.120038元,才1毛钱…简直太便宜!
DeepSeek用了0.76元,虽然看起来不贵,但和GLM-4.5一对比,差距就太大了,几乎贵了6倍
好了,我的评测到这儿就结束了,看到这儿,大家都知道我为什么选择GLM-4.5了。
就目前我的体验来看,GLM-4.5的编程能力是最接近Claude Sonnet 的4.0,而且最关键的是
便宜啊!真的超级便宜!
最近智谱又有活动了,花20块钱就能体验glm-4.5模型,编程效率飞速提升!这样的价格,智谱真的是在盈利吗?
说实话,20块钱买到这么强大的功能,简直是白菜价!
对我这种AI重度用户来说,妥妥的送福利!
没有评论:
发表评论