AI I024: 不是，智谱这样做，真不怕亏本？。。。

Claude Sonnet 4.0真是太贵了，我用不起了！做了好几个项目，赚了4000多块，还是不舍得花200美刀买个会员。

Claude Sonnet 4.0真是太贵了，我用不起了！

做了好几个项目，赚了4000多块，还是不舍得花200美刀买个会员。

有没有便宜又好用的大模型？

说实话，好用的大模型真不多，这段时间我试了不少：Claude Sonnet 4.0、GLM-4.5、Kimi K2、Gemini 2……

我常规日常的需求会让GLM-4.5来跑，Claude Sonnet来做一些复杂的任务。合理的降本增效之类。GLM4.5在国内跑了一圈模型比较下来，确实是最好的，Claude Sonnet 4.0好是好，就是太贵了。

我试过，用Claude Sonnet 4.0模型，一个下午，就刷了我10几美元。。。贼心疼。

切换成GLM-4.5，一样的使用强度，不到5块钱，注意，这个是rmb。

用不起claude sonnet模型了，但活儿还得干啊，所以我换成了GLM-4.5。

真别说，还挺好用的。

最近DeepSeek-v3.1火了，问题来了—它能比GLM-4.5更强吗？

我做了一个小实验，用DeepSeek和GLM完成同样的任务，看看他们谁更厉害。

本文中间是一些试验过程，可能有点枯燥～

如果你不想熬过这些，可以直接拖到最后，结论等着你哦！文末有惊喜！

相同任务，谁更强？

我挑了个真实的开发任务，让两个模型一起执行，看看谁更强。

为了对比GLM-4.5和DeepSeek-v3.1，我列出了详细的指标，方便做对比。

根据我的要求，我列了下评分的标准

好了，接下来开始我们的测试任务了。

我们的第一个任务是对比GLM-4.5和DeepSeek-v3.1的理解能力。

1、任务理解能力

下面就是本次测试的提示词，接下来我会让GLM-4.5和DeepSeek-v3.1分别用同样的提示词，看看他们的执行效果

请帮我设计一个网页，要求如下：
1. 页面主题：个人任务管理器
2. 页面功能：
- 能够新增任务（AddTask）
- 能够查看任务状态（GetTask）
- 支持任务列表展示，包含任务名称和状态
- 页面逻辑正确，可直接运行
3. 页面结构：
- 顶部导航栏或标题
- 任务输入区
- 任务列表展示区
- 操作按钮（新增、删除等）
4. 技术要求：
- 使用 HTML + CSS + JavaScript
- 考虑响应式布局，适配移动端和桌面端
- 代码清晰，易于维护
5. 输出要求：
- 生成可直接运行的完整网页代码
- 在代码注释中说明每个模块的功能
6. 给出Mock数据，我需要看到网页的效果

1.1 GLM-4.5任务理解能力测试

在将提示词提交给到GLM-4.5模型后，模型很快把任务进行了拆分。

没几分钟，就生成了下面的页面了。

从功能上，GLM-4.5全部完成了我们的功能，

test是我新增的任务，从整体功能体验来看，功能都实现了，并且体验很丝滑，没有明显的问题，按照我们的评分标准。

然后，再来看看移动端的效果怎么样

嗯，看起来挺好，页面虽说看起来不是很美观，但功能是齐全，也是完善的。

虽然功能实现了，不过，代码写的不好，也是要减分的，我们来看看代码写的怎么样。

glm-4.5将整个工程拆分成3个模块，首页-index.html，逻辑-script.js，样式styless.css。

以我的经验来看，还真的是挺不错的，做到了逻辑和界面分离。

针对这几项，我把分数给列出来了，我对GLM-4.5模型的表现还是很满意的

对比点	GLM-4.5
理解任务要求	🌟🌟🌟🌟🌟 5
适配移动端	🌟🌟🌟🌟🌟 5
界面交互完整性	🌟🌟🌟🌟🌟 5
代码结构	🌟🌟🌟🌟🌟 5

虽然任务做好，但做的快不快也很重要。

推出Claude Code之后，从Total Duration(API)，可以看出，一共花了2m 5.4s，看起来还是很快的。

那么，相同的条件下，DeepSeek-V3.1表现如何呢？

1.2 DeepSeek-V3.1任务理解能力测试

从任务拆分上看，DeepSeek-V3.1相对于GLM-4.5相似，但是没有GLM-4.5分的那么细

任务执行完成后，是下面的这个页面效果

该有的功能都有，然后，再来看看移动端的适配性

界面看起来也完整，没有明显的问题

最后，我们一起来看看代码结构。从实现上看，DeepSeep V3.1在此处比GLM4.5稍逊，项目文件没有进行拆分。导致实现的项目内容很长，接近600多行，这个是不利于维护的。

根据我前面列出来的评分规则，我也把评分列下来了

对比点	DeepSeek-V3.1
理解任务要求	🌟🌟🌟🌟🌟 5
适配移动端	🌟🌟🌟🌟🌟 5
界面交互完整性	🌟🌟🌟🌟🌟 5
代码结构	🌟🌟🌟🌟🌟 3

代码结构真的很糟糕。。。虽然能实现功能，但真的咋样。

最后，我列下整个测试任务花费的时间

整个任务耗时(Total Duration(API) 1m 41.6s，这个耗时看起来比GLM-4.5稍短一些。

我们在进行下一轮更重要的对比测试-审美能力。

2、网页的审美能力

这项主要是考察我们模型的审美能力，简单的说，就是看他们能不能把网页改的好看。下面是我们的提示词。

请帮我优化一个网页的视觉效果，要求如下：
1. 页面主题：个人任务管理器
2. 页面内容保持功能完整：
- 新增任务
- 查看任务状态
- 任务列表展示
3. 美学要求：
- 页面整体简洁、现代、易读
- 色彩搭配和谐、统一
- 排版有层次感，留白合理
- 按钮、卡片、列表对齐统一
- 字体、字号、颜色风格一致
4. 可选增强：
- 轻微动画或交互效果（hover、按钮点击反馈）
- 响应式布局，移动端友好
5. 输出要求：
- 生成 HTML + CSS + JavaScript 代码
- 代码可直接运行
- 在代码注释中说明设计选择和配色方案

网页美化任务

我们的网页就是在前一个任务基础上进行美化的。

先来看看GLM-4.5的成果吧。

我个人是比较喜欢glm-4.5这个版本的，因为看起来比较整洁，大方，模块。

然后，咱们再来看看deepseek的版本。

看起来，UI是进行了美化，但是，我个人感觉，好像模块组件和整个网页搭配不协调，大面积使用了紫色之类的。但是任务列表有颜色区分还不错。

最后，在一起来看看耗时怎么样

首先是glm-4.5的，看起来耗时是3分20秒，这个时间在可接受的范围内

然后再来看看deepseek的，12分钟20秒。。。这时间太长了。

来做个表格简单对比下

对比点	glm-4.5	deepseek-v3.1
美观度	🌟🌟🌟🌟	🌟🌟
任务耗时	3分20s	12分20s

美观度其实是带有一点主观性的，毕竟每个人的审美都不一样。如果有不同看法的小伙伴，可以在下方留言

最后，有一项能力也很重要，就是迭代能力。

迭代能力，简单的说，跟模型沟通，让模型帮我们新增功能。

这个在我们用AI进行开发的时候，是经常使用的。

3、沟通能力&抽象表达能力&迭代能力

本轮的测试，主要是通过持续和模型沟通的方式，进行功能迭代，来检验模型的理解能力。

首先，是我们用于测试的提示词

任务：请先用 ASCII 图展示网页布局，然后再生成代码。

说明：
1. 页面主题：个人任务管理器
2. 页面功能：
- 新增任务（AddTask）
- 查看任务状态（GetTask）
- 显示任务列表，包含任务名称和状态
3. 目标：
- 我希望先看到你对布局的理解（用 ASCII 图表示）
- 在我确认布局正确后，再生成可运行的网页代码
4. 要求：
- ASCII 图要清晰表示页面各模块的位置和层级
- 每个模块用文字标注，例如 Header、Task Input、Task List、Footer
- 可附加文字说明为什么这样布局，是否考虑用户体验
- 等我确认后，再生成完整 HTML + CSS + JS 代码
5. 输出格式：
1) ASCII 布局图
2) 模块说明文字
3) （待确认后生成）网页代码

这个是我们的前置提示词，然后我们后续会和模型进行沟通，增加一个日历模块

3.1 glm-4.5模型

先来看看这个提示词输入到glm-4.5的效果是什么样子的，输入后，模型会输出ASCII的布局图，输出这个图，需要模型对我们网页的布局必须熟悉，并且具有抽象能力。

从现在的结果上看，GLM-4.5能力还是不错的。

然后接下来我们要在里面添加一个日历模块，现在ASCII的布局图确定好布局之后，在进行代码编写。

请帮我新增一个日历模块，先用ASCII帮我画出效果图，我确认后再完成相应的功能。

提示词输入到glm-4.5后，可以看到输出下面的布局图

在确认布局符合我们的要求后，就可以让模型完成当前的功能

请帮我完成以上的功能

从结果上看，glm-4.5很好得完成了新增的组件，功能上也没有什么问题。

最后来看看时间，整个过程需要6分7.7秒，时间并不长。

3.2 deepseek-v3.1模型

同样的提示词，deepseek-v3.1 也能够理解页面的布局，并且将布局用ASCII画出来

新增模块后，同样的，也能够将新增的模块添加到ASCII布局图中

最后让deepseek-v3.1实现模型，虽然功能页面实现了，但。。，这儿有个很严重的问题

背景风格完全改变了，这是不可接受的。

在保持原有风格的前提下添加功能，对于AI编程来说是非常重要的，毕竟，我们不想网页的风格每次改动都像抽卡一样。

最后咱们一起来看看时长，整个过程花费了15分钟25秒，说实话，这个时间有点长。

为什么选择了GLM-4.5

我把前面测试的结果汇总，列在下方了

对比点	GLM-4.5	DeepSeek-V3.1
理解任务要求	🌟🌟🌟🌟🌟 5	🌟🌟🌟🌟🌟 5
适配移动端	🌟🌟🌟🌟🌟 5	🌟🌟🌟🌟🌟 5
交互完整性	🌟🌟🌟🌟🌟 5	🌟🌟🌟🌟🌟 5
代码结构	🌟🌟🌟🌟🌟 5	🌟🌟🌟 3
审美能力	🌟🌟🌟🌟 4	🌟🌟 2

从表格上对比可以看出来，写代码的能力和审美能力上，GLM-4.5是比DeepSeek-v3.1要强的。

虽然同一个任务，两个模型都能完成，但是，GLM-4.5能做的更加好。

我们来对比下整体的任务执行时间

对比点	GLM-4.5	DeepSeek-V3.1
任务理解能力	2m 5.4s	1m 41.6s
网页审美能力	3m20s	12m20s
沟通迭代能力	6m7.7s	15m25s

DeepSeek-V3.1的执行时间有点长了，对我这种急性子来说，是不太能接受的

最后，来看看咱们都关心的--花了多少钱？

我们来看看GLM-4.5的

GLM-4.5只用了0.120038元，才1毛钱…简直太便宜！

DeepSeek用了0.76元，虽然看起来不贵，但和GLM-4.5一对比，差距就太大了，几乎贵了6倍

好了，我的评测到这儿就结束了，看到这儿，大家都知道我为什么选择GLM-4.5了。

就目前我的体验来看，GLM-4.5的编程能力是最接近Claude Sonnet 的4.0，而且最关键的是

便宜啊！真的超级便宜！

最近智谱又有活动了，花20块钱就能体验glm-4.5模型，编程效率飞速提升！这样的价格，智谱真的是在盈利吗？

说实话，20块钱买到这么强大的功能，简直是白菜价！

对我这种AI重度用户来说，妥妥的送福利！

AI I024

2025年9月2日星期二

不是，智谱这样做，真不怕亏本？。。。

Claude Sonnet 4.0真是太贵了，我用不起了！做了好几个项目，赚了4000多块，还是不舍得花200美刀买个会员。

没有评论:

发表评论

建议收藏！全网最强 AI 资源包：GPT-5。2、Claude 4。5、科研绘图神器，通通国内直连！