2026年4月6日星期一

Gemma 4开源模型本地部署教程:免费替代Claude的AI平替

谷歌Gemma 4模型以Apache 2.0协议开源,支持免费商用和原生Function Calling。本文提供基于Ollama的三步本地部署指南,覆盖从4GB到20GB+内存的多个版本(E2B、E4B、26B MoE、31B满血版),无需依赖云端API,零成本运行。适合受Claude封禁OpenClaw影响的开发者与AI爱好者,部署前请确认电脑内存配置。

Tags:

图片

你好,我是元小二,专注分享 AI 提效、一人公司实践和个人成长。这里有 OpenClaw、Claude Code、自动化流程、虚拟产品,也有理财、思考和生活系统。

欢迎关注,也欢迎后台留言告诉我,你对哪部分内容感兴趣。


朋友们,今天有一个坏消息,一个好消息。
先说坏消息。
龙虾(OpenClaw)凉了。

Alt text

4月4日,Anthropic 正式向所有订阅用户发送邮件:从当天 15:00 ET 起,Claude 订阅额度不再覆盖 OpenClaw 等第三方客户端。

这件事其实早有预兆。今年1月到2月,就开始陆续有用户遇到 401 报错——服务器端直接封杀第三方 OAuth token。新版服务条款也白纸黑字写清楚了:Pro/Max 订阅额度只能用于官方 Claude 和 Claude Code,第三方工具不在覆盖范围内。

到4月4日,靴子彻底落地。官方通过检测 OAuth token 使用环境、请求头(Claude Code 有专属加密头 cch,第三方难以伪造)和调用模式来识别限制。同步推出”Extra Usage”和一次性信用额度——说白了就是:以前用订阅白嫖 API 的时代结束了。

很多用户已经中招:之前勉强能用的,现在直接连接失败;继续强行调用的,面临被进一步风控甚至封号的风险。(当然你也可以用openclaw通过tmux来控制claude,或者用微信来控制claude:微信终于开窍了!绕过小龙虾直连Claude Code,地铁上也能控制电脑干活啦!


好,坏消息说完了。

说好消息。

恰好在这个节骨眼上,谷歌发布了 Gemma 4。

Alt text

我对这件事的评价是:等等党的大胜利。


一、为什么说 Gemma 4 是真正的好消息?

不是所有开源模型都值得折腾。但这次我对 Gemma 4 的评价是:真的香。

Apache 2.0 协议。 商用、魔改、二次分发,随便玩,没有任何限制。这是 Gemma 家族第一次用这个协议开源,谷歌这次是真的放开了。

原生支持 Function Calling。 接入你的 Agent 工作流毫无障碍,直接替换掉付费 API,一行配置搞定。

跑分真的猛。 满血版 31B 在 Arena AI 开源排行榜排第三,AIME 2026 数学推理 89.2%,编程能力 80.0%。这不是玩具,这是能干活的模型。

你问我这和 Claude 被封有什么关系?关系大了。你本来就不该把自己的工作流建在别人的地基上。


二、你的电脑能跑哪个版本?

Alt text

先别急着动手,看看自己的内存配置:

内存
推荐版本
特点
4 GB
E2B(23亿参数)
手机都能跑,支持图片+音频
6 GB
E4B(45亿参数)
日常聊天够用
18 GB
26B(MoE) 性价比之王,强烈推荐
20 GB+
31B(满血版)
跑分最猛,能者多劳

重点说一下 26B 这个版本,它是混合专家架构(MoE)——总参数 252 亿,但每次推理只激活 38 亿。

简单说就是:速度像小模型,质量像满血版。 24 GB 内存的 Mac 或者 24 GB 显存的显卡就能带动。这个版本是我最推荐的,性价比拉满。


三、三步搞定本地部署

1. 安装 Ollama

Alt text

Ollama 是目前跑本地模型最简单的工具,没有之一。模型下载、推理引擎、API 服务,一个 App 全包了。

Mac 用户:

brew install --cask ollama

Windows 用户:

irm https://ollama.com/install.ps1 | iex

有 NVIDIA 显卡的朋友,Ollama 会自动调用 CUDA 加速,不用你操心。

2. 拉取模型

装好 Ollama 之后,打开终端,根据你的内存选一个型号运行:

# 4 GB 内存

ollama run gemma4:e2b


# 6 GB 内存

ollama run gemma4:e4b


# 18 GB 内存(强烈推荐这个)

ollama run gemma4:26b


# 20 GB+ 内存

ollama run gemma4:27b

以 26B 为例,大约 18 GB,耐心等下载完成。下载完自动进入聊天界面,随便问一句,看到回答就成功了。

3. 验证运行状态

ollama ps

你会看到 CPU/GPU 的推理分配比例。Apple Silicon 的朋友会发现,Ollama 最新版直接调用苹果自家的 MLX 框架,大部分计算跑在 GPU 上,速度比之前翻倍!

就这样,三步,搞定。


四、常用命令备忘(直接抄)

ollama list              # 查看已下载的模型

ollama ps                # 查看运行状态和内存占用

ollama run gemma4:26b    # 启动对话

ollama stop gemma4:26b   # 卸载模型释放内存

ollama pull gemma4:26b   # 更新到最新版本

ollama rm gemma4:26b     # 彻底删除模型


五、这件事给我们的真正启示

我之前在服务器上部署的时候,全程让openclaw帮我操作,从安装 Ollama 到拉取模型,再到跑通测试,全程没碰终端一次。 AI 还自己发现缺少依赖、自己修好、重新运行——这种体验,真的会上瘾。

理论上你还能更进一步:把 AI 工具的模型后端切到本地 Gemma 4,API 端点指向 localhost,从此对云端 API 彻底断奶。

Anthropic 封 OpenClaw 这件事,表面上是一个坏消息,但它逼着我们去想一个更根本的问题:我们为什么要把自己的工作流完全寄托在别人家的服务器上?

本地部署不是退而求其次,是真正的掌控感。

零成本养 AI,现在真的不是说说而已了。

Alt text

赶快去试试吧,期待你的反馈!

乾坤未定,你我均是黑马。


👇关注公众号【元小二学AI】,后台回复【openclaw】,领取一份从小白到高手的openclaw进阶指南。



温馨提示:

公众号修改了推送规则,很多人发现收到的消息不及时。

为了能够第一时间收到消息,不错过优质的AI教程,请星标⭐置顶本公众号,以便第一时间获取精选内容!




          我们的口号:学好AI,享受生活


关注【元小二学AI】,你会持续看到更接地气的 AI 学习内容。

这里不讲太多空概念,更关注普通人怎么把 AI 真正用到工作、内容创作和日常生活里。

包括工具实操、提效流程、自动化思路,以及一人公司场景下的真实应用。

你能在这里找到教程、案例、脚本思路和实战经验,少走弯路,早点把 AI 变成自己的帮手。





没有评论:

发表评论

OpenAI IPO前夜高层内讧:COO转岗、CMO离职,CFO与CEO上市时间表分歧

OpenAI冲刺IPO之际,COO Brad Lightcap转任特别项目被指明升暗贬,首席应用官Fidji Simo休假、CMO Kate Rouch离职。同时CEO奥特曼与CFO Sarah Friar就上市时间表产生分歧:奥特曼求快(今年Q4),CFO求稳。高层动荡引发外界...