Cider是专为Apple Silicon Mac打造的本地推理加速框架,基于MIT协议开源免费。实测在M5 Pro芯片上,推理速度最高提升2倍多,预填充速度提升57%,高并发场景提升1.4-1.9倍,且模型输出质量不变。支持Mano-P、Qwen、Llama等MLX生态模型,兼容OpenAI接口。适合开发者、隐私敏感用户构建本地AI应用,数据不出设备。
Tags:
2026 年初 OpenClaw 的爆火,不少人跟风入手了 Mac mini。
随着 OpenClaw 热潮退去,大家折腾了几次之后,这台机器就搁着吃灰。
本还想挣扎一下,在本地部署模型运行,却发现速度不尽人意,内存也很快见底。
其实问题并不在硬件本身。
Mac mini 搭载的 Apple Silicon 芯片,算力一直都在,只是从来没有被充分释放过。
直到最近,在 GitHub 上看到一个叫 Cider 的开源项目,正好给我们提供了解决方案。
GitHub:https://github.com/Mininglamp-AI/cider
简单来说,Cider 是一个专为 Apple Silicon 打造的本地推理加速框架。
把 Mac 芯片里一直闲置的计算单元激活,让本地模型跑得更快、占的内存更少。
让 Mac 不只是运行 AI,而是成为真正的本地 AI 工作站。
在 M5 Pro 芯片上实测,同样的模型,同样的输入,开启加速后推理速度最高可以快 2 倍多。
以 Qwen3-VL-2B 为例,开启加速后预填充速度从 2065 提升到 3242 tok/s(每秒处理的文字量),提升幅度约 57%。
同时处理 16 个以上任务的高并发场景里,速度较原生框架提升 1.4 至 1.9 倍。
更关键的是,加速之后模型输出质量几乎没有变化,把硬件潜能全部给挖了出来。
当模型能在本地跑得更快之后,可做的事情自然也变得更多。
比如 GUI 自动化场景,配合端侧视觉模型,就能让 AI 像人一样看屏幕、操控界面,完成各种重复性任务。
全程在本地跑,数据不出设备,非常适合对隐私有要求的个人或企业使用场景。
上手安装
想要接入 Cider,只需克隆代码到本地后,进入项目目录,一行命令完成安装:
git clone https://github.com/Mininglamp-AI/cidercd ciderpip install -e .
安装后自动编译,无需额外配置。
M5+ 芯片的 Mac 可以获得完整加速,M4 芯片安装后会自动适配,同样不会报错。
想进一步榨出 M4 的性能,项目还提供一个 ANE+GPU 混合推理方案,可以查看一下 README 介绍。
值得一提的是,Mano-P、Qwen、Llama 等所有接入 MLX 生态的模型,都可以用 Cider 来加速。
不止如此,Cider 还内置本地 VLM 推理服务,兼容 OpenAI 接口,开发者可直接对接自己的应用。
装好之后具体能用来做什么?这里给大家展示一个真实的应用场景。
把最新的端侧模型 Mano-P 和 Cider 搭配起来,可以实现本地端到端的自动化应用构建。
只需一句需求描述,就能让 AI 自主完成代码生成、本地部署,再由 Cider 加速模型 Mano-P 在本地浏览器完成界面自动化测试。
写在最后
端侧 AI 这件事,过去几年一直被低估。
大家的目光都盯着云端大模型,觉得本地跑的模型,速度慢、能力弱、体验差。
但这个印象,很大程度上是因为端侧硬件的算力从来没有被充分释放过。
苹果近几代芯片的算力其实已经相当强悍,真正的瓶颈在软件层面,推理框架没有把硬件潜能完全用起来。
Cider 做的就是这件事,补齐了 Apple MLX 生态在激活量化上的空白,让芯片里闲置的计算单元真正跑起来。
这意味着,端侧模型推理不再是「能用就行」,而是开始接近真正可用的工程标准。
数据不出设备、离线可用、成本可控,这些曾经只存在于云端替代方案里的需求,正在被端侧基础设施一一补齐。
当端侧推理效率不再是瓶颈,真正属于每个人的本地 AI,比我们想象的更快到来。
而这台曾经吃灰的 Mac mini,或许就是起点。
项目基于 MIT 协议开源,可商用和二次开发。感兴趣的同学,可以去 GitHub 仓库看下源码和使用文档。
GitHub 项目地址:https://github.com/Mininglamp-AI/cider
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
没有评论:
发表评论