2026年4月4日星期六

谷歌Gemma 4本地部署教程:三步零成本安装(支持Mac/Windows/Linux)

本文提供谷歌开源模型Gemma 4的本地部署保姆级教程,支持Mac、Windows、Linux系统。通过Ollama工具,三步即可完成4-bit量化模型的下载与运行。涵盖E2B(4GB内存)、E4B(5.5GB)、26B(16-18GB)及31B(17-20GB)四个版本的内存要求与适用场景。模型采用Apache 2.0协议,可商用和二次分发。NVIDIA显卡用户可启用CUDA加速。适合开发者、AI爱好者及希望零成本本地运行大模型的用户。

Tags:

昨天聊了 Gemma 4,今天教你把它装进本地电脑里。

养龙虾终于不用花钱了。

谷歌最新的开源模型 Gemma 4,原生支持 function calling。装在你自己的电脑上,接入 OpenClaw,token 成本直接归零。

划重点,Gemma 4 是 Gemma 家族第一次用 Apache 2.0 协议开源。商用、魔改、二次分发,都没问题。再加上 Ollama 最近更新了大版本。Apple Silicon 上直接用苹果自家的 MLX 框架推理,速度翻倍。

三步搞定。Mac、Windows、Linux 都可以。



先看看你的电脑有多少内存。

图片

Gemma 4 一共四个版本,下面都以 4-bit 量化为例。

最小的 E2B,23 亿参数,4-bit 量化后约 4 GB 内存。支持图片、音频输入,128K 上下文。手机和树莓派都能跑。

E4B,45 亿参数,约 5.5 GB。同样支持图片和音频,128K 上下文。适合日常聊天。

26B 是混合专家架构(MoE),总参数 252 亿,每次推理只激活 38 亿。4-bit 量化后占 16-18 GB 内存。256K 上下文,支持图片,不支持音频。速度接近小模型,质量接近满血版,性价比最高。24 GB 内存的 Mac 或 24 GB 显存的显卡就能带得动。

满血版 31B,307 亿参数全激活。17-20 GB 内存。256K 上下文。Arena AI 开源排行榜第三,AIME 2026 数学推理 89.2%,编程 LiveCodeBench 80.0%。跑分最猛,24 GB 能跑但比较紧,32 GB 更舒服。

图片

一句话总结,「4 GB 跑 E2B,6 GB 跑 E4B,18 GB 跑 26B,20 GB 以上跑 31B。」



Mac 用户,先去 ollama.com 下载、安装 Ollama。用 Homebrew 也行。

brew install --cask ollama-app

Ollama 是目前跑本地模型最简单的工具(之一)。模型下载、推理引擎、API 服务,一个 App 就搞定。

图片

装好后启动 Ollama。打开终端,运行:

open -a Ollama

菜单栏会出现一个羊驼图标,等几秒钟初始化完成。根据你的内存选一个模型拉取。以 26B 为例。

ollama run gemma4:26b
图片

Ollama 会自动下载模型并启动对话。26B 大约 18 GB,耐心等。

下载完成后直接进入聊天界面。随便问一句,看到回答就成功了。

可以用下面这个命令查看模型运行状态。

ollama ps

你会看到 CPU/GPU 的推理分配比例,比如「14%/86% CPU/GPU」。以 Apple Silicon 为例,大部分计算跑在 GPU 上,速度比纯 CPU 快得多。

三步,搞定。



Windows 用户同理,先下载安装 Ollama。可以直接用客户端,也可以打开 PowerShell,一行命令搞定。

irm https://ollama.com/install.ps1 | iex
图片

装完后打开一个新的 PowerShell 窗口,运行:

ollama run gemma4:26b

有 NVIDIA 显卡的话,Ollama 会自动调用 CUDA 加速。没独显也能跑,就是慢一些。

后面是一样的流程。

NVIDIA 用户划重点。Ollama 0.19 新增了 NVFP4 格式支持,用更少的显存跑模型,精度损失很小。RTX 40 系及以上的显卡自动生效。



如果你已经养了一只龙虾,不管是在自己电脑上还是云服务器上,上面这些命令完全不用自己敲。直接给龙虾发消息,它会帮你搞定。

以一台云服务器上的 OpenClaw 为例。全程不碰终端。

先对龙虾说,「在服务器上安装 Ollama。运行这条命令:curl -fsSL https://ollama.com/install.sh | sh」。

龙虾先是发现缺少 zstd 依赖,自己装好之后重新运行安装脚本。

图片

接着拉取模型。「下载 Gemma 4 26B 模型:ollama pull gemma4:26b

17 GB 的模型文件,校验通过。

图片

然后让它测试。「跟 Gemma 4 聊一句试试:ollama run gemma4:26b "你好,你是什么模型?简单介绍一下自己。"

Gemma 4 跑起来了。

图片

但纯 CPU 推理,26B 属实有点勉强。

图片

让龙虾换成 E4B

图片

速度快多了。

图片

理论上还能更进一步。

让龙虾把自己的模型后端切到本地 Gemma 4,API 端点指向 localhost:11434,从此不再需要云端 API。但更推荐满血版作为主力模型,小模型更适合端侧。

龙虾帮你部署了一个免费模型,最后还能把自己也接上去。



最后附上 Ollama 常用命令。

ollama list             # 查看已下载的模型
ollama ps               # 查看正在运行的模型和内存占用
ollama run gemma4:26b   # 启动对话
ollama stop gemma4:26b  # 卸载模型释放内存
ollama pull gemma4:26b  # 更新到最新版本
ollama rm gemma4:26b    # 删除模型



我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。




图片

AI驱动的开源智慧物业管理系统 全功能模块+源代码免费

Demeter Platform是一套基于Java、前后端分离的开源智慧物业管理系统,涵盖资产管理、缴费服务、工单管理、设备巡检、停车管理及协同办公等核心模块。系统集成AI技术,支持智能工单分配、预测性维护、能耗优化、业主偏好分析,并提供智能客服与AI巡检机器人接口。采用Docker一键部署,支持二次开发,适合物业公司自建或定制化使用。

Tags:

物业管理系统开源!AI驱动的智慧物业管理系统,有源代码

源代码

https://www.gitcc.com/keeeyue/demeter-platform

图片

免费开源的基于Java的物业管理系统。系统采用前后端分离架构,涵盖资产管理、缴费服务、退款功能、缴费提醒、抄表功能、打印功能、统计报表和协同办公等模块,构建一个软硬件一体的智慧物业解决方案

核心价值


  • 全功能覆盖
    :包含物业管理的核心功能模块,满足日常管理需求
  • 前后端分离
    :采用现代化的前后端分离架构,易于维护和扩展
  • 工作流引擎
    :基于Activiti的流程引擎,支持自定义工作流程
  • 容器化部署
    :支持Docker一键部署,简化运维流程
  • 开源免费
    :完全开源,可自由使用和二次开发


图片
图片
图片


AI驱动的智慧物业管理系统——Demeter Platform 核心解析

一、系统架构与技术栈


  1. 前后端分离架构
    • 前端
      :基于Vue.js构建,提供直观的用户界面,支持多终端适配(PC、移动端)。
    • 后端
      :采用Spring Boot框架,实现高效业务逻辑处理,支持高并发与快速迭代。
    • 数据库
      :MySQL持久化存储数据,确保数据稳定性与安全性。
    • 容器化部署
      :支持Docker一键部署,简化运维流程,实现环境隔离与快速扩展。
  2. AI技术集成
    • 智能工单分配
      :通过AI算法分析工单类型、紧急程度及维修人员技能标签,实现自动派单或抢单,提升响应速度。
    • 预测性维护
      :基于设备历史数据与机器学习模型,预测电梯、水泵等设备故障概率,提前生成维保工单,减少非计划停机。
    • 能耗优化
      :AI分析空调、照明用电模式,动态调整设备运行策略(如根据人流量调节照明亮度),实现节能降碳。
    • 业主偏好分析
      :通过缴费记录、报修历史等数据,生成业主偏好标签(如"对价格敏感""注重服务时效"),推送定制化服务(如优惠活动、增值服务)。


二、核心功能模块


  1. 资产管理
    • 支持商业区、楼栋、商铺的精细化管理,涵盖资产信息录入、状态追踪及产权变更记录,提供全生命周期资产视图。
    • AI增强
      :通过图像识别技术自动识别设备型号、安装位置,减少人工录入错误。
  2. 缴费服务
    • 灵活配置收费项(如物业费、车位费、能耗费),支持批量生成账单、滞纳金计算及缴费优惠设置。
    • 业主可通过系统完成线上缴费,物业端实时生成电子流水与财务报表。
    • AI增强
      :自动识别异常缴费行为(如频繁欠费),触发预警机制并推送至物业后台。
  3. 工单管理
    • 业主通过小程序、公众号或电话发起报修,系统自动派单至维修人员,工单状态实时更新。
    • AI增强
      :通过自然语言处理(NLP)分析报修描述,自动分类工单类型并匹配解决方案库,提升处理效率。
  4. 设备管理与巡检
    • 建立设备资产台账,生成固定周期巡检任务,记录故障次数、停机时间及维修成本。
    • AI增强
      :结合物联网传感器数据,实时监测设备运行状态,异常时自动触发告警并生成处置工单。
  5. 停车管理
    • 对接智能停车系统,实时更新车位信息,支持线上缴费与无纸化票据管理。
    • AI增强
      :通过车牌识别与数据分析,优化车位分配策略,减少拥堵与寻位时间。
  6. 协同办公
    • 集成报修、投诉流程设计器,实现工单全流程追踪与跨部门协作。
    • AI增强
      :通过智能分析协作数据,识别流程瓶颈并优化任务分配规则。


三、AI时代的新功能亮点


  1. 智能客服与面客产品
    • 以AI大模型为大脑,结合本地数据库,实现业主报修、咨询、缴费、投诉等需求的"一句话发起"。
    • AI自动拆解需求、生成工单、分派人员,并推送服务进度与提醒事项,提升服务效率与业主满意度。
  2. AI巡检机器人
    • 搭载高清摄像头、红外传感器与AI识别算法,24小时自主巡航社区,自动识别陌生人员、电动车进梯、消防通道占用等隐患。
    • 发现异常后立即触发现场告警,同步推送至物业后台与项目人员,自动生成处置工单,实现"发现—预警—处置—闭环"全流程自动化。
  3. 智能清扫闭环
    • 巡检机器人识别垃圾位置后,自动触发工单;AI智能管家分派任务至清扫机器人;清扫机器人执行清理并反馈结果。
    • 整个链条一气呵成,显著缩短处理周期,降低人力依赖,同时建立全天候、智能化、高标准的清洁保障体系。
  4. 数据驱动的决策支持
    • 通过AI分析业主行为数据、设备运行数据及服务流程数据,生成可视化报表与洞察建议。
    • 助力物业优化资源配置、提升服务质量,并探索新的增值服务模式(如社区团购、共享充电桩)。


四、开源优势与社区支持


  1. 完全开源与自由定制
    • 源代码公开,企业可根据自身需求自由调整功能模块,避免被封闭系统限制。
    • 支持二次开发,降低技术可控性风险,并快速响应市场变化与业主需求。
  2. 活跃的社区支持
    • 开发者社区提供详细文档、调试教程及视频讲解,帮助快速上手与问题解决。
    • 社区成员共享插件、模块与最佳实践,加速系统功能扩展与优化。
  3. 安全与合规保障
    • 采用银行级SSL/TLS加密传输协议与AES-256算法,对业主身份、缴费记录等敏感信息加密存储。
    • 提供硬件兼容清单与标准化API接口,支持对接主流智能硬件(如海康威视摄像头、大华门禁),降低集成难度


物业管理系统开源!AI驱动的智慧物业管理系统,有源代码

源代码

https://www.gitcc.com/keeeyue/demeter-platform


快手&港中文开源ShotStream:单GPU实时生成多镜头长视频

快手可灵团队与港中文开源ShotStream,一种因果多镜头视频生成框架。支持根据故事脚本自动规划分镜,实现角色与场景跨镜头一致。单张NVIDIA GPU可达16 FPS实时生成,延迟亚秒级。适合AI研究者、视频创作者及交互式叙事应用,无需多段剪辑即可生成长篇连贯视频。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在 AI 视频生成领域,我们长期被困在"单镜头"的牢笼里:生成的视频往往只有几秒到十几秒,且缺乏场景切换和叙事逻辑。想要生成一个有起承转合、有多角度运镜的完整故事片段,通常需要生成几十个独立视频再手动剪辑,不仅效率低,角色和场景的一致性也难以保证。

快手可灵团队提出了一种全新的多镜头长视频生成框架ShotStream,它不再是简单地延长视频时间,而是让 AI 真正学会了"导演思维":自动规划分镜、智能控制运镜、无缝处理场景切换。ShotStream 能够根据一个故事脚本,直接生成包含多个镜头、多种景别、流畅转场的完整视频序列,且角色与场景在不同镜头间保持高度一致。这标志着 AI 视频生成从"玩具"正式迈向了"电影制作"的门槛!ShotStream 是一种新颖的因果多镜头架构,可实现交互式故事讲述和高效的即时帧生成,在单个 NVIDIA GPU 上可达到16 FPS 。

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2603.25746
  • 项目:https://luo0207.github.io/ShotStream
  • 源码:https://github.com/KlingAIResearch/ShotStream

unsetunset论文介绍unsetunset

图片多镜头视频生成对于长篇叙事至关重要,但当前的双向架构存在交互性有限和延迟高的问题。论文提出了一种新型的因果多镜头架构——ShotStream,它支持交互式叙事和高效的即时帧生成。通过将任务重新定义为基于历史上下文的下一镜头生成,ShotStream 允许用户通过流式提示动态地指导正在进行的叙事。首先将文本到视频模型微调为双向下一镜头生成器,然后通过分布式匹配蒸馏将其提炼为因果学生模型。

为了克服自回归生成中固有的镜头间一致性和误差累积问题,引入了两项关键创新。首先,双缓存机制保持视觉连贯性:全局上下文缓存保留条件帧以确保镜头间一致性,而局部上下文缓存保存当前镜头内生成的帧以确保镜头内一致性。此外还采用了 RoPE 不连续性指示器来明确区分两个缓存,从而消除歧义。其次,为了减少误差累积,提出了一种两阶段蒸馏策略。该策略首先基于真实历史镜头进行镜头内自强化,然后逐步扩展到使用自生成历史的镜头间自强化,从而有效地弥合训练集和测试集之间的差距。

大量实验表明,ShotStream 能够以亚秒级的延迟生成连贯的多镜头视频,在单个 GPU 上即可达到 16 FPS 的帧率。它的性能与速度较慢的双向模型相当甚至更优,为实时交互式故事讲述铺平了道路。

unsetunset方法概述unsetunset

图片ShotStream 工作流程概述,该工作流程能够根据流媒体提示实时生成长视频、多镜头视频。图片双向下一镜头教师模型架构。为了实现 ShotStream,首先将文本到视频模型微调为双向下一镜头模型,该模型根据先前镜头的稀疏上下文帧生成后续镜头。这些条件上下文帧通过 3D VAE 编码为潜在变量,并通过沿时间维度将它们与噪声潜在变量连接起来注入。在微调过程中,仅优化 DiT 模块中的 3D 时空注意力层。

图片因果架构和两阶段蒸馏流程。将缓慢的多步骤双向教师模型蒸馏为高效的少步骤因果生成器。

  • 为了保持视觉一致性,我们提出了一种新颖的双缓存机制:全局上下文缓存存储条件帧以确保镜头间的一致性,而局部上下文缓存则保留目标镜头内生成的帧以保证镜头内的一致性。

  • 为了防止误差累积,我们采用了一种渐进式的两阶段蒸馏策略。在第一阶段,镜头内自驱动蒸馏(步骤 2.1),模型以真实历史镜头为条件,逐帧生成当前镜头。在第二阶段,镜头间自驱动蒸馏(步骤 2.2),模型以自身先前生成的镜头为条件,逐帧播放视频,同时迭代地逐帧生成每个镜头的帧。

可以总结为如下三点:

  • 因果多镜头架构:提出了一种全新的因果多镜头架构,支持实时互动和超低延迟的视频生成。
  • 两步蒸馏法:通过双向下一镜头教师模型和因果学生模型的蒸馏,实现了高效、连贯的多镜头视频生成。
  • 实时流式生成:在单张NVIDIA GPU上实现了16 FPS的实时视频生成,为交互式叙事提供了可能。

unsetunset实验unsetunset

图片
图片
  • 定量结果:ShotStream在各项评估指标上均优于或等同于基线模型,特别是在视觉一致性和提示跟随方面表现突出。
图片
  • 定性结果:通过用户研究,发现ShotStream生成的视频在视觉一致性、整体视觉质量和提示跟随方面均受到用户的高度偏好。ShotStream在单张NVIDIA H200 GPU上实现了16 FPS的实时生成速度,显著优于双向模型。

unsetunset结论unsetunset

ShotStream的诞生,不仅标志着视频生成技术的一次重大突破,更为交互式叙事开辟了无限可能。其独特的因果多镜头架构和两步蒸馏法,使得实时、连贯、无限长的视频生成成为现实。从AI驱动的游戏到教育短片生成,再到与AI进行实时的视觉故事共创,ShotStream正在将视频AI从"工具"向"伙伴"推进一大步。

技术的开源是创新浪潮的真正起点。ShotStream已经搭好了舞台,接下来,就看开发者、创作者们如何用它来演绎属于这个时代的视觉叙事革命了。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

谷歌Gemma 4本地部署教程:三步零成本安装(支持Mac/Windows/Linux)

本文提供谷歌开源模型Gemma 4的本地部署保姆级教程,支持Mac、Windows、Linux系统。通过Ollama工具,三步即可完成4-bit量化模型的下载与运行。涵盖E2B(4GB内存)、E4B(5.5GB)、26B(16-18GB)及31B(17-20GB)四个版本的内存要...