2026年5月10日星期日

开源AI视频生成聚合包Wan2GP v11。52,最低6GB显存支持文生视频/图生视频

Wan2GP是一个开源AI视频生成聚合包,最新v11.52版支持Wan、Hunyuan Video等模型,最低仅需6GB显存(NVIDIA显卡)即可本地运行。功能涵盖文本生成视频、图像生成视频及视频继续生成,适合个人自媒体、动画预览、广告营销等场景。整合包解压后约68.5GB,建议32GB内存,Windows 10/11系统。

Tags:

图片

Wan2GP 是由开发者 DeepBeepMeep 发起的开源 AI 项目,其核心目标是针对 GPU 资源受限的个人用户,对大规模视频生成模型进行推理优化和轻量化适配,让用户能够在地端设备或普通消费级显卡上高效运行高质量的视频生成任务。

支持 Wan 系列模型,还兼容 Hunyuan Video、Flux、Qwen、Z-Image、LTX Video 等多种图像、视频和音频模型。

部分模型仅需 6GB 显存即可运行,大幅降低了 AI 视频生成的使用门槛。

本次更新主要新增了LTX-2.3 的1.1版本模型适配,以及其他功能完善。

开源地址:https://github.com/deepbeepmeep/Wan2GP

一键启动整合包下载地址:

https://aiyy.info/wan2gp/

软件功能:

  • 高效推理优化 通过精简架构和参数优化,显著降低视频生成对显存(VRAM)的占用。

  • 多模态生成: 支持文本生成视频(Text-to-Video)以及图像生成视频(Image-to-Video)。

  • 分辨率控制: 提供灵活的分辨率选项,允许用户在生成速度与画面精细度之间取得平衡。

  • 本地化部署: 兼容主流开源 AI 框架,支持在个人电脑或小型服务器上私有化运行。

  • 长视频扩展: 支持通过切片或迭代技术生成具有连贯性的长时段视频序列。


应用场景:

  • 个人自媒体创作: 帮助博主快速将文字脚本转化为短视频素材,降低制作成本。

  • 动画与影视预览: 设计师用于制作分镜脚本(Storyboard)的动态演示和视觉风格小样。

  • 广告与营销: 快速生成动态的海报背景或社交媒体宣传短片。

  • AI 视频研究: 为开发者和研究者提供一个低门槛的实验平台,用于探索视频扩散模型的算法优化。

  • 创意概念验证: 艺术家通过 AI 辅助,将抽象的灵感迅速视觉化。

配置要求:

电脑满足以下配置:

  • • 操作系统:Windows 10/11 64位
  • • 内存:32G以上(不同模型要求不一样,建议32G及以上)
  • • 显卡:至少6G及以上显存的英伟达(NVIDIA)显卡,建议30系及以上显卡兼容性比较强
  • • CUDA:显卡支持的CUDA版本大于等于12.8版本 (如不知道显卡支持的CUDA版本,可点击此链接查看:https://aiyy.info/supported-cuda-versions/)
  • • 整个包解压完约68.5G,要留足硬盘空间

如何查看显卡品牌型号和显存

  • • 打开任务管理器
  • • 点击“性能”
  • • 点击“GPU”
  • • 右上角可以看到显卡型号,下方可以看到显存大小
图片

使用教程:

① 打开下载页面(https://aiyy.info/wan2gp/)点击页面右侧下载按钮(手机端位于页面底部),下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己下载安装,下载地址:https://www.winrar.com.cn/)

不要用Windows自带解压!!不要用360解压!!

图片

注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错

图片

② 双击“一键启动.bat”,稍等片刻会在浏览器中自动打开操作界面

图片

v11.34版本之前发过教程,也可以翻看之前的教程,操作基本差不多

AI生成视频聚合包Wan2GP(v11.34版本)


③ 在上方的三个选项栏中从左往右依次选择需要使用的模型系列、模型版本

(整合包下载最新的LTX-2.3 distilled 1.1模型,可按照下方图片中的选择直接使用,如果选择其他模型,点击生成时程序会自动下载模型)

下方可以选择文生适配、图生视频,或者上传视频继续续写生成

图片
如果选择图生视频,默认是首帧图生成视频,在右侧还可以勾选“结束图像”就变成了首尾帧生成视频
图片
在图片上传框的下方,有“控制视频 / 帧注入”按钮,如果需要上传参考视频,通过参考视频控制生成视频,可以在里面选则需要的控制方式
图片
下方可以输入提示词、选择分辨率和宽高比例,在高级模式中可以使用lora进一步控制生成效果
图片

生成结果如下图所示:

图片

生成结果在文件包中的“outputs”文件夹中

图片
以上就是本期分享的内容,所需工具在下方网址中👇👇👇可以自取👇👇👇
后期持续分享 AI 应用、AI 落地项目及实用工具

更多 AI 软件获取方式

👇👇👇👇 👇👇 👇👇 👇👇 👇👇 👇👇 👇👇
aiyy.info
(浏览器地址栏中输入上方网址,或点击微信公众平台文末左下角「阅读原文」可直接跳转)

DeepSeek V4终端编程Agent:百万token上下文+思维链,输入低至0。14/百万

DeepSeek−TUI是一个用Rust编写的终端原生AI编程Agent,专门对接DeepSeekV4模型。支持100万token上下文、实时思维链推理,可直接读写文件、执行Shell命令、管理Git。提供Plan/Agent/YOLO三种模式,费用极低:V4Flash输入0.14/百万token,输出 $0.28/百万token。适合需要高效、低成本 AI 辅助编程的开发者。安装命令:npm i -g deepseek-tui 或 cargo install,需自备 DeepSeek API Key。

Tags:

DeepSeek V4 还是挺顶的。

100 万 token 上下文、思维链推理、价格打到骨折,模型本身的实力没得说。

图片

你用网页版聊天,V4 的编程能力根本发挥不出来。

你不能让它直接改文件、跑命令、Git 管理,只能复制粘贴来回复制粘贴,效率很低。

没有类似 Claude Code 的体验。

所以有人用 Rust 从零写了一个终端原生的编程 Agent,专门对接 DeepSeek V4。

你可以理解为 DeepSeek 原生的终端 Coding Agent。

图片

01

开源项目简介

DeepSeek-TUI 是一个跑在终端里的 AI 编程 Agent,用 Rust 写的,专门对接 DeepSeek V4 模型。

说白了就是 DeepSeek 版的 Claude Code。

它能直接在你的终端里读写文件、执行 Shell 命令、搜索网页、管理 Git、甚至编排子 Agent 并行干活。

图片
地址:https://github.com/Hmbown/DeepSeek-TUI

100 万 token 上下文 + 思维链实时可见

DeepSeek V4 最大卖点就是 100 万 token 的上下文窗口,DeepSeek-TUI 直接吃满了这个能力。

更关键的是它支持 Thinking-mode 流式输出,模型的推理过程你是能实时看到的。

图片

它在想什么、为什么这么改,一步步摆在面前,不是黑盒给你个结果就完了。

100 万 token 大概相当于 75 万字,换算成代码差不多能把一个中型项目的全部源码一次性塞进去。

你不需要手动挑选哪些文件喂给 AI,整个项目结构、模块间的调用关系、配置文件、依赖声明,它一次性全看到。

改一个函数的时候它知道这个改动会波及到哪些地方,而不是只盯着你贴进来的那几行代码瞎猜。

另外一个很实际的场景是长对话不会失忆。

用 128K 上下文的工具,聊个十几轮就开始遗忘前面的约定和决策,越到后面输出质量越差。

100 万 token 意味着你可以在一个会话里从需求讨论、架构设计一路干到写测试、修 bug,中间不用重新建立上下文,模型的判断力从第一轮到第五十轮基本是一致的。

而且上下文快满的时候会自动压缩,不会聊着聊着就失忆。

三种模式,干活风格随便切

DeepSeek-TUI 有三种工作模式:

图片

Plan 模式是只读的,AI 先帮你探索代码库、规划方案,不动任何文件。适合你还不确定要怎么改的时候先用它摸个底。

Agent 模式是交互式的,AI 会执行操作但每一步需要你审批。适合日常开发,既高效又安全。

YOLO 模式就是全自动,所有操作直接执行不需要确认。适合你信任当前环境、想快速出活的时候用。

三种模式可以随时切,键盘一按就换。

完整的工具链 + MCP 协议

这个项目的工具链做得相当完整:文件读写、Shell 执行、Git 操作、网页搜索、补丁应用、子 Agent 编排,该有的都有。

而且原生支持 MCP 协议,可以接各种外部工具服务扩展能力。

它还有一个 HTTP/SSE API 服务模式,跑个 deepseek serve --http 就能把它当无头 Agent 用,嵌入到你自己的工作流里。

费用也是实时追踪的,每轮对话花了多少 token、多少钱,界面上一目了然。

V4 Flash 的价格是输入 $0.14/百万 token,输出 $0.28/百万 token。对比一下 Claude Sonnet 输入 $3/百万 token、输出 $15/百万 token,输入差了二十多倍,输出直接差了五十多倍。

03

如何使用

安装很简单,一行命令:

npm i -g deepseek-tui

如果你是 Rust 用户也可以用 Cargo 装:

cargo install deepseek-tui-cli --locked

国内用户如果 npm 和 GitHub 下载慢,可以配清华 TUNA 镜像,README 里有详细步骤。

装好之后第一次启动会让你输入 DeepSeek API Key,去 platform.deepseek.com 申请一个就行。

图片
图片
图片

然后直接在终端输入 deepseek 就能用了。

图片

想切模式按 Tab,想调推理深度按 Shift+Tab,想看帮助按 F1。

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

谷歌开源端侧AI神器App,手机离线运行大模型免费

谷歌开源的Google AI Edge Gallery是一个可在iOS和安卓手机离线运行大模型的App,支持Gemma 4等模型。无需云端,数据不离开设备,节省订阅成本。提供AI对话、图像识别、语音转写、Agent工具调用等功能。模型需下载2-4GB,建议iPhone 15 Pro或8GB内存安卓机使用,App尚处Beta阶段可能有小bug。

Tags:

最近这一年,关于端侧 AI 这个话题的讨论越发激烈,手机芯片的 NPU 算力也一路狂飙。

而上个月谷歌开源的 Gemma 4 模型,因为能直接塞进手机里跑,进一步把讨论推向高潮。

大家在手机上部署后,不仅能省下每月 订阅成本,在离线状态也能使用,重要的是敏感信息不再怕上传到云端。

所使用的工具,正是谷歌开源的一个 App:Google AI Edge Gallery,目前已拿下 22000+ GitHub Star。

image-20260508171046052

简单说,这是一个能让我们在手机上离线运行各种开源大模型的 App。

从定位上,它更像是端侧 AI 的「应用商店 + 模型操场」。

而且支持 iOS 和 Android 系统,模型权重可从 Hugging Face 直接拉取到 App。

所有推理都跑在本地芯片上,全程不联网,数据也不会离开设备。

image-20260508171209365

进到 App 里,第一眼能看到的是 AI Chat 模块,也就是基础对话。

最近开放的 Thinking Mode 比较有意思,能直接看到模型一步步推理的过程。

不过这个特性目前限定部分模型才能开,比如 Google 自家的 Gemma 4 系列就支持。

顺带一提,Gemma 4 里的 E2B、E4B 命名挺有意思,这里的 E 是 Effective 的缩写,意思是用了优化技术,让 4B 参数发挥出更大模型的水平。

image-20260508171342012

第二个常用功能是 Ask Image,也就是拍照问图。

调用相机或相册图片,让本地模型识别物体、解题、做 OCR 都行。

随时随地拍照翻译、未知事物拍照询问、甚至分析图片信息特征,这类场景都可以使用。

image-20260508171512418

接着是 Audio Scribe,专门处理语音转写和翻译。录一段会议或讲座,本地直接出文字稿,还能跨语言翻译。

在飞机上、地铁这类没网或弱网环境下,刚好可以派上用场。

第四个比较硬核的是 Agent Skills,给本地模型挂载外部工具。

借助这个特性,模型可以接维基百科查事实、调地图查位置、生成可视化卡片等等能力。

更妙的是支持从 URL 远程加载技能模块,社区里也有不少现成的可以直接用。

image-20260508171603599

剩下就是模型管理模块,可以从 Hugging Face 加载自定义模型。

查看每个模型基准测试跑分,自由选择安装到手机,还能够精细调温度、top-k 这些参数。

image-20260508171714487

安装也很简单

整个安装过程基本没什么门槛。iPhone 设备直接到 App Store 搜 「Google AI Edge Gallery」 安装即可。

而安卓设备在 Google Play 同样能找到,没 Google Play 的可以去 GitHub Releases 下载 APK 包。

image-20260508171909434

安装完成打开 App,选模型下载就完事,每个模型大约 2-4GB,下载时间稍长需要耐心等下,之后所有操作均在本地进行。

对于机型方面,iPhone 15 Pro 及以上可选 E4B,iPhone 14 Pro 则选择 E2B,安卓手机推荐 8GB 内存以上的旗舰机。

当然,这个项目也有几个点需要客观说一下。

端侧小模型再强也有上限,复杂 Agent 工作流目前还是云端大模型更稳。

老机型跑大一点的模型容易卡顿发热,建议先从 E2B 一些小模型试起。

再就是这个 App 还处在 Beta 阶段,偶尔遇到小 bug 不奇怪,遇到了可以到 issue 上反馈。

写在最后

看完这个项目之后,最直观的感受是:端侧 AI 这件事,真的开始能用了。

而 Edge Gallery 在这场变化里的位置,比它本身的功能更值得关注。

过去两年,本地跑大模型这件事,电脑端早就有 Ollama、LM Studio 这些工具铺路。

但到了手机端,一直停留在开发者圈层,普通用户基本进不来。

而谷歌官方下场做这么一个 App,把「挑模型 - 下载 - 跑起来」简单到只需点击几次。

这是手机端本地大模型第一次长出消费级的入口形态。

这件事的意义,不只是省钱或者保护隐私。

而是 AI 正在从云端的某个数据中心,搬进每一部口袋里的设备。

当全球十几亿台手机都能离线跑模型时,AI 变成跟相机、地图一样的基础能力。

实时翻译、随手解答、本地处理隐私文件,这些过去要联网才能做的事,未来都可以离线完成。

而 Edge Gallery 的出现,可能就是这件事的起点信号。

GitHub 项目地址:https://github.com/google-ai-edge/gallery

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

开源AI视频生成聚合包Wan2GP v11。52,最低6GB显存支持文生视频/图生视频

Wan2GP是一个开源AI视频生成聚合包,最新v11.52版支持Wan、Hunyuan Video等模型,最低仅需6GB显存(NVIDIA显卡)即可本地运行。功能涵盖文本生成视频、图像生成视频及视频继续生成,适合个人自媒体、动画预览、广告营销等场景。整合包解压后约68.5GB,建...