2026年3月23日星期一

NotebookLM全自动操控教程 零编程基础傻瓜式操作指南

本文提供NotebookLM全自动操控的傻瓜式教程,专为不懂编程的用户设计。核心亮点在于无需代码知识即可实现全自动操作,适合希望快速上手AI工具的学习者。教程步骤清晰,零基础可跟随操作,无额外费用,永久有效。

Tags:

开源项目 EdgeClaw:隐私保护的本地 AI 代理,断网也能运行

EdgeClaw 是清华、人大、面壁智能等联合开源的本地 AI 代理,基于 OpenClaw 增强隐私保护。通过 GuardClaw 中间件自动分级敏感度,敏感数据由本地 MiniCPM 模型处理,全程不离设备,断网可用。提供开源软件与 EdgeClaw Box 硬件方案,适合注重隐私的开发者和企业。

Tags:

最近刷 GitHub,发现了清华、人大、面壁智能等一起开源了一个项目,叫 EdgeClaw

让你在本地部署「小龙虾」,数据完全不出门。

市面上主流的小龙虾 OpenClaw,本身是部署在你本地电脑上的,但做推理还是得调云端大模型。

你的消息、文件、工具调用结果,都会发到云端 API 处理。

密码啥的实际上都经过了第三方云服务。

EdgeClaw 就是冲着这个问题来的。

它基于 OpenClaw,但加了一套隐私保护机制,而且可以用本地模型处理任务:数据全程不离开你的机器,断网也能跑。

01
它和 OpenClaw 什么关系?

EdgeClaw 是 OpenClaw 的安全增强版。

OpenClaw 有的东西它全都有:20+ IM 接入、浏览器操作、文件读写、50+ Skills、子 Agent 系统等等。

图片

多出来的核心东西就三样:

① GuardClaw 隐私路由中间件:自动安全分级
② 推荐本地模型:支持面壁全系列 MiniCPM 小钢炮模型,通过 Ollama 运行,也支持其他模型
③ EdgeClaw Box 硬件方案:开箱即用

一句话类比:OpenClaw 是一台发动机,EdgeClaw 是装好安全系统的整车。

项目地址:https://github.com/OpenBMB/EdgeClaw
02
怎么做到数据不出门?

EdgeClaw 的核心创新是一个叫 GuardClaw 的隐私中间件。

逻辑很简单:自动判断每条消息的敏感程度,然后决定走云端还是本地。

图片

三级自动分级

每一条用户消息、每一次工具调用、每一段 Agent 输出,都会被自动分为三个等级:S1(安全)、S2(敏感)、S3(私密)

  • S1 级别的内容直接发给云端大模型处理

  • S2 级别会先脱敏再转发云端

  • S3 级别则完全由本地模型处理,绝不外传。

整个过程全自动,不需要你手动选这个用本地,那个用云端

当然,如果你什么都不想上云,也可以全部走本地模型处理,等于就是一个纯本地的 OpenClaw。

分级路由只是默认模式,给你一个选择:简单任务可以让云端大模型发挥更强的能力,敏感任务留在本地零风险。

怎么检测?

双引擎,一个快一个准:

规则引擎(毫秒级):正则匹配 + 关键词扫描,一眼识别密码、密钥、身份证号这些明确模式。速度快到几乎无感
本地模型引擎(1-2 秒):用本地 MiniCPM 做语义理解,处理更微妙的情况。
比如你说「帮我看看工资单有没有问题」,消息本身没有敏感词,但模型理解「工资单」意味着财务隐私,自动标为 S3

两个引擎并行跑,取最高敏感级别。

图片

EdgeClaw 本地推理推荐使用面壁自研的 MiniCPM 全系列端侧模型

从轻量级到高性能,整个 MiniCPM 家族都支持:MiniCPM 4.1、MiniCPM-V 等,你可以根据硬件条件自由选择合适的型号。

装好 Ollama 之后,一条命令就能跑起来:

ollama run openbmb/minicpm4.1
图片
硬件要求也不算高,量化版通常 8GB 内存就能跑起来,选更大参数的型号对应提高内存就行。
03
全链路保护

这里有个细节我觉得挺关键的。

AI Agent 不是简单的一问一答

它有完整的执行流程——读文件、调工具、生成子任务、写入记忆。

所以 EdgeClaw 不只是在入口检查一次,而是在整个流程里设了 6 个核心检查点:

消息到达 → 路由分流 → 工具调用拦截 → 结果检查 → 会话记录 → 记忆同步
图片

另外还额外加了出站消息扫描和子 Agent 隐私注入,一共 8 个 Hook,把安全网铺到了每个角落。

记忆都是隔离的。

云端模型只能看到脱敏后的对话历史,完整记忆只有本地模型才能访问。

从根本上杜绝了隐私数据通过上下文窗口泄露给云服务。

04
EdgeClaw Box:开箱即用的硬件方案

除了开源软件,面壁还推出了一款配套硬件产品 EdgeClaw Box

图片

目前已适配松果派、英伟达 DGX Spark、苹果 Mac Mini 等硬件,插上电就能用,不需要技术背景。

插上电就能用,不需要技术背景。

多设备、多模型、海量通用 + 行业专属 Skills,开箱即用,无需部署。
而且数据留本地,商业不泄密,简单任务跑本地小模型零 Token,复杂任务才调云端大模型。

写在最后

EdgeClaw 由清华 THUNLP、中国人民大学、AI9Stars、面壁智能和 OpenBMB 联合开发。

它的核心思路其实挺清晰的:不是让你在隐私安全AI 能力之间二选一,而是两个都要。

公开数据享受云端大模型的最强推理,敏感数据留在本地零风险。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

Qwen3TTS,3分钟学会多角色配音,漫剧利器

Tags:


Soul App开源模型SoulX-LiveAct:双卡低成本实现小时级实时数字人生成

Soul AI团队开源SoulX-LiveAct模型,通过Neighbor Forcing与ConvKV Memory技术,在双卡H100/H200上实现20FPS实时流式推理,支持小时级稳定生成,解决长视频身份漂移与推理成本高问题,适合开发者与AI研究者部署应用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片
图片

图片Soul App AI团队(Soul AI Lab)发布开源模型SoulX-LiveAct,为实时数字人生成带来新突破。当前,AI技术在数字人直播等场景加速普及,行业对模型需求从"能生成"转向"能长期稳定生成",但数字人生成在长视频场景中存在画面稳定性与一致性下降、实时推理成本上升等难题。SoulX-LiveAct通过创新技术,让AR diffusion走向可真正长时稳定实时流式,在2张H100/H200条件下,能实现20 FPS实时流式推理,支持多种输入驱动,生成高质量实时数字人视频。该团队不断开源不同模型,为开源社区和行业提供差异化方案,满足开发者多样需求,值得体验。

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

  • 论文链接: https://arxiv.org/abs/2603.11746
  • 主页:https://soul-ailab.github.io/soulx-liveact

  • Github链接: https://github.com/Soul-AILab/SoulX-LiveAct

unsetunset直击亮点unsetunset

从"能实时生成",走向"能小时级稳定实时生成"

我们关注的不只是短视频片段生成,而是更贴近真实互动场景的长时稳定实时生成。论文围绕"小时级实时人类动画"展开,并报告在仅需两张 NVIDIA H100 或 H200 GPU 的条件下,即可实现 20 FPS 的实时流式推理。论文实验显示,SoulX-LiveAct 在 lip sync、视频质量、人物保真度、情绪表达以及推理成本上都取得了很强的综合表现;不仅生成质量高,而且部署成本更低,更贴近真实业务落地。

提出 Neighbor Forcing,重新定义 AR diffusion 里的时序传播方式

现有 AR diffusion 往往在不同扩散步之间传播历史表示,容易带来噪声语义不一致、训练信号不稳定的问题。我们提出 Neighbor Forcing,在相同扩散步上传播时间相邻帧的 latent neighbor,让时序依赖建模发生在一致的扩散状态中,从而带来更稳定的优化和更高效的推理。

提出 ConvKV Memory,实现固定内存的长视频生成

长视频生成最大的系统瓶颈之一在于 KV cache 会随时长持续增长。我们提出 ConvKV Memory,将历史 key value 压缩为固定长度记忆,在尽量保留长期时序信息的同时,把不断增长的缓存变成可控、可复用、可长期运行的记忆结构。

不只是会说话,还能做出更自然的表情与动作

除了语音驱动,我们还引入 Emotion and Action Editing Module,让模型能够在保持身份和口型同步的同时,实现表情、动作的可控编辑,支持更自然的多模态互动。

unsetunset核心挑战unsetunset

虽然 AR diffusion 具备流式生成和在线推理的潜力,但在小时级实时数字人场景下,现有方法仍面临两个核心瓶颈。

  • 时序传播与扩散状态不一致。很多 forcing 策略传播的是 sample level 的历史表示,而且这些表示往往来自不同扩散步。这样会导致目标帧与历史参考帧之间存在噪声语义错位,模型必须在不一致的扩散状态中建模时序依赖,训练信号容易变脏,优化不够稳定。
  • 历史表示会无限增长,难以高效复用。即使时序生成是稳定的,随着生成长度不断增加,KV cache 也会持续膨胀,导致内存和计算开销越来越大。已有方法往往依赖重叠窗口或者额外的复杂记忆模块,但前者会遗忘远距离历史信息,后者又会引入额外架构复杂度,不利于实时部署。

这些问题最终会表现为长视频中的身份漂移、服饰和配饰细节丢失、动作不连贯,以及实时推理成本过高。

unsetunset方法设计unsetunset

图片LiveAct是一个面向小时级实时数字人的 AR diffusion 框架。整个方法围绕两个核心设计展开。 首先提出了 Neighbor Forcing。它不再传播不同扩散状态下的历史 sample,而是在同一个扩散步上传播时间相邻帧的 latent neighbor。也就是说,在每一个 denoising step 中,当前目标帧和所有参考帧都处于一致的噪声条件下。这样,模型建模的时序依赖发生在同一个 diffusion state 内,训练信号更干净,优化更稳定,也更容易直接复用已有的 KV 表示。

在此基础上,论文进一步提出 ConvKV Memory。它将历史 KV 分成两部分处理:近期上下文保留为未压缩的短期记忆,以保证精度;更早的历史则通过轻量级 1D convolution 持续压缩成长期记忆,并结合 RoPE reset 保持位置对齐。这样,模型既能利用远距离历史信息,又不会让 KV cache 无限增长,从而实现固定内存、稳定时延的长时生成。 此外,LiveAct还加入了 Emotion and Action Editing Module,用于实现表情和动作的可控编辑,让数字人不仅"说得准",还能够"演得自然"。

整体上,SoulX-LiveAct 的训练流程分为两个阶段。第一阶段采用 Neighbor Forcing 完成音频、文本条件与视频生成之间的稳定对齐。第二阶段将 ConvKV Memory 引入到 DMD 风格的蒸馏训练中,使模型在推理时可以保持固定长度的 KV cache,从而支持稳定的长时实时生成。

unsetunset性能表现unsetunset

SoulX-LiveAct 在质量、稳定性和效率上都取得了很强的综合表现。 在 HDTF 数据集上,SoulX-LiveAct 的 Sync C 达到 9.40,Sync D 降到 6.76,FID 为 10.05,FVD 为 69.43,同时在 VBench 和 VBench 2.0 指标上也表现领先,说明模型在口型同步、视觉质量和身份保持方面都取得了明显提升。 在 EMTD 数据集上,SoulX-LiveAct 同样取得了很强结果。模型达到 8.61 的 Sync C、7.29 的 Sync D、32.90 的 FID 和 313.6 的 FVD,同时在 Temporal Quality、Image Quality 和 Human Fidelity 等指标上表现突出,进一步说明其在更复杂的全身动作场景下仍具备较强鲁棒性。

图片

在效率方面,SoulX-LiveAct 每帧仅需 27.2 TFLOPs,显著低于双向基线的 50.2 TFLOPs/frame 和 Live Avatar 的 39.1 TFLOPs/frame。借助 FP8 精度和系统级优化,模型可以在 两张 H100/H200 GPU 上实现 20 FPS 的实时推理,在 720×416 或 512×512 分辨率下都具备较高的部署可行性。

图片

从可视化结果来看,SoulX-LiveAct 在长视频中能够更稳定地保持人物身份、服饰纹理和配饰细节。对比方法中常见的身份漂移、戒指消失、服装纹理变化等问题,在 SoulX-LiveAct 中都得到了明显缓解。

图片

unsetunset训练设置unsetunset

Neighbor Forcing

图片

Neighbor Forcing 是 SoulX-LiveAct 最核心的方法之一。它回答了 AR diffusion 中一个关键问题,也就是"沿着 AR 链到底应该传播什么"。不同于 Teacher Forcing、Diffusion Forcing 或 Self Forcing 传播 clean samples、heterogeneous noisy samples 或 self generated last step samples,Neighbor Forcing 传播的是 同一扩散步下的邻帧 reference states。

这样的好处在于,目标帧与参考帧始终处在同一个 noise space 中,时间依赖建模发生在一致的扩散状态里,因此训练更稳定,收敛更快,而且天然支持 KV reuse。论文还指出,相比 Self Forcing,Neighbor Forcing 不需要额外的 ODE initialization 训练,蒸馏步数也从 1000 steps 降到了 500 steps。

ConvKV Memory

图片

ConvKV Memory 主要解决长时生成中的内存膨胀问题。它保留最近的短期 KV 作为高精度上下文,同时使用轻量级 1D convolution 将更早的历史 KV 压缩成固定长度的长期记忆,并通过 RoPE reset 处理压缩后的位置信息。 这种设计的关键价值在于,它把"越来越长的缓存"变成了"固定长度的结构化记忆",从而在不牺牲长程信息的前提下,实现稳定时延和常数内存推理。论文中还指出,ConvKV Memory 仅带来 1.9% 的额外推理开销。

Emotion and Action Editing Module

Emotion and Action Editing Module 用于增强数字人的可控性和表现力。它支持对表情和动作进行显式编辑,例如 sad、heart gesture、cover face 和 laughing 等。实验结果表明,该模块可以在保持身份和 lip sync 的同时,实现更平滑的动作过渡,并减少不自然的变形和运动伪影。

两阶段训练与实时部署系统

在训练上,SoulX-LiveAct 采用两阶段流程。第一阶段以 Neighbor Forcing 为核心,重点学习音频、文本和视频之间的对齐关系。第二阶段则将 ConvKV Memory 纳入 DMD 风格蒸馏中,进一步提升推理效率和长时稳定性。实验设置中,第一阶段使用 300 小时 多模态配对数据,第二阶段在 3 step inference 设置下进行 500 training steps 的联合优化。在部署上,配合 FP8、序列并行和算子融合,LiveAct真正把方法层面的创新转化成了工程层面的实时能力。

unsetunset一句话总结unsetunset

SoulX-LiveAct 试图解决的不只是"数字人能不能生成出来",而是 如何让数字人长时间稳定地实时生成,并且在质量、身份一致性和成本之间取得更好的平衡。通过 Neighbor Forcing 和 ConvKV Memory,LiveAct把 AR diffusion 在训练稳定性、长时一致性和实时部署效率上的几个关键瓶颈一起向前推进了一步。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

NotebookLM全自动操控教程 零编程基础傻瓜式操作指南

本文提供NotebookLM全自动操控的傻瓜式教程,专为不懂编程的用户设计。核心亮点在于无需代码知识即可实现全自动操作,适合希望快速上手AI工具的学习者。教程步骤清晰,零基础可跟随操作,无额外费用,永久有效。 Tags: NotebookLM教程 AI工具 零基...