2026年2月28日星期六

OpenFang 开源 Agent 操作系统:Rust 构建生产级 AI 工作流,内置 7 种自主能力 Hands

OpenFang 是一个用 Rust 编写的开源 Agent 操作系统,旨在通过预构建的 Hands 能力包,将碎片化 AI 能力串联成可自动运行的完整工作流。它提供 7 种内置 Hands,如自动信息收集、视频剪辑、网页操作等,支持自定义扩展,并内置 16 层安全机制确保操作安全。项目提供一键安装与从 OpenClaw 迁移命令,适合需要构建自动化、可管理 AI 流程的开发者与团队。

Tags:

前不久,我写过一篇 ZeroClaw 的介绍。

用 Rust 重写,内存压到 5MB,启动速度媲美系统命令,直接把 OpenClaw 那 394MB 内存占用按到地上去。

文章发出去之后,大家都在评论区纷纷探讨:

虽然 ZeroClaw 够快,但功能层面还差点意思,不少人表示再等一个更完整的 Agent 框架。

这刚过完春节,OpenFang 它就来了,用 Rust 构建生产级的 Agent 操作系统,刚开源就暴涨 2700+ Star。

如果说 ZeroClaw 解决了运行慢的问题,那 OpenFang 解决的是另一件事,把碎片化的 AI 能力,串联成一套可以持续自动运转的工作流。

image-20260227162854888

简单举个例子:每天早上打开电脑,当天热门的前沿 AI 资讯已经整理好了,昨天拍的视频也剪好发出去。

这些事情不用我们主动触发,而是 OpenFang 按照预设的流程,自己一步步跑完的。

实现这套流程的核心,正是 OpenFang 这次带来的 Hands 预构建自主能力包

image-20260227182956711

通俗来讲,普通 Agent 就像一个接单的外包,你说一件事它做一件事,流程断了就要人来接。

但 Hands 更像一个有完整 SOP 的员工。交代好目标,它自己按流程跑,出了结果再来汇报,中间不需要人工介入。

每个 Hand 内部自带四样东西:运行计划、专家知识库、工具调用权限、Dashboard 指标。

激活之后,它知道自己该干什么、什么时候干、干完把结果送到哪,整条流程实现了闭环。

这也是 Hands 和普通 Agent 最根本的区别,不是功能多少的问题,而是工作方式上就有本质差异。

image-20260227163225199

目前 OpenFang 为我们内置了 7 个 Hands,全天候自主运行,下面挑 5 个有代表性的聊一下。

Collector:帮我们盯着指定目标持续监控,竞对动态、舆情变化,一有异动就推送告警,同时在后台搭建知识图谱。

Lead:每天自动跑一轮,发现潜在客户、网络调研、0-100 打分、去重,最后以 CSV 或 Markdown 格式打包送来。

Researcher:深度调研员,用事实核查标准交叉验证多方来源,生成带引用的研究报告,支持多语言输出。

Clip:上传一条视频,8 阶段处理流水线自动跑完。识别高光片段、剪成竖屏短视频、加字幕、生成封面,最后自动发到平台。

Browser:帮我们在网页上自动点按填表,但只要涉及金额交易,就会立刻停下来等待我们人工点头。

image-20260227163316561

除了内置 Hands,我们也可以自己动手构建,极大地扩展它的自主运行能力。

只需要写一个 HAND.toml 文件,定义好工具、参数和提示词,就能封装成一个专属的 Hand。

image-20260227163646145

Agent 权限越大,安全就越重要

Hands 能帮我们操控浏览器、自动发帖、处理数据,所需要的权限明显比普通 Agent 大得多。

权限越大,安全就越关键,OpenFang 为此设计了 16 层独立安全机制,每一层单独运作。

image-20260227180311225

工具代码跑在 WASM 沙箱里,出了问题不会影响到主系统运行。

同时每一个操作都有哈希链加密记录,即使出现了报错也能精准快速定位,不需要我们靠猜翻日志。

除此之外,如果 Agent 涉及到消费步骤,还会强制需要人工确认,AI 没有权限自己进一步操作。

总的来说,OpenFang 在自主性和安全性之间做了较好的平衡,把约束体系直接建进架构里,而不是事后打补丁。

与 ZeroClaw、OpenClaw 对比

我们再来看一下,官方给出的 OpenFang 与 ZeroClaw 和 OpenClaw 详细对比。

在功能层面,自主调度能力只有 OpenFang 有,其他五个框架全部为空,这是目前最核心的差异。

此外,安全层数是同类最高,覆盖的消息平台是竞品的 2-3 倍,支持的 LLM 供应商数量也处于第一梯队。

image-20260227163751527

而在冷启动时间、内存占用、安装大小等性能测试数据上,OpenFang 夹在两者中间。

比 OpenClaw 轻很多,一般配置的电脑跑起来没什么负担,但是又比 ZeroClaw 功能丰富得多。

image-20260227163900314

从对比来看,ZeroClaw 够轻但功能简,OpenClaw 功能丰富但太重,而 OpenFang 在两边之间取得了较好的平衡。

一键安装,轻松部署

只需要运行下面三条命令,即可运行起来。

curl-fsSL https://openfang.sh/install | shopenfang initopenfang start# 控制台在浏览器上打开 http://localhost:4200
image-20260227164145009

对于已经在用 OpenClaw 的朋友,项目也提供了一键迁移命令:

openfang migrate --from openclaw

执行完命令,所有 Agent 配置、对话历史、Skills、配置文件全部一键迁移。

不过也提醒一下,项目刚开源,还在快速迭代,建议做好数据备份再安装体验。

写在最后

从 OpenClaw 到 ZeroClaw,再到 OpenFang,Agent 框架的演化脉络越来越清晰了。

第一阶段打功能,第二阶段打性能,现在开始打的是自动化流程的完整度。

但往深处想,OpenFang 真正预示的,不只是让 Agent 能够自主干更多活。

就如当年 Docker 出现,不是为了让一个容器跑得更好,而是让整套部署流程变得可复制、可管理。

这里 Hands 的设计逻辑,本质上也是在给 Agent 的工作流程做标准化封装,让 AI 具备生产级能力,并且可管理、可复制、可规模化。

当这套标准逐渐成熟,一个人能同时管理多少条自主运行的 Agent 流程,产出就相当于多少个人的团队。

未来的竞争,拼的可能不再是谁的模型更聪明,而是谁搭的 Agent 流程跑得更稳、更安全、成本更低。

GitHub 项目地址:https://github.com/RightNow-AI/openfang

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

AI视频生成 Seedance 2。0 运镜公式教学:小白用Pan/Zoom/Dolly做电影感大片

本文拆解Seedance 2.0等AI视频工具的运镜核心逻辑,提供万能结构模板与Pan、Zoom、Dolly三大基础运镜技巧详解,包含动作修饰词、组合运镜示例及5条防翻车铁律,并推荐豆包、小云雀等实操平台与极简生成流程。适合想提升AI视频电影感与流畅度的新手及创作者。

Tags:

视频太假?是你不懂运镜。

你有没有过这种经历:在 Seedance 2.0 里输入「一个女孩在街上走」,结果生成了一段像素级PPT?画面静止、眼神呆滞、甚至像监控录像。

不是工具不行,是你的指令里缺了灵魂。

决定视频质量的,70%在于「运镜描述」,而非「场景描述」。今天这篇,直接把 AI视频生成 的底层逻辑拆解给你,两层内功,一套模板,治好你的「废片焦虑症」。

一、 第一层:结构是骨架,模板定生死

配图

大多数人写提示词是「脑补流」:脑子里有个画面 -> 随便写两句 -> 祈祷AI能懂。

模糊的指令,只能换来AI的胡编乱造。

要出大片,必须像导演一样思考。这里有一套经过验证的「万能结构模板」:

【基础信息】:【角色名】做【核心动作】,【局部特效】加持。

【镜头逻辑】:镜头1(全景入场) -> 镜头2(面部特写/情绪) -> 镜头3(环境呼应)。

【视听语言】:整体【画风】,【光线】氛围,搭配【音效】。

指挥官实战技巧:

不懂专业术语?别慌。把这个结构丢给 ChatGPT 或 Kimi,告诉它:「我要一个赛博朋克风格的赛车视频」。AI会自动帮你填上「光子粒子流」、「故障转场」这些高级词。

二、 第二层:运镜是灵魂,三个词走天下

配图

解决了结构,视频能看了;要让视频好看,必须搞懂 运镜技巧

所有复杂的镜头,都逃不过这三个基础词:

1.  Pan(摇移):头动身不动。用来交代大环境。

2.  Zoom(变焦):人不动焦距动。用来聚焦细节,制造冲击。

3.  Dolly(推轨):整个人跟着走。这是沉浸感的来源。

❌ 错误示范:只写 Pan/Dolly。

✅ 正确姿势动作 + 修饰词 + 情感

试着对比一下:

  • 普通版:Dolly Forward(平淡无奇的前进)
  • 大师版Slow Cinematic Dolly Forward(缓慢、电影感、呼吸感,光影在流动)

记住这几个万能修饰词:

  • 速度:Slow(慢,显高级)、Subtle(微妙,显真实)。
  • 情绪:Cinematic(电影感,万能药)、Dreamy(梦幻)、Intimate(亲密感)。

三、 进阶:组合拳与避坑铁律

配图

单一运镜不够味?试试组合拳,但千万别贪多。

黄金组合(直接抄作业):

  • Orbit + Zoom In(环绕+推进):产品展示、主角登场首选。
  • Crane Up + Pan(升降+摇移):史诗感,适合开场或结尾。
  • Dolly Zoom(希区柯克变焦):背景退、主体进,悬疑感拉满。

为了防止翻车,请死磕这 5条铁律

1.  动作写慢:不要写「跳舞」,要写「缓慢转身」。AI做慢动作是享受,做快动作是鬼畜。

2.  贪多必乱:一条视频最多2个运镜组合,多了AI会精神分裂。

3.  必加咒语:结尾必须加上「画面流畅稳定 / stabilized / 无抖动无闪烁」。

4.  保住脸面:人物视频必加「面部稳定不变形,五官清晰」。

5.  拒绝模糊:把「好看」换成「4K高清、暖光光影」;把「很酷」换成「赛博朋克、霓虹反光」。

四、 实操:去哪里用?

配图

理论学废了,去哪练手?

1.  小云雀 APP:专业版,参数控制细,适合老手。

2.  豆包 APP:刚刚全量推送,免费且门槛低。打开对话框就能看到 Seedance 2.0 入口。

豆包里还有个神功能「分身视频」,能用你自己的脸生成视频,不用担心版权和换脸问题。

极简SOP:

找Kimi写好带运镜的提示词 -> 复制到豆包/小云雀 -> 上传参考图 -> 设置16:9,5秒时长 -> 生成

场景是肉体,运镜才是灵魂。

掌握这套逻辑,你不再是AI的抽卡员,而是真正的导演。

欢迎添加指挥官微信

图片


FLUX模型免训练图像合成框架SHINE:解决光影融合难题,实现高保真物体插入

南洋理工大学ICLR 2026论文提出免训练框架SHINE,通过MSA锚点优化、DSG画质抑制与ABB自适应融合三大核心步骤,有效解决FLUX等扩散模型在图像合成中的光影不匹配、分辨率死板与边缘接缝问题。该方法无需额外训练,适用于需要将物体自然融入复杂光照场景(如逆光、水面倒影)的图像编辑工作。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Shilin Lu等

解读:AI生成未来
图片

文章链接: https://arxiv.org/abs/2509.21278 
git链接: https://github.com/ZhumingLian/SHINE 

你有没有发现:把一个物体"P"进照片里,最难的从来不是抠图——而是
阴影对不对?水面倒影有没有?夜景/逆光会不会穿帮?再加上背景分辨率一高,很多方法直接崩掉。

这篇 ICLR 2026 论文问了一个很直接的问题:像 FLUX 这种文生图扩散模型,可能已经学会了大量"物理/分辨率先验",只是我们不会把它逼出来?

作者给的答案是:可以,而且不需要再训练一个新模型——他们提出了 SHINE:一个免训练的高保真插入框架(Seamless, High-fidelity Insertion with Neutralized Errors)。

图片

一句话总结

SHINE 用"三板斧"把"主体像不像 + 场景融不融"这对矛盾同时拉起来:
1)用"锚点式"的 latent 优化把主体身份稳住;
2)用一种"反向变差"的引导把画面质量拉回正轨;
3)用注意力生成的自适应 mask 把边缘缝合得更自然。

这篇论文想解决什么痛点?

作者点名了两类常见翻车:

  • 复杂光照不真实:阴影、强光、倒影(水面)很容易露馅。
  • 分辨率"死板":很多专门微调过的组合模型绑定固定分辨率,高分图要裁剪/缩放,质量跟着掉。

而免训练方向又常被两座大山卡住:

  • inversion 会锁姿态:把参考物体 latent 直接贴进去,姿态就被参考图"钉死",经常和背景语境冲突。
  • attention 操作太脆:调参敏感、稳定性差。

SHINE 的整体流程:先"搭骨架",再"稳身份",最后"补细节"

论文里把流程画得很清楚:
(1)不用 inversion,先做一次"带描述的补洞"当起点 →
(2)MSA 优化稳住主体 →
(3)DSG 抑制画质劣化 →
(4)ABB 自适应融合边界

图片

下面按这三块核心贡献拆开讲。


核心 1:不做 inversion 的 latent 起步——先"合理摆姿势"

作者直接把"复制粘贴 inverted latent"这条路绕开了:他们先用 VLM 给主体图做描述,再配合 inpainting 在背景的用户 mask 区域生成一个"主体已在场景里"的初始图,然后加噪得到起始 latent

直观理解:

  • inversion 像是把"同一个姿势的贴纸"硬贴进不同照片;
  • 这一步更像是:先让主体在背景里"摆一个看起来合理的姿势/构图",再进入扩散采样

核心 2:MSA(Manifold‑Steered Anchor)——"两条世界线"把身份和背景同时锁住

MSA 的关键想法很"工程但聪明":

图片
  • 用一个预训练的个性化/主体适配器(例如 IP‑Adapter 一类)来提供"长得像参考主体"的方向;
  • 同时用基座模型对原始 noisy latent 的预测当"锚点",保证背景结构别被你改塌。

一句话类比:

适配器负责"像他/它",锚点负责"别把房间装修拆了"。


核心 3:DSG(Degradation‑Suppression Guidance)——不给"低质感分布"机会

MSA 会把主体拉准,但作者观察到:优化 + 采样的随机性会让结果偶尔出现过饱和、画质下降、身份不稳的问题,于是加了 DSG。

有意思的是:在 FLUX 上,"写负面提示词"基本没用——模型依旧很高保真。
那怎么办?作者做了一个系统实验:分别"模糊"注意力里的不同分量,发现模糊 (图像 query)能在保持结构的同时显著拉低质感,最适合作为"负方向"。

图片
图片

所以 DSG 的直觉可以理解为:

先构造一个"会变糟但不乱结构"的负例方向(通过 blur ),再像 CFG 那样把采样轨迹从它身边推开。


核心 4:ABB(Adaptive Background Blending)——边缘缝合不是靠"硬 mask",而是靠"语义 mask"

很多插入方法最后都死在边缘:你用用户矩形/粗 mask 去 blend,边界很容易出现"接缝"。作者提出 ABB:

图片
  • 早期步(t > τ)不用用户 mask,而用跨注意力里与主体 token 对应的区域生成更精准的注意力 mask;
  • 后期步再回到用户 mask,避免把主体阴影/倒影截断得太狠。
图片

实验

1)新基准:ComplexCompo(更贴近真实场景)

传统基准多是 512×512,太"温室"。作者做了 ComplexCompo

  • 300 组组合对;
  • 多分辨率 + 横竖构图
  • 特别强调 低光、强光、复杂阴影、水面反射

2)结果:不仅指标更好,关键是"人类偏好指标"也更强

论文强调:在 ComplexCompo 和 DreamEditBench 上达到 SOTA,且在人类对齐指标(DreamSim / ImageReward / VisionReward)上表现突出。

(数字细节可参考论文实验表格与附录)

图片

3)消融:三板斧缺一不可

消融结果的直观结论是:

  • MSA 主要拉高身份一致性;
  • DSG 主要提升整体质感/人类偏好;
  • ABB 主要解决边缘接缝(更偏"看起来舒服",不一定被结构指标完整捕捉)。

图片

局限与启发

论文自己承认的局限

  • 如果 inpainting 提示词把颜色写错了,最终结果可能会"继承"这个错误颜色。
  • 最终"像不像参考主体"也依赖你用的适配器质量;LoRA 做单概念测试时通常更像。
图片

值得带走的 3 个方法论

  1. 别急着再训练:大模型可能已经学到很多"物理一致性",缺的是一个能把先验释放出来的推理框架。
  2. 把"身份"和"背景结构"拆成两条约束:一个来自适配器,一个来自基座锚点,工程上很稳。
  3. 负向引导不一定来自文本:在 FLUX 这种架构里,操控内部表征(比如 )可能比写负面 prompt 更有效。

参考文献

[1] Does FLUX Already Know How to Perform Physically Plausible Image Composition?

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

OpenFang 开源 Agent 操作系统:Rust 构建生产级 AI 工作流,内置 7 种自主能力 Hands

OpenFang 是一个用 Rust 编写的开源 Agent 操作系统,旨在通过预构建的 Hands 能力包,将碎片化 AI 能力串联成可自动运行的完整工作流。它提供 7 种内置 Hands,如自动信息收集、视频剪辑、网页操作等,支持自定义扩展,并内置 16 层安全机制确保操作安...