2026年3月15日星期日

Clawith 开源:多智能体团队协作 AI 工具,自主感知一键部署

Clawith 是 OpenClaw 的团队版开源项目,为多智能体协作而设计。它通过自主感知系统、数字员工身份和审计日志,让团队低成本搭建 AI 工作流。支持 Docker 一键部署,适合企业快速应用 AI Agent。

Tags:

这段时间,整个 AI 圈都被 OpenClaw 刷屏了。

它给 AI Agent 装上了灵魂和记忆,还能直接接入各种通讯工具。让我们只需在聊天对话框里发号施令,就能指挥它干活。

可一旦把它拉进团队协作的场景,各种问题就暴露了。多个 Agent 之间互不认识,根本没办法协作分工。

它们也没有组织架构的概念,不知道谁归谁管,更不知道任务该交给谁。加上缺乏用量控制和审计日志,团队根本放不开手脚去用。

直到今天,我在 GitHub 上刷到了一个叫 Clawith 的开源项目,喊出「OpenClaw for Teams」口号。

GitHub:https://github.com/dataelement/Clawith

img

它在保留 OpenClaw 的灵魂、记忆等核心特性的基础上,专门针对多智能体协作做了大量重构。

首先就是 OpenClaw 的 Heartbeat 心跳机制,默认是每 30 分钟触发一次。

而 Clawith 把这套机制升级成了 Aware 自主感知系统

Agent 不再是傻傻的定时闹钟,而是能做到持续感知。它们会根据手头上的任务,自己去创建、调整甚至删除触发器。

img

其中最硬核的升级,是一个叫 on_message 的触发器,专门用来等待消息。

以前的 AI 助理只用盯着主人的回复就行。但放到团队里,它得能串联起多个人和多个 Agent 的协作流程。

通过等待各方的响应,它直接把原来面向单人的一问一答,变成了多节点流转的流程。

img

简单举个例子,比如让 Agent 去收集全公司 100 人对下周团建的想法。规定好没回复的每 6 小时催一次,截止本周五。

Agent 收到指令后会给每个人挨个挂上触发器。一旦有人回了消息就自动取消催促,要是有人抱怨说正在忙,它还会识趣地降低频率。

除了盯人的消息,它还内置了 Webhook、轮询、固定间隔等 6 种触发器。

我们还可以给它接上监控系统,一旦发现服务器异常它就会被自动唤醒。

并且自己写代码做初步诊断,情况严重直接往群里发送警告,甚至还会给自己设复查的循环任务,直到故障恢复。

img

所以在 Clawith 里,我们看到的不再是一张死板的定时任务列表。取而代之的,是一组对目标任务的关注点。

每个关注点下面都挂着对应的触发器。只要任务进展变了,它的策略也跟着变,始终围绕着目标在自适应,直到把活儿干完为止。

同时在 Clawith 里面的这些 Agent 各自还拥有数字员工身份,形成一个完整的组织。

图片

它们知道公司里有哪些人、哪些 Agent 同事,了解汇报关系和各自负责的事情。

可以主动发消息、委派任务、寻求协作,就像一个刚入职、但已经把花名册背熟的新员工。

img

还有一个叫「广场」的内部交流中心,Agent 可以在里面发布动态、分享发现、评论彼此的工作,人类成员也可以参与进来。

随着时间积累,每个 Agent 会在这里逐渐形成对团队业务和风格的认知,而不是每次对话都重新摸索一遍。

img

另外很多团队在面对这些工具的时候,不是不想用 AI,而是不敢放开用。

怕 Agent 乱操作、怕成本失控、出了问题不知道追责到哪里。

Clawith 在这方面给出了基础保障。每个用户可以设置消息限额和 LLM 调用上限,防止资源被无限消耗。

img

如果涉及到危险操作,需要人工审批才能执行。所有 Agent 的操作都有完整的审计日志可查。

此外它还支持多租户隔离、RBAC 权限控制和企业知识库。

每个 Agent 甚至可以拥有独立的飞书、钉钉和企微等账号,直接在工作群里参与协作。

一键部署,轻松上手

部署使用非常简单,项目提供了本地一键脚本安装和 Docker 快速部署两种安装方式。

比如 Docker 部署方式,只需要执行如下几条命令即可:

git clone https://github.com/dataelement/Clawith.gitcd Clawith && cp .env.example .envdocker compose up -d

另外项目还给出了各场景对应的推荐配置,建议最低配置 2 核 CPU、4GB 内存、预留 30GB 磁盘空间,这配置相信大部分朋友的电脑都能满足。

img

写在最后

放眼现在的开源圈,能把多 Agent 团队协作做到开箱即用的项目还是挺少的。

目前来看,Clawith 算是其中一个能实打实地给出了一套落地方案的开源项目。

如果我们本来就在用 OpenClaw 折腾各种自动化,又或者想用低成本,给团队快速搭建起一套 AI 工作流。

那 Clawith 确实是个不错的选择。

Agent 的能力边界正在快速扩张,从个人到团队协作,只是第一步。

当每个人都能低成本组建一支能各司其职、互相协作的 AI 团队。

那些过去需要一整个部门才能推动的事情,也许现在一个人就能完成了。

未来,拼的不再是单纯的执行力,而是谁的想法更值钱。

GitHub 项目地址:https://github.com/dataelement/Clawith

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

南大腾讯中科院开源首个纯扩散多模态模型Omni-Diffusion,统一文本/语音/图像生成

南大/腾讯/中科院开源Omni-Diffusion,纯扩散多模态模型统一文本/语音/图像,7B参数并行解码效率高,在语音识别、视觉问答等任务上表现优异,已开源代码和论文,适合AI研究人员和开发者使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

一句话总结:文本/语音/图像任意组合输入 → 任意模态输出,Omni-Diffusion 用统一掩码离散扩散模型直接建模多模态 token 联合分布,7B 参数实现理解与生成统一,采样效率反超自回归架构。

多模态大模型这两年进步飞快,但不知道大家有没有发现一个架构层面的「路径依赖」:

  • 绝大多数 MLLM 仍以自回归(Autoregressive)为骨干,先生成文本再用额外解码器转图像/语音
  • 这种「文本中心+外挂解码」范式导致模态对齐依赖后处理,跨模态生成易失真
  • 自回归串行解码天生效率瓶颈,长序列生成延迟高

扩散模型(Diffusion)在图像/文本生成中已展现强大潜力,但将其作为多模态统一骨干的研究仍属空白。今天介绍的由南京大学、腾讯优图、中科院自动化所联合提出的Omni-Diffusion正是为打破这一范式而来。该工作首次提出完全基于掩码离散扩散模型,实现文本、语音、图像三模态的统一理解与生成,在多项基准上媲美甚至超越自回归方案。

图片

unsetunset相关链接unsetunset

  • 论文: https://arxiv.org/abs/2603.06577
  • 主页: https://omni-diffusion.github.io
  • 仓库: https://github.com/vita-mllm/omni-diffusion (已开源)

unsetunset论文介绍unsetunset

图片

随着多模态智能的快速发展,传统的自回归架构逐渐显露出其局限性。自回归模型必须按顺序生成Token,难以实现高效的并行化生成,且在生成过程中难以关注全局信息。相比之下,掩码离散扩散模型(MDMs)支持并行解码,能够加速生成过程,并实现更精准的语义控制。因此,研究团队提出了Omni-Diffusion,旨在利用MDMs的优势,构建一个能够处理文本、图像、语音等多种模态的全模态大模型。图片

unsetunset方法概述unsetunset

图片架构概述。Omni-Diffusion 是一个基于掩码标记离散扩散模型的任意模态多模态系统。通过掩码标记预测对多模态离散标记的统一分布进行建模,Omni-Diffusion 能够理解和生成多种模态,包括文本、图像和语音。

Omni-Diffusion的核心思想是将所有模态的数据转化为离散的Token,并在这些Token组成的序列上进行掩码预测。具体方法包括:

模态的离散化(Tokenization):

  • 图像模态:采用MAGVIT-v2编码器,将图像压缩为8192种可能的离散Token。
  • 语音模态:输入端使用SenseVoiceSmall提取语义特征,输出端利用GLM-4-Voice的分词器将语音转化为16384种离散Token。
  • 文本模态:继承自基础语言模型的词表。

掩码离散扩散模型架构:

模型主干采用拥有70亿参数的Dream-7B,通过掩码Token预测(Mask Token Prediction)学习多模态Token的联合分布。 训练时随机遮盖序列中的一定比例Token,并尝试预测这些被遮盖位置的原始内容。

三阶段渐进式训练:

图片
  • 第一阶段(视觉-语言预对齐):让模型学会看图说话和文生图,对齐视觉和文本空间。
  • 第二阶段(多模态联合对齐):加入语音数据,让模型在视觉、语言、语音三者间建立联系。
  • 第三阶段(能力强化):在自建的SDVI数据集上进行微调,强化语音驱动的视觉交互能力。

推理优化:

  • 位置惩罚(Position Penalty):抑制序列后部的Token生成概率,打破镜像重复现象,提升画质。
  • 特殊Token预填充:在生成语音时,预先埋入[begin-of-speech]标记,提升对话连贯性。
  • 自适应Token长度分配:根据语音时长与文本长度的相关性,动态调整初始掩码长度。

unsetunset实验unsetunset

Omni-Diffusion 在文本到图像和语音到图像任务中生成的样本。
Omni-Diffusion 在文本到图像和语音到图像任务中生成的样本。
图片
图片
图片
图片

为了验证Omni-Diffusion的有效性,研究团队在多个权威榜单上进行了全面测试:

  • 语音任务:在LibriSpeech榜单上,Omni-Diffusion的词错误率(WER)显著优于同为Any-to-Any架构的AnyGPT。
  • 视觉理解与生成:在视觉问答(VQA)任务中,Omni-Diffusion在多个评测基准中拿到高分,甚至与一些专门做理解的视觉LLM不相上下。在文生图任务中,其CLIP Score也达到了较高水平。
  • 采样效率:得益于并行解码,Omni-Diffusion在图像生成上表现出色,将采样步数从256步缩减到10步时,画质依然维持在较高水平。

unsetunset结论unsetunset

Omni-Diffusion的出现为多模态大模型的研究开辟了一条新路径。它证明了自回归并非通往全模态智能的唯一方案,通过巧妙地利用离散扩散模型的并行性和统一建模能力,同样可以构建出高性能的全模态AI。未来,随着技术的不断进步和应用场景的拓展,Omni-Diffusion有望在更多领域发挥重要作用,推动人工智能向更加智能、更加人性化的方向发展。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

Clawith 开源:多智能体团队协作 AI 工具,自主感知一键部署

Clawith 是 OpenClaw 的团队版开源项目,为多智能体协作而设计。它通过自主感知系统、数字员工身份和审计日志,让团队低成本搭建 AI 工作流。支持 Docker 一键部署,适合企业快速应用 AI Agent。 Tags: 开源 AI Agent 团队...