2025年12月22日星期一

当公益AI挡了某些人的财路,他们选择了最脏的手段……

我们深知,在逐利的时代坚持纯粹的公益,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。

图片

我们深知,在逐利的时代坚持纯粹的公益,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。

一、 突如其来的"暴雨":复盘疯狂的12小时

2025年12月14日晚,momoAI 公益站点遭遇了成立以来规模最大、手段最恶劣的恶意DDoS攻击

这是一场有预谋、有组织的"技术暴力",以下是当时的真实记录:

攻击特征
详情说明
造成后果
异常请求量
短时间内涌入超过120万次
服务器CPU/内存瞬间满载
流量峰值
带宽资源全线告急
用户访问严重卡顿甚至断开
攻击手段
针对API接口的高频DDoS
日志系统溢出,后台一度瘫痪
图片

二、 我们的初心:为什么要坚持 momoAI?

建立这个站点的初衷从未改变:打破信息差,消除AI鸿沟。

我们希望让每一个人——无论身处何地、无论收入高低——都能零门槛地享受到全球最顶尖的AI技术。AI不应是少数人的奢侈品,而应是推动人类进步的公用设施。

图片

三、 挡了谁的"财路"?

在利益盘根错节的领域,当有人坚持做完全免费的公益,必然会成为那些靠"信息差"牟取暴利者的眼中钉。

  • 当原本昂贵的AI服务变得触手可及
  • 当某些人无法再收割那份"本不该收的钱";
  • 恶意竞争便演变成了技术毁坏

但这场攻击恰恰证明了:我们做对了! 因为我们正切切实实地在利好大众,戳中了那些投机者的痛处。

四、 绝不退缩,我们整装再出发!

恶意攻击或许能让服务器宕机片刻,但绝不能熄灭我们做公益的热情。这次危机反而让我们更确定:这件事极具意义,必须坚持到底!

图片

为了有效防御恶意爬虫和持续骚扰,保护普通用户的访问权益,我们对访问方式进行了安全加固,敬请理解。


👉 如何获取最新、最稳定的访问地址?

为防止攻击者再次锁定目标,我们将访问入口移至后台动态更新:

  1. 扫描下方二维码或点击页面上方蓝字关注本公众号
  2. 在后台对话框回复关键词:"AI"
  3. 系统将自动推送当前最稳定、最新的免费访问入口
图片

感谢每一位在攻击期间默默等待、给予我们支持的朋友。公益之路漫长且艰辛,但只要你们在,我们就会一直走下去。

微软发布 TRELLIS。2——40 亿参数图像到 3D 生成模型

微软突然放大招:一张图,直接生成可用 3D 模型40 亿参数,TRELLIS.2 把"图生 3D"推到新阶段如

https://www.3daistudio.com/_next/image?q=90&url=%2FNewLandingContent%2FTextureGen%2FTextureGen_VAR3.png&w=1920&utm_source=chatgpt.com
https://opengraph.githubassets.com/4cdc63a62c4845e00784c07b9a08113870723ada9516f0f85efc877575bc8d65/microsoft/TRELLIS.2?utm_source=chatgpt.com


图片


微软突然放大招:一张图,直接生成可用 3D 模型

40 亿参数,TRELLIS.2 把"图生 3D"推到新阶段

如果你最近有关注 AI 圈,会明显感觉到一件事:
2D 生成已经卷到极致,真正的战场,开始转向 3D。

就在这两天,微软悄悄放出了一个重量级项目——
TRELLIS.2,一个 40 亿参数的 Image-to-3D 生成模型。

不是"研究玩具",而是真的能直接产出可用 3D 资产那种。


一句话先给结论

TRELLIS.2 的目标不是"看起来像 3D",而是:
让一张图,直接变成能进引擎、能打光、能渲染的 3D 模型。

这也是它和很多"图生 3D 项目"最大的区别。


为什么这次很多人会认真看它?

先看几个关键点👇

  • ✅ 单张图片 → 3D 网格 + PBR 材质

  • ✅ 40 亿参数大模型

  • ✅ 最高支持 1536³ 级别 3D 分辨率

  • ✅ 微软官方开源

  • ✅ 不是 NeRF,而是直接 Mesh + 材质

一句话:
它不是为了"演示",而是冲着"生产"去的。


先看效果:不是"假 3D",而是真资产

https://miro.medium.com/v2/resize%3Afit%3A1400/1%2AqRu7pZg0Ik0uY8jVqnV4VA.jpeg?utm_source=chatgpt.com

https://microsoft.github.io/TRELLIS.2/assets/cover.webp?utm_source=chatgpt.com

从官方示例可以看到几个细节:

  • 生成的是完整网格(Mesh)

  • 同时带有 Base Color / Roughness / Metallic / Opacity 等 PBR 材质

  • 模型不是"糊在一起"的体积云,而是能进 Blender / Unity / UE 的那种

这一步,其实已经帮很多人省掉了整条中间流程。


TRELLIS.2 到底做对了什么?

如果只说"参数多",那没意义。
它真正厉害的,是底层思路。


1️⃣ 它抛弃了传统 NeRF / SDF 那套

过去很多图生 3D 项目,问题都出在这:

  • 表面一堆

  • 结构封闭

  • 转 Mesh 特别痛苦

  • 后处理复杂到怀疑人生

TRELLIS.2 直接换了一条路。


2️⃣ 一个很关键的概念:O-Voxel

https://microsoft.github.io/TRELLIS.2/assets/method/scvae.png?utm_source=chatgpt.com

官方提出了一种新的表示方式,叫 O-Voxel(Omni-Voxel)

你可以简单理解为:

  • 不是"隐式场"

  • 而是同时编码几何 + 外观的稀疏 3D 表示

  • 对复杂拓扑(开口结构、非流形)更友好

这一步,直接解决了很多 3D 生成模型**"看着像,但用不了"**的问题。


3️⃣ 原生 3D VAE,把 3D 压进模型

TRELLIS.2 使用了 原生 3D VAE

  • 对 3D 空间做 16× 压缩

  • 让 40 亿参数真正"装得下"高分辨率 3D

  • 推理速度也能接受

这也是为什么它能做到 1536³ 这种级别。


性能这块,微软给的数据也很硬

https://cdn.prod.website-files.com/64128071fa22275256c1c222/65fa581d046fc07020817ac9_LLMs%20%282%29.png?utm_source=chatgpt.com

https://cdn.mos.cms.futurecdn.net/6VQWSgcKu7HCfYbknYuvnk.png?utm_source=chatgpt.com

在 H100 上的官方数据(形状 + 材质):

  • 512³:约 3 秒

  • 1024³:约 17 秒

  • 1536³:约 1 分钟

放在 3D 领域,这是一个非常能打的数字。


那它能用来干什么?

说几个现实场景,你就懂它的价值了:

  • 🎮 游戏资产生成(角色、道具、环境物件)

  • 🛒 电商 3D 商品建模

  • 🎥 影视 / 动画概念资产

  • 🧠 AI 3D 内容管线的前端生成器

  • 🤖 后续接入 ComfyUI / 自动化工作流

尤其是电商 + 游戏 + AI 生成内容这条线,空间非常大。


当然,它也不是完美的

官方也说得很实在:

  • ❗ 生成的 Mesh 可能有小孔洞

  • ❗ 严格 3D 打印场景需要后处理

  • ❗ 审美不是重点,偏"工程资产"

但说句实话:
能直接出可用 3D,本身就已经跨过了 80% 的门槛。


普通人该怎么看 TRELLIS.2?

我的判断很简单:

TRELLIS.2 不是终点,但它在"图 → 3D 资产"这条路上,
给了一个非常清晰、可复制、可工程化的答案。

而且最关键的一点是——
它是微软开源的。



这两年 AI 最大的变化,不是模型名字换了多少个,
而是"能不能真正走进生产流程"。

TRELLIS.2 至少证明了一件事:
3D,不再只是少数人的专业门槛,而正在被模型一点点拆平。

如果你觉得这篇文章对你有启发👇
欢迎点赞、关注、转发给对 AI / 3D / ComfyUI 感兴趣的朋友。
后面我也会继续拆更多 真正"能用"的 AI 新东西。

AI知识星球:公众号对话框回复"加入社群",即可自行获取(注:是对话框发送,不是在留言区)


想把AI真正用起来,而不是只停留在资讯?
来【写新AI实战圈】,我们每天都在做实战项目:
从ComfyUI、Agent落地到AI变现,全程案例+工具交付。
和一群真正在用AI赚钱的人,一起冲。

图片

9 个 yyds 的 AI 控制电脑 GitHub 开源项目。

01

通过终端控制电脑

把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。

Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python, JavaScript, Shell 啥的,直接运行在你的终端里。

图片

通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完全自由的联网。 

操作你的本地文件,比如批量重命名、转换格式、处理 Excel。 还能控制你的电脑,比如打开浏览器、发邮件、甚至调整系统设置。

还支持接入本地的模型,比如 Ollama、Jan。

图片

比如输入:把我的系统设为深色模式,然后打开浏览器去查一下明天的天气。

它会执行 Shell 命令来修改系统设置,并调用浏览器自动化工具 Selenium 或 Playwright 去查询信息。

你还可以把一个 500MB 的 Excel 表格扔给它:分析这个表格,画出过去一年销售额的趋势图,并保存为 report.png。

不用上传云端,数据隐私绝对安全。

开源地址:https://github.com/openinterpreter/open-interpreter

02

微软开源:OmniParser

OmniParser 是微软开源的一个专门用来看屏幕的神器。

今年最新的 V2 版本,霸榜了 Hugging Face 好久,真的把 GUI Agent 的能力拉升了一个台阶。

图片

这是一个屏幕解析工具,可以把屏幕截图转化为结构化的数据,这是构建 AI 控制电脑 Agent 的核心组件。

许多基于视觉的自动化项目都依赖这类技术来精准定位屏幕元素。

图片
图片

它的工作流程是这样的:

Detect通过训练好的 YOLO 模型,精准框选出屏幕上所有的可交互区域,比如按钮、输入框、图标、侧边栏啥的。

即便图标非常微小,V2 版本也能精准捕捉。

Caption利用微软自家的 Florence-2 或 BLIP-2 模型,给每一个框选出来的元素加上功能描述,比如"这是一个搜索图标"、"这是一个设置按钮"。

Grounding将这些坐标和描述打包喂给 GPT-4V 或 DeepSeek,让大模型知道某按钮的坐标在 (800, 600)

你可以把这个开源项目理解成连接大模型大脑和电脑屏幕之间的那副高精度眼镜。

开源地址:https://github.com/microsoft/OmniParser

03

自操作计算机框架

这个开源框架,也是让多模态 AI 模型像人类一样操作计算机。现在已经斩获了 1 万的 Star。

图片

模型通过截图的方式视觉识别屏幕内容,直接调用系统的鼠标和键盘接口,使用 pyautogui 库进行交互,而非依赖后台 API。

而且这个开源项目兼容 macOS、Windows 和 Linux。

为了解决大模型看不准或点不准屏幕元素的问题,它引入了几种关键模式:

OCR 模式:生成屏幕上可点击元素的坐标哈希图。当模型决定点击某段文字时,系统能精确映射到具体坐标,显著提高了点击准确率。

Set-of-Mark (SoM) 提示:在屏幕截图上的UI元素打上数字标记 Label,让模型只需输出数字即可定位元素,类似于特斯拉自动驾驶的视觉标注逻辑。

Voice Mode:支持语音输入指令,增加交互的便捷性。

开源地址: https://github.com/OthersideAI/self-operating-computer

04

前沿的 GUI 智能体:Agent S

这个 Agent S 是目前比较前沿的开源 GUI 智能体框架。S3 是首个在 OSWorld 上超越人类水平的模型,取得了得分 72.60%。

目前已经在 GitHub 上获得 9k 的 Star。

图片

与普通脚本不一样,Agent-S 引入了类似人类的认知架构:

经验增强的层次化规划:它不是盲目地一步步操作,而是先搜索外部知识(如在线教程)和检索内部记忆,将大任务拆解为子任务。

Agent-计算机接口:它不直接看原始像素,而是通过一个中间层更精确地感知 GUI 元素,增强了模型对屏幕的理解能力。

双重记忆机制:叙事记忆,存储高层次的任务经验;情景记忆,存储具体的步骤操作。它用得越多,越擅长处理复杂任务。

开源地址: https://github.com/simular-ai/Agent-S

05

微软开源:UFO

之前提到过,这个叫 UFO 的框架也是微软开源的。

这个开源项目是专为 Windows 生态深度定制的原生级智能体系统。它利用微软对自家系统的理解,实现了比普通视觉方案更深层的控制。

图片

不同于视觉方案的框架仅依赖截图+鼠标模拟,UFO 结合了视觉与底层系统接口 Windows UI Automation, Win32, COM API。

它不仅看屏幕,还能直接读控件树。它能准确知道一个按钮的名字、状态和隐藏属性,点击准确率极高。

而且,它专门针对 Windows 常用软件 Office 全家桶、文件资源管理器 啥的进行了优化,能理解应用程序内部的逻辑。

图片

它采用双代理架构(AppAgent 和 OSWorld Agent),深入理解 Windows 应用程序的 UI 结构,跨多个应用程序执行复杂请求,比如从 PPT 中提取内容并发邮件。

专为 Windows 优化,能够利用 Windows 原生 API 进行更稳定的控制。

开源地址: https://github.com/microsoft/UFO

06

AI 玩荒野大镖客

Cradle 是由智源研究院 (BAAI) 团队开发的一个开源项目。

图片

让 AI 智能体能够像人类一样,仅通过屏幕截图和标准输入/输出接口来操作任何软件和游戏,而不需要依赖后端的 API 或内部代码访问。

可以玩荒野大镖客、城市天际线,也会用飞书、Chrome、剪映软件。

图片

它提供了一个标准化的框架,将控制过程分为几个关键模块:

感知:提取屏幕中的关键信息,识别 UI 界面、图标、文本或游戏中的 3D 场景。

决策与规划: 根据当前任务目标和屏幕状态,规划下一步行动。自我反思,如果操作失败,它会分析原因并修正策略。

记忆系统:短期记忆,记录最近的操作序列和截图;长期记忆, 存储成功经验和工具使用手册(RAG),以便在类似场景下快速调用。

执行: 将规划转换为具体的键盘和鼠标指令。

开源地址: https://github.com/BAAI-Agents/Cradle

07

OS-Copilot 

一个构建通用操作系统代理的框架。强调 Agent 的自我学习和自我改进能力,能够处理从未见过的应用。

图片

其核心 Agent FRIDAY 能够通过自我改进机制来学习如何操作 Excel、PPT 以及浏览网页。

这个开源项目的目标是创建一个无缝集成到操作系统中的个人助理。

开源地址: https://github.com/OS-Copilot/OS-Copilot

08

ShowUI

这是一个轻量级的端到端视觉-语言-动作(Vision-Language-Action)模型,专为 GUI 智能体设计。

图片

它想解决大模型在处理 UI 界面时的高延迟和计算成本问题,提供更快速、更精准的屏幕元素定位和操作。

模型小巧高效,适合在本地部署进行低延迟的 UI 自动化控制。

开源地址: https://github.com/showlab/ShowUI

09

UI-TARS Desktop

之前介绍过,字节跳动开源的基于 UI-TARS 视觉语言模型的 GUI 智能体桌面应用。

它允许用户通过自然语言直接控制 Windows 或 macOS 电脑。

该项目结合了端到端的视觉模型,无需复杂的中间代码解析,直接像人类一样看屏幕并操作鼠标键盘。

图片

特点是开箱即用,支持远程计算机控制,是目前较新的高性能 GUI Agent 实现。

开源地址: https://github.com/bytedance/UI-TARS-desktop

10

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

当公益AI挡了某些人的财路,他们选择了最脏的手段……

我们深知,在逐利的时代坚持纯粹的公益,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。 我们深知,在逐利的时代坚持 纯粹的公益 ,注定会触碰到某些人的利益蛋糕。但我未曾料到,对方的选择竟然如此卑劣。 一、 突如其来的"暴雨":复盘疯狂的...