AI I024: 智谱重磅放出GLM-PC—

2025年1月23日星期四

就在刚刚智谱强势推出 GLM-PC，

牛牛基于 CogAgent 大模型，融合了视觉理解、深度思考和任务规划能力。

实际上它的底座是CogAgent，仅依赖屏幕截图作为输入（不像之前我推荐的Browser use里面用到的是 html 的元素识别）

通过结合用户指令与历史操作，预测并执行下一步操作，适用于电脑、手机、车载设备等基于 GUI 的交互场景。

目前使用的是最新模型基座：使用 GLM-4V-9B 双语模型，强化视觉理解能力。

支持高分辨率（1120×1120）图像输入，通过下采样提升模型效率，即使在 2K 或更高分辨率下，也能准确理解界面内容。

官方给出了很给力的例子：

- 即时通讯：发送微信消息、群聊管理和朋友圈点赞。

- 浏览器操作：快速搜索内容，自动翻译和总结网页信息。

- 文档处理：打开、快速阅读、总结文档并完成复杂编辑任务。

同时在极速模式下支持用手机操控电脑的功能：

应用支持 Windows 和 MAC 系统

这里面有示例合集：

https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg

看上去挺强的，可惜目前还在内测，慢了一步。

刚刚申请体验马上通过了，首页申请体验即可。

https://cogagent.aminer.cn/