2025年1月23日星期四

智谱重磅放出GLM-PC——又猛又萌的牛牛


就在刚刚智谱强势推出 GLM-PC,
牛牛基于 CogAgent 大模型,融合了视觉理解、深度思考和任务规划能力。


实际上它的底座是CogAgent,仅依赖屏幕截图作为输入(不像之前我推荐的Browser use里面用到的是 html 的元素识别
通过结合用户指令与历史操作,预测并执行下一步操作,适用于电脑、手机、车载设备等基于 GUI 的交互场景。
目前使用的是最新模型基座:使用 GLM-4V-9B 双语模型,强化视觉理解能力。
支持高分辨率(1120×1120)图像输入,通过下采样提升模型效率,即使在 2K 或更高分辨率下,也能准确理解界面内容。

官方给出了很给力的例子:
- 即时通讯:发送微信消息、群聊管理和朋友圈点赞。
- 浏览器操作:快速搜索内容,自动翻译和总结网页信息。
- 文档处理:打开、快速阅读、总结文档并完成复杂编辑任务。



同时在极速模式下支持用手机操控电脑的功能:

应用支持 Windows 和 MAC 系统

这里面有示例合集:
https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
看上去挺强的,可惜目前还在内测,慢了一步。

刚刚申请体验马上通过了,首页申请体验即可。
https://cogagent.aminer.cn/

没有评论:

发表评论

企业级智能助手平台开源:一个完整的智能助手、医疗、PDF、旅行规划等

一个完整的智能助手、医疗、PDF、旅行规划等源代码https://www.gitpp.com/grandpp/ 一个完整的智能助手、医疗、PDF、旅行规划等 源代码 https://www.gitpp.com/grandpp/grand-ai-hub 可以私有化部署,为企业内...