2025年1月23日星期四

智谱重磅放出GLM-PC——又猛又萌的牛牛


就在刚刚智谱强势推出 GLM-PC,
牛牛基于 CogAgent 大模型,融合了视觉理解、深度思考和任务规划能力。


实际上它的底座是CogAgent,仅依赖屏幕截图作为输入(不像之前我推荐的Browser use里面用到的是 html 的元素识别
通过结合用户指令与历史操作,预测并执行下一步操作,适用于电脑、手机、车载设备等基于 GUI 的交互场景。
目前使用的是最新模型基座:使用 GLM-4V-9B 双语模型,强化视觉理解能力。
支持高分辨率(1120×1120)图像输入,通过下采样提升模型效率,即使在 2K 或更高分辨率下,也能准确理解界面内容。

官方给出了很给力的例子:
- 即时通讯:发送微信消息、群聊管理和朋友圈点赞。
- 浏览器操作:快速搜索内容,自动翻译和总结网页信息。
- 文档处理:打开、快速阅读、总结文档并完成复杂编辑任务。



同时在极速模式下支持用手机操控电脑的功能:

应用支持 Windows 和 MAC 系统

这里面有示例合集:
https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
看上去挺强的,可惜目前还在内测,慢了一步。

刚刚申请体验马上通过了,首页申请体验即可。
https://cogagent.aminer.cn/

没有评论:

发表评论

美团提出统一多模态模型OneCAT,一键搞定视觉问答/图像编辑/文生图任务,性能表现SOTA。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球! 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 扫描下方二维码,加入AIGC Studio知识星球 ! 可以获得 最新AI前沿应用/ AIGC实践教程 / ...