1、Grok 3 已宣布向所有用户免费开放使用(直至服务器崩溃)
基础功能免费:所有用户可通过X平台或Grok网页版直接体验,支持DeepSearch(深度搜索)和Think(推理模式)功能
限制说明(上午宝玉大佬的测试,晚上试的时候感觉可使用的数量更高了):
- 20 条 / 2 小时 (不带 Think)
- 5 条 / 2 小时 (Think)
- 5 条 / 2 小时 (Deep Search)
进阶功能对比
订阅X Premium+(40美元/月)或SuperGrok(30美元/月)可解锁无限使用、语音模式及优先体验新功能
实测反馈
用户评价其推理能力接近OpenAI商用模型o1-pro(200美元/月),但存在幻觉问题
访问方式
推荐通过网页版直接体验(需网络工具访问)iOS用户可下载Grok APP,安卓暂不支持
建议尽早体验,服务器压力可能导致响应延迟。如需深度使用,可考虑短期订阅付费服务。
网址:https://x.com/i/grok
2、Google发布了多模态视觉-语言模型 PaliGemma 2 Mix
一个集图像描述、OCR、问答、目标检测和分割于一身的开源视觉-语言模型
灵活配置:
提供3B、10B、28B参数规模,支持224px和448px分辨率输入
兼容主流框架(Hugging Face Transformers、PyTorch等)
性能优势:
动态分辨率适配技术降低40%计算资源消耗,多任务性能提升32%
在化学式识别、乐谱识别、医学影像分析等专业领域达到SOTA水平
本地部署指南:
可通过Miniconda配置Python环境,并调用Hugging Face接口实现
注意事项:
中文OCR准确率较英文低8.7%,建议针对性微调
28B版本需16GB显存,硬件要求较高
核心功能
- 画面生成:输入1秒游戏画面或操作指令,可生成分辨率300×180的连贯视频(约2分钟)。
- 行为预测:通过分析7年真实玩家数据(来自Xbox游戏《Bleeding Edge》),模拟玩家操作逻辑。
可以理解为游戏界的"AI导演",它能根据玩家的操作自动生成游戏画面,或者反过来根据画面预测玩家动作,甚至能同时生成画面和动作
主要功能
强大的文档解析能力:升级了文本识别功能,能够处理多场景、多语言和各种内置格式(如手写、表格、图表、化学公式和乐谱)的文档。
精确的对象定位:提高了检测、指向和计数对象的准确性,支持绝对坐标和JSON格式,以实现高级空间推理。
超长视频理解和细粒度视频定位:扩展了动态分辨率的时间维度,增强了理解数小时视频的能力,并能在几秒钟内提取事件片段。
增强的代理功能:利用先进的定位、推理和决策能力,提升了智能手机和计算机上的代理功能。
Qwen2.5-VL 有三种不同规模的版本:
• Qwen2.5-VL-3B:小型模型,适合资源有限的设备(如手机)。
• Qwen2.5-VL-7B:中等规模,性能和效率兼顾。
• Qwen2.5-VL-72B:旗舰型号,能力媲美业界顶尖模型(如 GPT-4o 和 Claude 3.5 Sonnet)。
没有评论:
发表评论