AI I024: 2025年2月20日 AI日报 Grok 3 免费开放使用；阿里发布了多模态模型 Qwen2。5-VL 技术报告和开源模型

2025年2月20日星期四

2025年2月20日 AI日报 Grok 3 免费开放使用；阿里发布了多模态模型 Qwen2。5-VL 技术报告和开源模型

1、Grok 3 已宣布向所有用户免费开放使用（直至服务器崩溃）

基础功能免费：所有用户可通过X平台或Grok网页版直接体验，支持DeepSearch（深度搜索）和Think（推理模式）功能

限制说明（上午宝玉大佬的测试，晚上试的时候感觉可使用的数量更高了）：

- 20 条 / 2 小时（不带 Think）

- 5 条 / 2 小时（Think）

- 5 条 / 2 小时（Deep Search）

进阶功能对比

订阅X Premium+（40美元/月）或SuperGrok（30美元/月）可解锁无限使用、语音模式及优先体验新功能

实测反馈

用户评价其推理能力接近OpenAI商用模型o1-pro（200美元/月），但存在幻觉问题

访问方式

推荐通过网页版直接体验（需网络工具访问）iOS用户可下载Grok APP，安卓暂不支持

建议尽早体验，服务器压力可能导致响应延迟。如需深度使用，可考虑短期订阅付费服务。

网址：https://x.com/i/grok

2、Google发布了多模态视觉-语言模型 PaliGemma 2 Mix

一个集图像描述、OCR、问答、目标检测和分割于一身的开源视觉-语言模型

灵活配置：

提供3B、10B、28B参数规模，支持224px和448px分辨率输入

兼容主流框架（Hugging Face Transformers、PyTorch等）

性能优势：

动态分辨率适配技术降低40%计算资源消耗，多任务性能提升32%

在化学式识别、乐谱识别、医学影像分析等专业领域达到SOTA水平

本地部署指南：

可通过Miniconda配置Python环境，并调用Hugging Face接口实现

注意事项：

中文OCR准确率较英文低8.7%，建议针对性微调

28B版本需16GB显存，硬件要求较高

在线试用网址：https://huggingface.co/spaces/google/paligemma2-10b-mix

3、微软推出AI游戏生成模型WHAM

微软推出的World and Human Action Model (WHAM)是首个登上《Nature》的AI游戏生成模型，能根据玩家操作自动生成游戏画面和动作序列，助力开发者快速设计游戏原型。

核心功能

- 画面生成：输入1秒游戏画面或操作指令，可生成分辨率300×180的连贯视频（约2分钟）。

- 行为预测：通过分析7年真实玩家数据（来自Xbox游戏《Bleeding Edge》），模拟玩家操作逻辑。

可以理解为游戏界的"AI导演"，它能根据玩家的操作自动生成游戏画面，或者反过来根据画面预测玩家动作，甚至能同时生成画面和动作

项目地址：https://huggingface.co/microsoft/wham

4、阿里发布了多模态模型 Qwen2.5-VL 技术报告和开源模型

主要功能

强大的文档解析能力：升级了文本识别功能，能够处理多场景、多语言和各种内置格式（如手写、表格、图表、化学公式和乐谱）的文档。

精确的对象定位：提高了检测、指向和计数对象的准确性，支持绝对坐标和JSON格式，以实现高级空间推理。

超长视频理解和细粒度视频定位：扩展了动态分辨率的时间维度，增强了理解数小时视频的能力，并能在几秒钟内提取事件片段。

增强的代理功能：利用先进的定位、推理和决策能力，提升了智能手机和计算机上的代理功能。

Qwen2.5-VL 有三种不同规模的版本：

• Qwen2.5-VL-3B：小型模型，适合资源有限的设备（如手机）。

• Qwen2.5-VL-7B：中等规模，性能和效率兼顾。

• Qwen2.5-VL-72B：旗舰型号，能力媲美业界顶尖模型（如 GPT-4o 和 Claude 3.5 Sonnet）。

项目网址：https://github.com/QwenLM/Qwen2.5-VL

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2025年2月20日星期四

2025年2月20日 AI日报 Grok 3 免费开放使用；阿里发布了多模态模型 Qwen2。5-VL 技术报告和开源模型

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

标签