2025年2月20日星期四

2025年2月20日 AI日报 Grok 3 免费开放使用;阿里发布了多模态模型 Qwen2。5-VL 技术报告和开源模型


1、Grok 3 已宣布向所有用户免费开放使用(直至服务器崩溃)

基础功能免费:所有用户可通过X平台或Grok网页版直接体验,支持DeepSearch(深度搜索)和Think(推理模式)功能

限制说明(上午宝玉大佬的测试,晚上试的时候感觉可使用的数量更高了):

- 20 条 / 2 小时 (不带 Think)

- 5 条 / 2 小时 (Think)

- 5 条 / 2 小时 (Deep Search)

进阶功能对比

订阅X Premium+(40美元/月)或SuperGrok(30美元/月)可解锁无限使用、语音模式及优先体验新功能

实测反馈

用户评价其推理能力接近OpenAI商用模型o1-pro(200美元/月),但存在幻觉问题

访问方式

推荐通过网页版直接体验(需网络工具访问)iOS用户可下载Grok APP,安卓暂不支持

建议尽早体验,服务器压力可能导致响应延迟。如需深度使用,可考虑短期订阅付费服务。

网址https://x.com/i/grok



2、Google发布了多模态视觉-语言模型 PaliGemma 2 Mix

一个集图像描述、OCR、问答、目标检测和分割于一身的开源视觉-语言模型

灵活配置:

提供3B、10B、28B参数规模,支持224px和448px分辨率输入

兼容主流框架(Hugging Face Transformers、PyTorch等)

性能优势:

动态分辨率适配技术降低40%计算资源消耗,多任务性能提升32%

在化学式识别、乐谱识别、医学影像分析等专业领域达到SOTA水平

本地部署指南:

可通过Miniconda配置Python环境,并调用Hugging Face接口实现

注意事项:

中文OCR准确率较英文低8.7%,建议针对性微调

28B版本需16GB显存,硬件要求较高

在线试用网址https://huggingface.co/spaces/google/paligemma2-10b-mix


3、微软推出AI游戏生成模型WHAM
微软推出的World and Human Action Model (WHAM)是首个登上《Nature》的AI游戏生成模型,能根据玩家操作自动生成游戏画面和动作序列,助力开发者快速设计游戏原型。

核心功能

- 画面生成:输入1秒游戏画面或操作指令,可生成分辨率300×180的连贯视频(约2分钟)。

- 行为预测:通过分析7年真实玩家数据(来自Xbox游戏《Bleeding Edge》),模拟玩家操作逻辑。

可以理解为游戏界的"AI导演",它能根据玩家的操作自动生成游戏画面,或者反过来根据画面预测玩家动作,甚至能同时生成画面和动作

项目地址:https://huggingface.co/microsoft/wham


4、阿里发布了多模态模型 Qwen2.5-VL 技术报告和开源模型

主要功能

强大的文档解析能力:升级了文本识别功能,能够处理多场景、多语言和各种内置格式(如手写、表格、图表、化学公式和乐谱)的文档。

精确的对象定位:提高了检测、指向和计数对象的准确性,支持绝对坐标和JSON格式,以实现高级空间推理。

超长视频理解和细粒度视频定位:扩展了动态分辨率的时间维度,增强了理解数小时视频的能力,并能在几秒钟内提取事件片段。

增强的代理功能:利用先进的定位、推理和决策能力,提升了智能手机和计算机上的代理功能。

Qwen2.5-VL 有三种不同规模的版本

• Qwen2.5-VL-3B:小型模型,适合资源有限的设备(如手机)。

• Qwen2.5-VL-7B:中等规模,性能和效率兼顾。

• Qwen2.5-VL-72B:旗舰型号,能力媲美业界顶尖模型(如 GPT-4o 和 Claude 3.5 Sonnet)。

项目网址https://github.com/QwenLM/Qwen2.5-VL

没有评论:

发表评论

省委副书记调研的"实在智能"到底是何方神圣?

点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。  点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦...