AI2发布新一代视频理解模型Molmo 2,支持视频、图像输入与时空定位,性能超越GPT-5等闭源系统。提供8B、4B、7B全开源版本,刷新多项评测纪录,并开源大规模训练数据集。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
手机、自动驾驶、工业传感……视频正成为 AI 理解世界的新语言。现在,Molmo 2 让开源模型也能"看懂"视频中的每一帧细节。
2025 年 12 月 11 日,艾伦人工智能研究所(AI2)正式发布 Molmo 2 —— 一款专为视频理解、空间定位与跨帧追踪而生的下一代开源多模态大模型。它不仅在多项权威评测中超越 Gemini 3 Pro、GPT-5 等闭源系统,更首次将视频级"指哪打哪"能力带入开源社区。
🔥 为什么 Molmo 2 值得关注?
Molmo 2 是 2024 年爆火的 Molmo 图像理解模型的全面升级版。如果说 Molmo 让 AI 学会了"在图片里指东西",那么 Molmo 2 则让 AI 学会了"在视频里追踪事件、定位动作、数清次数"——真正实现时空联合理解。
✅ 核心突破:
视频原生理解:支持单图、多图、任意长度视频输入。 精准时空定位:不仅能回答"发生了什么",还能指出"在哪一帧、哪个位置"。 高效小模型:8B 参数版本性能碾压上一代 72B 模型,训练数据仅为竞品的 1/8。 完全开源:Apache 2.0 许可,提供三种架构选择,含全栈开源的 Olmo 版本。
🧠 三大模型变体,满足不同场景需求
| Molmo 2 (8B) | |||
| Molmo 2 (4B) | |||
| Molmo 2-O (7B) | 全栈开源 |
💡 小模型,大能量:Molmo 2 (8B) 在图像指代、视频追踪等任务上全面超越上一代 72B 的 Molmo,证明"精炼数据 + 精准目标"比盲目堆参数更有效。
📊 性能碾压:开源第一,闭源也难挡
Molmo 2 在多个维度刷新开源模型纪录:
视频追踪:大幅超越 Gemini 3 Pro 及所有开源 VLM(如 Sa2VA、SAM 2 联合方案)。 短视频问答:在 NextQA、PerceptionTest、MVBench 等 7 项基准平均得分开源第一。 人类偏好评估:8B 版本领先 Qwen3-VL-8B,甚至超过 GPT-5 和 Claude Sonnet 4.5。 视频计数与定位:唯一能通过"返回坐标+时间戳"回答"多少次"问题的开源模型。
🎯 举例:
问:"机器人几次抓起红色积木?" → 模型返回每次抓取的帧号 + 积木坐标。 问:"杯子什么时候掉的?" → 返回精确时间戳 + 掉落位置框。 问:"穿条纹衫的人何时秀肌肉?" → 自动追踪人物 ID,标记所有相关事件时空点。
🛠️ 技术亮点:为"接地"而生
Molmo 2 的核心设计理念是 Grounding(接地)——让语言与视觉信号在空间和时间上对齐。
统一架构:视觉编码器 + 轻量连接器 + 强大 LLM(Qwen 3 / Olmo)。 跨帧注意力:不同帧的视觉 token 可互相 attention,显著提升追踪稳定性。 SlowFast 推理策略:关键帧高分辨率 + 非关键帧低分辨率,兼顾精度与效率。 16,384 超长上下文:轻松处理长视频或多图输入。
📚 900 万+ 视频样本,打造高质量开源数据集
为训练 Molmo 2,AI2 构建了史上最大规模的视频接地数据集,包含 9 个全新子集:
Molmo2-Cap:10.4 万视频 + 43.1 万片段,每段配数百字密集描述。 Molmo2-VideoPoint:30 万+ 查询,用于训练"指物+计数"。 Molmo2-VideoTrack:支持自然语言查询的物体追踪(如"跟踪穿黄衣的女性")。 Molmo2-MultiImageQA:跨 2–5 张相关图像的复杂问答。
所有数据集将开源发布,助力社区构建更强大的视频理解系统。
🚀 立即体验
论文: https://arxiv.org/abs/2601.10611 项目: https://huggingface.co/collections/allenai/molmo2-data 仓库: https://github.com/allenai/molmo2
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论