Ai2发布Molmo2开源多模态模型家族,包含多个尺寸版本。该模型在视频理解与Grounding任务中表现卓越,在多项基准测试中超越Qwen3-VL等开源模型,部分任务性能直逼Gemini 3 Pro。其关键贡献包括发布9个全新高质量开源数据集,并提出高效训练方案。Molmo2支持单图、多图及视频输入,具备出色的指向与跟踪能力。
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Ai2等
论文链接:https://arxiv.org/pdf/2601.10611
代码链接:https://github.com/allenai/molmo2
demo:https://playground.allenai.org/?model=molmo2-8b
模型:https://huggingface.co/allenai/Molmo2-4B 、https://huggingface.co/allenai/Molmo2-8B 、https://huggingface.co/allenai/Molmo2-O-7B
数据:https://huggingface.co/collections/allenai/molmo2-data
亮点直击
推出Molmo2模型家族: 本文介绍了Molmo2,这是一系列开源的视觉语言模型(VLM),旨在成为开源领域中的最先进模型。Molmo2在单图像、多图像和视频任务中展示了卓越的点击驱动Grounding能力。 创建并开源大量高质量数据集: 发布了一系列全新的高质量数据集,包括7个视频数据集和2个多图像数据集。这些数据集的独特之处在于它们完全独立收集,不依赖任何专有VLM的合成数据,从而为开源社区提供了透明且可信赖的训练资源。具体包括用于预训练的高度详细视频字幕数据集、用于微调的自由形式视频问答数据集、具有复杂查询的新对象跟踪数据集以及创新的视频指向数据集。 提出创新的训练方法: 提出了一种高效的训练方案,包括利用高效打包和消息树编码方案,以优化数据处理。此外,Molmo2模型还在视觉token上应用了双向注意力机制,并采用了一种新颖的token权重策略,这些都显著提升了模型的性能。 实现领先的性能表现: Molmo2在多个关键基准上取得了优异的成绩。在短视频、计数和字幕方面,Molmo2在开源模型中达到了最先进的水平。在视频Grounding任务上,Molmo2显著优于现有的开源模型(如Qwen3-VL),并在一些任务中甚至超越了专有模型(如Gemini 3 Pro),特别是在视频指向和视频跟踪方面。
总结速览
解决的问题
当前最强大的视频语言模型(VLM)多为专有,限制了开源社区的进展。 现有的开源模型要么依赖专有VLM的合成数据进行知识蒸馏,要么不公开其训练数据和方法,导致开源社区缺乏改进现有最先进VLM的基础。 许多下游应用不仅需要高层视频理解,还需要"接地"(grounding)能力,即通过指向或像素跟踪来定位目标,而这一能力即使是专有模型也普遍缺乏。
提出的方案
提出了Molmo2,一个全新的VLM系列,旨在成为开源模型中的最先进者。 贡献了一系列全新的数据集:7个视频数据集和2个多图像数据集,这些数据集的收集完全不依赖封闭式VLM。 针对数据提出了高效的打包和消息树编码训练方案。
应用的技术
采用了将预训练的LLM和视觉Transformer(ViT)通过连接器模块结合的架构。 在视觉token上引入了双向注意力机制。 采用了一种新颖的token权重策略,以平衡不同长度输出任务的训练。 开发了即时打包算法,以高效处理不同长度的训练示例。 使用消息树对具有多个注释的视频和图像进行编码。
达到的效果
在单图像、多图像和视频任务中展示了卓越的点击驱动Grounding能力。 在开源模型中达到了SOTA水平,尤其在短视频、计数和字幕方面表现突出。 在视频Grounding任务上显著优于现有开源模型(如Qwen3-VL,在视频计数准确率上Molmo2达到35.5% vs 29.6%)。 在某些任务上甚至超越了专有模型(如Gemini 3 Pro,在视频指向F1分数上Molmo2达到38.4% vs 20.0%,在视频跟踪J&F分数上达到56.2% vs 41.1%)。 在人工偏好方面与Llama3-V和Qwen3-VL等其他开源权重模型排名相同或更好,并远超以前的完全开源模型。 在图像指向任务中,在Point-Bench排行榜上超越了所有其他模型和最新的专用指向模型Poivre。
训练
架构
Molmo2的模型架构遵循将预训练的LLM和视觉Transformer(ViT)通过连接器模块组合的常见设计。视觉输入被分割或调整为固定大小的裁剪,并通过ViT编码为补丁级特征。然后,补丁级特征通过连接器进行池化和投影,并作为视觉token以及任何文本输入传递给LLM。如下图2所示:
裁剪。 对于输入图像,本文使用缩放图像的单个裁剪以及最多K个重叠裁剪来平铺图像,以实现更高分辨率的处理。无法通过K个裁剪平铺的图像将被缩放。训练期间使用K = 8,推理期间使用K = 24。对于视频,本文以S = 2 fps采样帧作为单个裁剪(如果需要则缩放),以降低处理长视频时的计算成本。本文设置最大帧数为F = 128(长上下文训练为F = 384)。如果视频长度超过F/S,本文均匀采样F帧。在两种情况下,最后一帧始终包含在内,因为大多数视频播放器在视频播放结束后都会显示最后一帧,因此它可能对用户具有特殊重要性。
视觉语言连接器。 连接器使用来自ViT倒数第三层和倒数第九层的特征,遵循文献[29]。对于图像,2×2补丁窗口通过多头注意力层池化为一个向量,其中补丁的平均值作为查询。对于视频帧,则使用3×3补丁窗口以减少token数量。本文对图像和视频帧池化的连接器使用相同的共享参数。最后,池化特征使用共享MLP进行投影。
LLM。 LLM将视觉token与文本时间戳(用于视频)或图像索引(用于多图像输入)交错作为输入。对于多裁剪图像,本文包含列token以指示图像的纵横比。本文不为单裁剪图像包含列token,因为它们始终是正方形的。本文还添加了图像和帧开始token,并包含字幕(用文本时间戳标记)作为视觉输入后的文本(如果可用)。允许图像token(即使它们来自不同的帧/图像)相互前向注意力,本文发现这可以提高性能。
训练
本文采用简单的三阶段设计:轻量级仅图像预训练阶段、视频/图像联合监督微调(SFT)阶段,然后是短期长上下文SFT阶段。在Molmo2数据、PixMo的图像数据和各种开源数据集上进行训练。
预训练。 本文的预训练阶段包括使用PixMo-Cap进行长度条件下的密集字幕和转录预测,遵循[29]。本文添加了使用Tulu的监督微调数据(过滤掉非英语内容和代码)的NLP数据,以更好地保留语言能力。此外,本文添加了来自PixMo-Points、PixMo-Count和CoSyn-Point的指向数据。本文发现,在预训练期间添加指向数据可以带来更好、更稳定的指向性能。本文使用60%的字幕、30%的图像指向和10%的自然语言混合比例。本文训练了32k步,批处理大小为128,这导致在PixMo-Cap上进行了大约4个epoch的训练。所有参数都进行了微调,本文遵循[29]为ViT、连接器和LLM使用单独的学习率。
SFT。 本文的数据混合结合了PixMo、Molmo2数据集、Tulu和其他开源视频和图像数据集。本文将这些数据集分为几类,并根据经验测试手动为每个类别分配采样率;如表1所示。在每个类别中,本文按每个数据集大小的平方根按比例采样数据集,并进行一些手动重新平衡,例如对大型合成数据集进行降采样。本文训练了30k步,批处理大小为128,最大序列长度为16,384。
长上下文SFT。 最后,本文使用更长的上下文长度在相同的SFT数据混合上进行第三阶段训练。在此阶段,本文将序列长度增加到36,864,设置F = 384,训练2k步,并在LLM上使用上下文并行(CP),以便每个示例由一组8个GPU处理。本文为LLM上下文并行使用Ulysses注意力,因为它的全收集(all-gather)为本文的打包和消息树系统使用的自定义注意力掩码提供了灵活性。本文还将视觉编码器和注意力池化后的视频帧处理分布到每个上下文并行组,并发现它在减少模型内存占用方面非常有效。本文仅将长上下文训练作为短期的最终训练阶段,因为它会给训练带来显著的开销。
指向和跟踪。 本文使用压缩的纯文本格式表示点坐标,其中包括归一化的x和y坐标、时间戳(用于视频)或图像索引(用于图像)以及每个不同对象的唯一整数ID,以实现跟踪和计数。点按时间/图像索引排序,然后按x、y坐标排序。在SFT期间,本文对30%具有指向注释的图像使用最多24个裁剪而不是8个裁剪,以确保指向可以推广到高分辨率图像。对于视频指向,本文使用最多60个点注释的示例进行训练。此外,本文构建并训练了具有多个指向或计数查询的同一视频的多轮对话。对于跟踪,本文还添加了仅预测对象出现的第一帧和最后一帧,或从输入查询和点进行跟踪的辅助任务。
Token加权。 本文的数据包括具有单个输出token的多项选择题和具有4,000多个输出token的长视频字幕。这些长输出示例即使采样频率很低,也很容易成为损失token的绝大部分,这可能导致在短答案或多项选择任务上的性能下降。作为解决方案,本文在用于损失时调整某些示例的权重。本文对视频字幕使用固定的0.1权重,对指向使用0.2权重,因为这两个任务都可以具有非常长、密集的输出。对于其他任务,本文遵循 的启发式方法,其中n是答案token的数量,这更好地平衡了长短输出训练示例。
打包。 示例的token数量从几百(纯文本或小图像)到16k以上(带字幕的视频或长上下文训练期间的长视频)不等。为了避免在创建训练批次时浪费填充,本文使用打包将多个短示例合并为一个长序列。由于需要高效地打包ViT的裁剪和LLM的token,以及需要支持具有不同图像/视频转换token方法的模型,打包对于视觉语言模型来说并非易事。本文开发了一种即时打包算法,该算法从少量内存中的示例构建最大效率的打包序列,并且可以集成到标准PyTorch数据加载器中。
消息树。 将带有多重标注的视频和图片编码为消息树。视觉输入被编码为第一条消息,每个标注都变成不同的分支。该树线性化为单一序列,并带有自定义的注意力掩码,以防止分支相互交叉关注。平均来看,我们数据中的示例有4个标注,打包能够在SFT中将3.8个样本放入16348个token序列,从而实现15倍的训练效率。图3显示了注意力masking:
实验
介绍下Molmo2模型的各种评估,包括整体表现、Grounding能力和图像结果。
整体表现
为了进行人工偏好研究,本文收集了人类标注者提出的问题,并手动筛选以优先考虑开放式问题而非直接问题,最终得到450个问题。本文还增加了51个视频用于字幕查询。本文对两个模型输出进行抽样,并收集标注者对它们进行成对偏好评估。本文收集了超过10.5万个评分(每个模型对501个)。本文使用Bradley-Terry模型从这些数据中计算出Elo排名。
在推理过程中,本文使用384帧和贪婪解码。对于人工评估和视频字幕,本文使用top_p=0.95、temperature=0.7和frequency_penalty=0.1,这在生成长输出时会产生更自然的结果。
结果如表2所示;
本文列举了几个主要发现:
Molmo2在非专有模型中,在短视频基准、字幕和计数方面达到了最先进的水平。 Molmo2优于以前的完全开源模型,但落后于最好的开源权重模型。本文认为这是由于缺乏开源的长(10分钟以上)训练数据和计算限制,使得进行广泛的超长上下文训练变得困难。 Molmo2在人工偏好方面与Llama3-V和Qwen3-VL等其他开源权重模型排名相同或更好,并且远超以前的完全开源模型。
Grounding结果
视频计数和指向。 对于计数,本文还在BURST-VideoCount上进行评估,这是一个从BURST测试集的真实轨迹中提取的2.2k示例的计数基准。本文报告了"接近准确率"指标(如果,其中,则视为正确),该指标奖励接近正确答案的预测。对于指向,本文通过运行SAM 2 在Molmo2-VideoPoint中注释的空间-时间点周围3秒窗口内收集对象分割掩模,并手动过滤掉具有不正确掩模的示例,最终得到181个示例,从而构建了Molmo2-VideoPointVal(Molmo2-VP)。对于视频指向,本文报告了F1、召回率和预测指标,衡量生成点与真实掩模的匹配程度。
结果如下表3所示。Molmo2在接近准确率指标上表现出色,超过了GPT-5。对于Molmo2-VP,本文仔细调整了提示,并尝试了基线模型的点和边界框格式;然而,本文未能找到能够实现非常强大性能的配方。Gemini 3 Pro达到了最佳分数,但Molmo2仍然显著优于它。
视频对象跟踪。 在引用视频对象分割(VOS)基准上评估视频跟踪,如果一个点位于真实分割掩模内,则认为该点是正确的。本文还引入了Molmo2-Track,一个涵盖更多不同领域、具有复杂对象运动和遮挡的基准,以评估Molmo2在更具挑战性和现实的跟踪任务中的表现(详见附录)。遵循[3],本文使用SAM 2将点预测转换为分割掩模进行评估。本文报告了Jaccard和F-measure(J&F)指标,用于衡量所有帧的分割质量,以及1 fps点的F1分数。对于API模型,本文生成边界框并提取其中心点,因为它们无法生成准确的点。下表4-5显示了结果:1) Molmo2在所有基准上都优于所有基线,包括专门的分割模型(灰色部分),特别是在ReasonVOS和Molmo2-Track上表现出色,这两个基准需要复杂的推理和遮挡处理能力。2) Gemini 2.5 Pro是最强的API模型,但它仍然难以生成准确的对象轨迹。
图像结果
在下表6中展示了图像和多图像基准测试结果。遵循Molmo的评估协议,并报告了单图像基准的相同11个基准平均值。与视频一样,本文在需要时自行测试了所有模型的结果。
总的来说,Molmo2稳健地优于以前的开放数据模型。Molmo2在OCR密集型基准(如DocVQA或InfoQA)上略低于最佳开源权重模型,但在通用问答任务上表现出色,包括在VQA v2.0和RealWorldQA (RWQA) 上达到最先进的性能。计数也是一个优势,尤其是在具有挑战性的PixMo-Count测试集上。然而,Molmo2在开源权重推理基准(MathVista,MMMU)上落后,这可能是由于缺乏多模态推理训练数据。
在多图像任务上,Molmo2与大多数开源权重模型具有竞争力,但GLM-4.1V-9B除外,它明显领先于所有其他模型。
本文评估了Point-Bench上的图像指向,结果如下表7所示。Molmo2在Point-Bench排行榜上超越了所有其他模型,以及最近的专用指向模型Poivre。本文将指向能力的提升归因于改进的视觉编码器、指向预训练和token加权。
消融实验和专用模型
接下来,将对模型、训练策略和数据进行消融实验。为了避免训练完整模型的高计算成本,在数据的子集上训练了专门的4B模型,并将其用于消融实验。这些表格使用灰色行显示具有默认设置的专用模型;
视频消融实验。 下表8显示了仅视频和仅视频字幕数据的结果和消融实验。本文发现视频问答数据对字幕有积极的迁移作用(表8a),反之亦然(表8c)。表8b显示双向注意力和token加权都提高了问答性能,尽管token加权会略微降低字幕性能。同时,移除帧时间戳会降低这两个指标,表明包含时间信息很重要,特别是对于字幕。将视频池大小从3x3增加到4x4会略微降低问答性能,但会导致字幕质量显著下降。本文认为这是因为视频基准相对高级,不需要理解小细节,因此减小池化大小并没有太大害处。这说明了除了其他基准之外,跟踪字幕指标的重要性,因为它需要对视频进行更细粒度的理解。最后,仅基于人类转录(V)的字幕模型比包含帧级字幕(VF)的模型产生更差的结果,但训练这些字幕的混合物并不会带来更好的结果。
总结
Molmo2,一套开源的视觉语言模型,在视频理解和Grounding能力方面取得了显著的进展。Molmo2在单图像、多图像和视频任务中展现了卓越的Grounding能力,并在多个基准测试中超越了现有开源模型,甚至在某些任务上超越了专有模型。
Molmo2的关键贡献在于其独特的数据集集合,包括7个新的视频数据集和2个多图像数据集。这些数据集的收集未依赖于封闭式VLM,从而为开源社区提供了宝贵资源。特别值得一提的是,这些数据集涵盖了高度详细的视频字幕、自由形式的视频问答、具有复杂查询的新型对象跟踪以及创新的视频指向任务。
在训练方面,Molmo2采用了高效的打包和消息树编码方案,并引入了视觉token上的双向注意力以及新颖的token权重策略,这些都显著提升了模型的性能。实验结果表明,Molmo2的8B模型在短视频、计数和字幕任务上表现出色,并在长视频任务上具有竞争力。在视频Grounding方面,Molmo2的表现尤为突出,显著优于Qwen3-VL等现有开源模型,并在视频指向和视频跟踪等任务上超越了Gemini 3 Pro等专有模型。
本工作还详细讨论了Molmo2的架构和训练流程,并进行了全面的消融实验,以探究不同组件对模型性能的影响。实验结果验证了双向注意力、token加权和时间信息对于提升模型性能的重要性。
尽管Molmo2取得了显著成就,但本工作也指出了其存在的一些局限性,例如在OCR密集型任务上的表现略逊于某些开源权重模型,以及视频Grounding任务的固有复杂性和长视频Grounding支持的限制。未来,本工作计划通过收集更多高计数示例、优化点跟踪数据生成流程以及探索更有效的长视频处理策略来进一步改进Molmo2模型。
Molmo2的发布及其高质量的开源数据集,无疑为视觉语言模型的研究和开发注入了新的活力,有望推动该领域迈向新的高度。
参考文献
[1] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论