本文将为您精心推荐15篇2025最新ACL多模态论文,涵盖图文理解、视频描述、跨模态检索、视觉问答、多模态推理、对话生成等核心方向。
扫码免费领取论文合集
【要点】本文提出了DALR方法,通过双级别对齐学习解决多模态句子表征学习中的跨模态错配偏差和模态内语义发散问题,提升了句子表征质量。
【方法】DALR方法包括一致性学习模块和排名蒸馏,一致性学习模块通过软化负样本和使用辅助任务的语义相似性实现细粒度的跨模态对齐,排名蒸馏与全局模态内对齐学习相结合,更好地捕捉句子关系。
【实验】在语义文本相似性(STS)和迁移(TR)任务上进行了全面实验,使用的数据集包括STS数据集,实验结果表明DALR方法在各项任务中均优于现有最先进基线。
2.Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers
【要点】本研究提出了MISS-QA基准,用以评估模型理解科学文献中示意图的能力,并发现现有模型与人类专家之间存在显著性能差距。
【方法】通过创建一个包含1500个专家标注示例,跨越465篇科学论文的MISS-QA基准,研究模型在理解示意图并回答基于文献更广泛背景的信息寻求型问题的能力。
【实验】使用MISS-QA数据集,评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型,发现模型在无法回答的问题上的表现和详细错误分析揭示了当前模型的优点和局限性。
【要点】本文提出了Agent-RewardBench,一个针对多模态大型语言模型(MLLMs)中奖励模型能力的统一基准,旨在通过多维度评价提高感知、规划和安全性方面的性能。
【方法】Agent-RewardBench通过结合多维度评价、步骤级别的奖励评估以及适当的难度和质量控制来评估MLLMs的奖励模型能力。
【实验】研究者在7种不同场景下,使用10种不同的模型进行实验,并通过手动验证确保数据集质量,实验结果显示即使是先进的模型在奖励模型方面也存在性能局限。
【要点】本研究提出了COSMMIC,一个包含九种主要印度语言的创新性注释敏感多模态多语种数据集,用于总结和标题生成,通过整合读者见解和反馈来增强摘要质量。
【方法】研究采用了结合文章文本、用户评论和图像的四种不同配置来探索总结和标题生成,使用LLama3和GPT-4等先进语言模型进行评估,并通过IndicBERT和CLIP-based分类器处理注释和图像。
【实验】实验在一个包含4,959篇文章图像对和24,484条读者评论的数据集上进行,评估了不同组件组合的效果,COSMMIC数据集有效地支持了自然语言生成任务的优化。
【要点】本文提出了一种新的框架,用于生成和优化文本-图像计划,以提高大型模型在提供文本-图像计划方面的能力,解决了模态间一致性和视觉步骤连贯性的挑战。
【方法】通过迭代的方式,框架在每个步骤中草拟文本步骤,编辑上一个视觉步骤,提取PDDL-like视觉信息,并使用这些信息精炼文本草稿。
【实验】作者使用了一个包含1,100个任务及其文本-图像对解决方案的新基准数据集,并在Mistral-7B、Gemini-1.5和GPT-4o等不同基干模型上评估了方法的有效性,结果显示了提出的框架在提高多模态一致性和连贯性方面的优势。
6.Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
【要点】本文提出了TempVS基准测试,用于评估多模态大型语言模型在图像序列中对事件时间顺序的抓取和推理能力,揭示了现有模型在理解事件时间顺序方面的不足。
【方法】通过设计包含事件关系推理、句子排序和图像排序三项测试的TempVS基准,结合基本的事件抓取测试,全面评估模型对事件时间顺序的理解。
【实验】在38个最先进的MLLMs上进行了测试,使用了TempVS基准数据集,结果显示模型在解决TempVS任务上的性能远低于人类能力。
扫码免费领取论文合集
没有评论:
发表评论