中科大等联合提出MARIS框架,构建首个大规模细粒度水下开放词汇实例分割基准数据集,包含1.6万张图像、158个子类。通过几何先验增强与语义对齐注入,域内性能达56.71% mAP,跨域零样本泛化提升5.91%。代码已开源,适用于水下视觉、海洋研究与机器人领域。
Tags:
探索水下世界的"火眼金睛":MARIS框架引领开放词汇实例分割新纪元 在探索深邃而神秘的海洋世界时,准确识别和分割各种海洋生物及物体是海洋科学研究和水下机器人作业中的关键任务。然而,传统水下实例分割模型受限于"闭集"预测,难以应对深海中层出不穷的新物种。今天,我们为大家介绍一项突破性的研究成果—MARIS框架,它不仅构建了首个大规模细粒度水下开放词汇实例分割基准数据集,还提出了一套创新的算法框架,为水下视觉感知领域带来了革命性的变化。
相关链接
论文: https://arxiv.org/abs/2510.15398 代码: https://github.com/LiBingyu01/MARIS (已开源)
论文介绍
水下开放词汇实例分割(Open-Vocabulary Segmentation, OVS)旨在让模型能够根据任意文本描述分割出图像中的物体,即使这些物体在训练阶段从未被标注过。然而,这一技术在水下场景中的应用面临三大挑战:数据匮乏与标注粗糙、视觉退化严重、语义对齐缺失。
为了解决上述问题,来自中国科学技术大学、中国电信人工智能研究院、西北工业大学和复旦大学的研究团队共同提出了MARIS(Marine Open-Vocabulary Instance Segmentation)框架。该框架不仅构建了首个大规模细粒度水下开放词汇实例分割基准数据集,还设计了结合几何增强与语义对齐的创新算法。
方法概述
数据集构建:
规模与细粒度:MARIS数据集包含超过1.6万张图像,涵盖9个大类和158个细粒度子类,特别是鱼类识别细分为76种具体物种。 任务设置:设计了域内(In-domain)和跨域(Cross-domain)两种实验设置,以全面评估模型的性能。
核心模块:
几何先验增强模块(GPEM):利用物体稳定的几何结构(如鱼的轮廓、鳍的形状)来增强视觉特征,确保在视觉外观失效时仍能提供关键信息。 语义对齐注入机制(SAIM):通过设计水下感知提示词和自适应模板选择,动态增强语言嵌入,解决CLIP等视觉语言模型在水下场景中的语义对齐问题。
实验结果:
域内性能对比:
在MARIS数据集上直接训练和测试时,MARIS框架在开放词汇类别上达到了54.02%的mAP,整体性能达到56.71%,相比之前的最强模型提升了3.30%。
跨域性能对比:
在最具挑战性的跨域设置中(COCO训练->MARIS测试),MARIS的mAP达到了46.18%,比第二名高出5.91%,证明了其强大的零样本泛化能力。
定性分析:
分割效果图显示,MARIS能够生成更加精确的边缘掩码,即使在背景复杂或光线极差的情况下也能保持稳定的识别率。
结论
MARIS是首个大规模细粒度开放词汇水下实例分割基准数据集,旨在解决现有数据集粗粒度标签的局限性。该框架集成了 GPEM 以利用稳定的几何线索,并集成了 SAIM 以丰富语言先验,从而提升了在复杂水下环境下的分割性能。总体而言,MARIS 和提出的框架为复杂水下场景下的开放词汇分割提供了一个稳健的基准和方法。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论