2026年3月20日星期五

MARIS框架:首个大规模水下开放词汇实例分割基准,性能提升3。30%

中科大等联合提出MARIS框架,构建首个大规模细粒度水下开放词汇实例分割基准数据集,包含1.6万张图像、158个子类。通过几何先验增强与语义对齐注入,域内性能达56.71% mAP,跨域零样本泛化提升5.91%。代码已开源,适用于水下视觉、海洋研究与机器人领域。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

探索水下世界的"火眼金睛":MARIS框架引领开放词汇实例分割新纪元 在探索深邃而神秘的海洋世界时,准确识别和分割各种海洋生物及物体是海洋科学研究和水下机器人作业中的关键任务。然而,传统水下实例分割模型受限于"闭集"预测,难以应对深海中层出不穷的新物种。今天,我们为大家介绍一项突破性的研究成果—MARIS框架,它不仅构建了首个大规模细粒度水下开放词汇实例分割基准数据集,还提出了一套创新的算法框架,为水下视觉感知领域带来了革命性的变化。

图片

unsetunset相关链接unsetunset

  • 论文: https://arxiv.org/abs/2510.15398
  • 代码: https://github.com/LiBingyu01/MARIS (已开源)

unsetunset论文介绍unsetunset

图片

水下开放词汇实例分割(Open-Vocabulary Segmentation, OVS)旨在让模型能够根据任意文本描述分割出图像中的物体,即使这些物体在训练阶段从未被标注过。然而,这一技术在水下场景中的应用面临三大挑战:数据匮乏与标注粗糙、视觉退化严重、语义对齐缺失。

为了解决上述问题,来自中国科学技术大学、中国电信人工智能研究院、西北工业大学和复旦大学的研究团队共同提出了MARIS(Marine Open-Vocabulary Instance Segmentation)框架。该框架不仅构建了首个大规模细粒度水下开放词汇实例分割基准数据集,还设计了结合几何增强与语义对齐的创新算法。

图片

unsetunset方法概述unsetunset

图片

数据集构建:

图片
  • 规模与细粒度:MARIS数据集包含超过1.6万张图像,涵盖9个大类和158个细粒度子类,特别是鱼类识别细分为76种具体物种。
  • 任务设置:设计了域内(In-domain)和跨域(Cross-domain)两种实验设置,以全面评估模型的性能。

核心模块:

  • 几何先验增强模块(GPEM):利用物体稳定的几何结构(如鱼的轮廓、鳍的形状)来增强视觉特征,确保在视觉外观失效时仍能提供关键信息。
  • 语义对齐注入机制(SAIM):通过设计水下感知提示词和自适应模板选择,动态增强语言嵌入,解决CLIP等视觉语言模型在水下场景中的语义对齐问题。

unsetunset实验结果:unsetunset

域内性能对比:

图片

在MARIS数据集上直接训练和测试时,MARIS框架在开放词汇类别上达到了54.02%的mAP,整体性能达到56.71%,相比之前的最强模型提升了3.30%。

跨域性能对比:

图片

在最具挑战性的跨域设置中(COCO训练->MARIS测试),MARIS的mAP达到了46.18%,比第二名高出5.91%,证明了其强大的零样本泛化能力。

定性分析:

分割效果图显示,MARIS能够生成更加精确的边缘掩码,即使在背景复杂或光线极差的情况下也能保持稳定的识别率。

unsetunset结论unsetunset

MARIS是首个大规模细粒度开放词汇水下实例分割基准数据集,旨在解决现有数据集粗粒度标签的局限性。该框架集成了 GPEM 以利用稳定的几何线索,并集成了 SAIM 以丰富语言先验,从而提升了在复杂水下环境下的分割性能。总体而言,MARIS 和提出的框架为复杂水下场景下的开放词汇分割提供了一个稳健的基准和方法。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

开源AI+BI平台Deep Super:自然语言查询+语义模型,数据分析效率提升

Deep Super是一个开源的工程化AI+BI平台,融合Chat BI与Headless BI两大范式,支持自然语言数据查询、语义模型构建、智能SQL生成和自动可视化展示。适合业务人员自助分析、分析师建模、企业IT团队快速搭建BI平台。开源免费,支持Docker部署和本地构建,无需修改原始数据,降低数据驱动门槛。

Tags:

BI平台开源,完整的 商业数据分析平台开源

源代码

https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic

一个工程化的 AI+BI 平台,通过统一 Chat BI 和 Headless BI 两种范式,实现对以下场景的精准支持:

  • 自然语言数据查询
    :业务用户使用自然语言直接查询数据,无需了解 SQL
  • 语义模型构建
    :分析工程师构建统一的语义数据模型,实现数据治理
  • 智能 SQL 生成
    :基于语义模型的上下文增强,提高 Text2SQL 的准确性和可靠性
  • 可视化展示
    :自动选择合适的图表类型,直观展示查询结果


图片
图片
图片


开源工程化 AI+BI 平台深度解析

一、平台定位与核心架构


Deep Super 是一个开源的工程化 AI+BI 平台,创新性融合 Chat BI(对话式分析) 与 Headless BI(语义层驱动) 两大范式,旨在解决传统 BI 系统操作复杂、Chat BI 可靠性不足的痛点。其核心架构包含以下模块:

  • Chat BI 引擎
    :基于大语言模型(LLM)实现自然语言到 SQL 的转换,支持多轮对话、自动补全和结果推荐。
  • Headless BI 语义层
    :构建统一的业务语义模型,定义指标、维度及实体关系,确保数据口径一致。
  • 智能 SQL 生成器
    :通过语义上下文增强 Text2SQL 准确性,减少 LLM 幻觉,降低复杂 SQL 生成难度。
  • 可视化引擎
    :自动匹配图表类型(如柱状图、折线图、地理空间图),支持交互式仪表盘和实时数据监控。



二、核心功能详解



  1. 自然语言数据查询
    • 用户场景
      :业务人员无需编写 SQL,通过自然语言(如"近 3 个月各产品销售额排行")直接查询数据。
    • 技术实现
      :结合语义层解析业务术语,生成精准 SQL 并返回可视化结果,支持多轮对话和查询后问题推荐。
    • 优势
      :降低技术门槛,提升查询效率,避免"提需求-等分析师"的低效循环。
  2. 语义模型构建
    • 用户场景
      :分析工程师通过 Headless BI 界面定义指标(如 GMV、转化率)、维度(如时间、地域)及实体关系(如用户-订单关联)。
    • 技术实现
      :采用模块化设计,支持指标公式定义、聚合方式配置、维度层级管理,并建立语义关系网络(如通过 SemanticRelation 类配置模型关联条件)。
    • 优势
      :统一数据口径,减少重复建模工作,为数据治理提供基础。
  3. 智能 SQL 生成
    • 规则引擎
      :内置基于规则的语义解析器,处理标准化查询(如"求和""分组"),推理效率翻倍。
    • LLM 增强
      :在复杂查询中,语义层提供上下文(如指标定义、数据关系),减少 LLM 幻觉,提升 SQL 准确性。
    • 技术实现
    • 优势
      :兼顾灵活性(自然语言交互)与可靠性(语义层约束)。
  4. 可视化展示
    • 技术实现
      :集成 ECharts、D3.js 等库,支持多种图表类型;通过语义模型自动匹配最佳可视化方式(如时间序列数据自动生成折线图)。
    • 优势
      :降低可视化门槛,支持交互式探索(如钻取、联动),提升数据洞察效率。



三、典型应用场景



  1. 业务用户自助分析
    • 场景
      :销售团队查询区域业绩,市场部门分析用户行为。
    • 价值
      :无需依赖 IT 或分析师,快速获取数据洞察,支持实时决策。
  2. 企业级数据治理
    • 场景
      :统一跨部门指标定义(如"活跃用户"),避免数据歧义。
    • 价值
      :通过语义层构建单一数据源,提升数据一致性和可信度。
  3. 敏捷数据实验
    • 场景
      :产品团队快速验证新功能效果,运营团队测试不同营销策略。
    • 价值
      :支持快速迭代和业务试错,降低数据实验成本。
  4. 多源数据整合
    • 场景
      :整合 ERP、CRM、日志系统等异构数据源。
    • 价值
      :通过语义层映射物理表字段到业务术语,实现"一个平台看全业务"。



四、技术价值与行业影响



  1. 技术突破
    • 双向赋能
      :Chat BI 与 Headless BI 融合,解决传统方案"易用性 vs 准确性"的矛盾。
    • 零数据侵入
      :无需修改原始数据,仅在物理模型上构建逻辑语义层,降低实施风险。
    • 插件化架构
      :支持 Java SPI 机制扩展核心组件(如语义解析器、问答插件),满足个性化需求。
  2. 行业影响
    • 开源生态
      :打破商业 BI 垄断,降低中小企业数据驱动门槛。
    • 数据民主化
      :推动自然语言交互成为主流分析方式,使非技术人员也能参与数据分析。
    • AI+BI 融合
      :为 LLM 在企业级应用中提供可靠范式,加速 AI 技术落地。


五、部署与体验方式



  1. 线上环境
    :访问 Demo 地址,注册后直接体验(每周重启重置)。
  2. Docker 部署

    bash

    docker-compose up -d
    浏览器访问 http://localhost:9080
  3. 本地构建
    :下载发行包后,运行 assembly/bin/supersonic-daemon.sh start 启动服务。



六、适用用户群体


  • 业务人员
    :快速查询数据、生成报表,告别低效需求流程。
  • 数据分析师
    :聚焦核心分析任务,减少重复建模工作。
  • 企业 IT 团队
    :快速搭建企业级 BI 平台,支持权限管控和插件扩展。
  • 开发者
    :学习 Chat BI 与 Headless BI 融合架构,基于开源框架二次开发。


BI平台开源,完整的 商业数据分析平台开源

源代码

https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic

一个工程化的 AI+BI 平台,通过统一 Chat BI 和 Headless BI 两种范式,实现对以下场景的精准支持:

  • 自然语言数据查询
    :业务用户使用自然语言直接查询数据,无需了解 SQL
  • 语义模型构建
    :分析工程师构建统一的语义数据模型,实现数据治理
  • 智能 SQL 生成
    :基于语义模型的上下文增强,提高 Text2SQL 的准确性和可靠性
  • 可视化展示
    :自动选择合适的图表类型,直观展示查询结果


MARIS框架:首个大规模水下开放词汇实例分割基准,性能提升3。30%

中科大等联合提出MARIS框架,构建首个大规模细粒度水下开放词汇实例分割基准数据集,包含1.6万张图像、158个子类。通过几何先验增强与语义对齐注入,域内性能达56.71% mAP,跨域零样本泛化提升5.91%。代码已开源,适用于水下视觉、海洋研究与机器人领域。 Tags: ...