2026年1月19日星期一

融合Chat BI与Headless BI的AI数据平台开源

新一代AI+BI平台,结合自然语言交互与语义层驱动,实现智能查询、语义建模及可视化,降低分析门槛,提升决策效率。支持多数据源、权限控制与扩展生态,开源代码已发布。

商业数据分析平台开源!新一代 AI+BI 平台,融合 Chat BI(LLM 驱动)和 Headless BI(语义层驱动)范式

源代码

https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic

图片
图片
图片
图片


一个融合 Chat BI(LLM 驱动) 和 Headless BI(语义层驱动) 的新一代 AI+BI 平台,旨在通过统一两种范式,实现自然语言数据查询、语义模型构建、智能 SQL 生成和可视化展示等功能,降低数据分析门槛,提升企业数据决策效率。以下从项目定位、核心功能、技术架构和应用场景四个维度展开介绍:

一、项目定位:重新定义数据分析交互范式

传统 BI 工具依赖专业 SQL 技能或固定报表模板,而雷神数据引擎通过 自然语言交互(Chat BI) 和 语义层抽象(Headless BI),实现两大突破:

  • 业务用户友好
    :通过自然语言直接查询数据(如"Q3 华东区销售额同比变化"),无需编写 SQL。
  • 分析工程师赋能
    :通过构建统一语义模型,定义业务指标、维度和计算逻辑,实现数据治理与口径统一。

二、核心功能:覆盖数据分析全流程

1. Chat BI 界面(自然语言交互层)

  • 自然语言查询
    :支持输入业务问题(如"本月用户留存率"),自动解析为语义查询。
  • 多轮对话
    :基于上下文理解,支持追问(如"其中移动端占比多少?")。
  • 自动可视化
    :根据查询结果智能推荐图表类型(如折线图、饼图),支持一键导出。
  • 查询推荐
    :根据历史行为推荐相关问题,提升探索效率。

2. Headless BI 界面(语义模型管理层)

  • 语义模型构建
    :定义业务实体(如"用户""订单")、指标(如"GMV""DAU")和维度(如"时间""地区")。
  • 数据源连接
    :支持 PostgreSQL、MySQL、H2 等数据库,以及通过 API 接入外部数据。
  • 版本管理
    :跟踪语义模型变更历史,支持回滚与协作开发。
  • 模型测试
    :通过模拟查询验证语义逻辑正确性。

3. 语义解析与转换(核心引擎)

  • 双解析器架构
    • 规则引擎
      :处理常见查询模式,提升响应速度。
    • LLM 驱动引擎
      :基于大语言模型(如 GPT-4)解析复杂自然语言,支持上下文理解。
  • S2SQL 生成
    :将语义查询转换为优化后的 SQL,支持多表关联、子查询等复杂逻辑。
  • SQL 优化
    :通过索引推荐、查询重写等技术提升执行效率。

4. 知识库与模式映射

  • 语义模式提取
    :从语义模型中自动提取实体、属性及关系。
  • 词典管理
    :维护业务术语与数据库字段的映射关系(如"销售额" → order.amount)。
  • 智能映射
    :通过 NLP 技术自动关联自然语言与语义元素,减少人工配置。

5. 权限控制(数据安全)

  • 多层级权限
    • 数据集级
      :控制用户对特定数据源的访问权限。
    • 列级
      :限制敏感字段(如"用户手机号")的可见性。
    • 行级
      :基于条件过滤数据(如"仅显示本部门数据")。

6. 扩展能力(开放生态)

  • 插件机制
    :基于 Java SPI 支持自定义插件(如集成第三方数据源、自定义解析器)。
  • Chat 插件
    :扩展自然语言交互能力(如调用外部 API 获取天气数据)。
  • 问答记忆
    :记录用户历史查询,支持快速复用与修改。

三、技术架构:高性能与可扩展性

1. 后端技术栈

  • 编程语言
    :Java 21(支持虚拟线程、模式匹配等新特性)。
  • 框架
    :Spring Boot 3.3.9(快速开发、微服务支持)。
  • 数据库
    • PostgreSQL 17+
      :支持 pgvector 扩展,用于存储向量嵌入(如 LLM 生成的语义表示)。
    • MySQL 9.2+
      :兼容传统关系型数据源。
    • H2
      :开发测试环境使用,轻量级嵌入式数据库。
  • ORM
    :MyBatis 3.5.19 + MyBatis Plus 3.5.10.1(简化 CRUD 操作)。
  • 连接池
    :Druid 1.2.24(高性能、监控支持)。
  • API 文档
    :Knife4j(基于 Swagger UI 的增强版,支持在线调试)。

2. 关键技术亮点

  • LLM 集成
    :通过 API 调用大语言模型(如 OpenAI GPT-4、阿里通义千问),实现复杂语义解析。
  • 向量数据库
    :利用 PostgreSQL 的 pgvector 存储查询向量,支持相似性搜索(如"查找类似问题")。
  • 微服务架构
    :将语义解析、SQL 生成、权限控制等模块解耦,便于独立扩展与维护。

四、应用场景:覆盖企业数据全生命周期

1. 企业数据分析

  • 实时决策
    :业务人员通过自然语言快速获取关键指标(如"今日销售额"),支持即时决策。
  • 跨部门协作
    :统一语义模型确保不同部门对同一指标(如"活跃用户")的定义一致。

2. 数据自助分析

  • 非技术人员赋能
    :市场、运营等岗位无需依赖数据团队,自主完成复杂查询(如"分析不同渠道的用户转化率")。
  • 探索式分析
    :通过多轮对话逐步深入数据,发现潜在规律(如"先查销售额,再追问退货率")。

3. 数据治理平台

  • 口径统一
    :通过语义模型定义业务术语,避免"同名不同义"或"同义不同名"问题。
  • 影响分析
    :修改语义模型时,自动识别依赖该模型的数据集和报表,评估变更影响。

4. BI 工具增强

  • 现有系统升级
    :为 Tableau、Power BI 等工具提供自然语言查询入口,提升用户体验。
  • 嵌入式分析
    :将 Chat BI 界面集成到企业应用(如 CRM、ERP)中,实现数据随需而得。

5. 多数据源整合

  • 统一查询接口
    :屏蔽底层数据源差异(如 MySQL、Hive、API),支持跨源联合查询。
  • 数据虚拟化
    :无需物理整合数据,通过语义层实现逻辑统一,降低存储成本。



商业数据分析平台开源!新一代 AI+BI 平台,融合 Chat BI(LLM 驱动)和 Headless BI(语义层驱动)范式

源代码

https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic


没有评论:

发表评论

新AI复利工程:如何让AI越用越智能,成为你的专属资产

**** 本文提出"复利工程"这一核心概念,强调通过持续沉淀每次使用AI解决问题的经验,将其结构化积累为个人专属知识库。这能提升AI使用效率和答案质量,并实现跨领域能力迁移。文章剖析了"用完即走"的常见误区及障碍,并给出了具体实践方法:筛选...