新一代AI+BI平台,结合自然语言交互与语义层驱动,实现智能查询、语义建模及可视化,降低分析门槛,提升决策效率。支持多数据源、权限控制与扩展生态,开源代码已发布。
商业数据分析平台开源!新一代 AI+BI 平台,融合 Chat BI(LLM 驱动)和 Headless BI(语义层驱动)范式
源代码
https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic
一个融合 Chat BI(LLM 驱动) 和 Headless BI(语义层驱动) 的新一代 AI+BI 平台,旨在通过统一两种范式,实现自然语言数据查询、语义模型构建、智能 SQL 生成和可视化展示等功能,降低数据分析门槛,提升企业数据决策效率。以下从项目定位、核心功能、技术架构和应用场景四个维度展开介绍:
一、项目定位:重新定义数据分析交互范式
传统 BI 工具依赖专业 SQL 技能或固定报表模板,而雷神数据引擎通过 自然语言交互(Chat BI) 和 语义层抽象(Headless BI),实现两大突破:
- 业务用户友好
:通过自然语言直接查询数据(如"Q3 华东区销售额同比变化"),无需编写 SQL。 - 分析工程师赋能
:通过构建统一语义模型,定义业务指标、维度和计算逻辑,实现数据治理与口径统一。
二、核心功能:覆盖数据分析全流程
1. Chat BI 界面(自然语言交互层)
- 自然语言查询
:支持输入业务问题(如"本月用户留存率"),自动解析为语义查询。 - 多轮对话
:基于上下文理解,支持追问(如"其中移动端占比多少?")。 - 自动可视化
:根据查询结果智能推荐图表类型(如折线图、饼图),支持一键导出。 - 查询推荐
:根据历史行为推荐相关问题,提升探索效率。
2. Headless BI 界面(语义模型管理层)
- 语义模型构建
:定义业务实体(如"用户""订单")、指标(如"GMV""DAU")和维度(如"时间""地区")。 - 数据源连接
:支持 PostgreSQL、MySQL、H2 等数据库,以及通过 API 接入外部数据。 - 版本管理
:跟踪语义模型变更历史,支持回滚与协作开发。 - 模型测试
:通过模拟查询验证语义逻辑正确性。
3. 语义解析与转换(核心引擎)
- 双解析器架构
: - 规则引擎
:处理常见查询模式,提升响应速度。 - LLM 驱动引擎
:基于大语言模型(如 GPT-4)解析复杂自然语言,支持上下文理解。 - S2SQL 生成
:将语义查询转换为优化后的 SQL,支持多表关联、子查询等复杂逻辑。 - SQL 优化
:通过索引推荐、查询重写等技术提升执行效率。
4. 知识库与模式映射
- 语义模式提取
:从语义模型中自动提取实体、属性及关系。 - 词典管理
:维护业务术语与数据库字段的映射关系(如"销售额" → order.amount)。 - 智能映射
:通过 NLP 技术自动关联自然语言与语义元素,减少人工配置。
5. 权限控制(数据安全)
- 多层级权限
: - 数据集级
:控制用户对特定数据源的访问权限。 - 列级
:限制敏感字段(如"用户手机号")的可见性。 - 行级
:基于条件过滤数据(如"仅显示本部门数据")。
6. 扩展能力(开放生态)
- 插件机制
:基于 Java SPI 支持自定义插件(如集成第三方数据源、自定义解析器)。 - Chat 插件
:扩展自然语言交互能力(如调用外部 API 获取天气数据)。 - 问答记忆
:记录用户历史查询,支持快速复用与修改。
三、技术架构:高性能与可扩展性
1. 后端技术栈
- 编程语言
:Java 21(支持虚拟线程、模式匹配等新特性)。 - 框架
:Spring Boot 3.3.9(快速开发、微服务支持)。 - 数据库
: - PostgreSQL 17+
:支持 pgvector扩展,用于存储向量嵌入(如 LLM 生成的语义表示)。 - MySQL 9.2+
:兼容传统关系型数据源。 - H2
:开发测试环境使用,轻量级嵌入式数据库。 - ORM
:MyBatis 3.5.19 + MyBatis Plus 3.5.10.1(简化 CRUD 操作)。 - 连接池
:Druid 1.2.24(高性能、监控支持)。 - API 文档
:Knife4j(基于 Swagger UI 的增强版,支持在线调试)。
2. 关键技术亮点
- LLM 集成
:通过 API 调用大语言模型(如 OpenAI GPT-4、阿里通义千问),实现复杂语义解析。 - 向量数据库
:利用 PostgreSQL 的 pgvector存储查询向量,支持相似性搜索(如"查找类似问题")。 - 微服务架构
:将语义解析、SQL 生成、权限控制等模块解耦,便于独立扩展与维护。
四、应用场景:覆盖企业数据全生命周期
1. 企业数据分析
- 实时决策
:业务人员通过自然语言快速获取关键指标(如"今日销售额"),支持即时决策。 - 跨部门协作
:统一语义模型确保不同部门对同一指标(如"活跃用户")的定义一致。
2. 数据自助分析
- 非技术人员赋能
:市场、运营等岗位无需依赖数据团队,自主完成复杂查询(如"分析不同渠道的用户转化率")。 - 探索式分析
:通过多轮对话逐步深入数据,发现潜在规律(如"先查销售额,再追问退货率")。
3. 数据治理平台
- 口径统一
:通过语义模型定义业务术语,避免"同名不同义"或"同义不同名"问题。 - 影响分析
:修改语义模型时,自动识别依赖该模型的数据集和报表,评估变更影响。
4. BI 工具增强
- 现有系统升级
:为 Tableau、Power BI 等工具提供自然语言查询入口,提升用户体验。 - 嵌入式分析
:将 Chat BI 界面集成到企业应用(如 CRM、ERP)中,实现数据随需而得。
5. 多数据源整合
- 统一查询接口
:屏蔽底层数据源差异(如 MySQL、Hive、API),支持跨源联合查询。 - 数据虚拟化
:无需物理整合数据,通过语义层实现逻辑统一,降低存储成本。
商业数据分析平台开源!新一代 AI+BI 平台,融合 Chat BI(LLM 驱动)和 Headless BI(语义层驱动)范式
源代码
https://www.gitcc.com/pkusdemo/gcc-dpqq-supersonic
没有评论:
发表评论