该开源平台提供企业级数据中台核心功能,包括自动化元数据管理、数据质量监控(支持27种规则与跨表检查)、数据概览报告(分布与趋势分析)及插件化扩展。适用于金融、零售等多行业场景,采用Java/Spring Boot与React技术栈,支持Web配置与脚本导出,助力企业实现数据资产标准化与价值最大化。
企业级数据中台!开源!平台提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力
源代码
https://www.gitcc.com/pkusz-team/numbat-datacenter
开源项目介绍:企业级数据中台管理系统
项目定位:一款开源的企业级数据中台管理平台,致力于帮助用户全面掌控数据资产,通过自动化元数据管理、数据质量监控、数据概览分析等功能,实现数据资产的透明化、标准化和价值最大化。
一、核心功能概述
1. 数据目录管理(元数据管理)
- 自动化元数据采集
:定时扫描数据源(如数据库、数据仓库、API等),自动抽取表结构、字段类型、数据量等元信息,构建统一数据目录。 - 元数据变更监控
:实时跟踪元数据变更(如字段增删、表结构修改),通过邮件或消息通知相关人员。 - 标签化管理
:支持为数据表/字段添加业务标签(如"用户画像""交易数据"),便于分类检索和权限控制。 - 数据血缘分析
:追踪数据来源及流转路径,辅助影响分析和故障排查。
2. 数据质量监控
- 27种内置检查规则
:覆盖完整性(如空值率)、准确性(如枚举值校验)、一致性(如跨表关联字段匹配)等维度。 - 4种检查类型
: - 单表检查
:验证单表数据是否符合规则(如日期格式、数值范围)。 - 跨表准确性检查
:检查多表间数据一致性(如主外键关联、统计值匹配)。 - 两表值比对
:对比历史数据与当前数据的差异(如数据漂移检测)。 - 自定义SQL检查
:支持用户编写SQL脚本实现复杂校验逻辑。 - 定时任务与SLA告警
:配置检查任务执行周期,数据质量不达标时触发告警(邮件、短信、企业微信等)。
3. 数据概览报告
- 自动化数据探测
:定时扫描数据表,生成以下报告: - 列类型自动识别
:智能推断字段类型(如字符串、数值、日期)。 - 表行数趋势监控
:展示数据量随时间变化曲线,辅助容量规划。 - 数据分布分析
:统计字段值分布(如性别比例、地区分布),支持直方图/饼图可视化。 - 历史报告归档
:保留历史概览数据,支持趋势对比分析。
4. 插件化设计
- 模块化扩展
:支持以下组件的自定义插件开发: - 数据源插件
:接入新型数据源(如Hive、Kafka、MongoDB)。 - 检查规则插件
:扩展数据质量校验逻辑(如正则表达式校验、复杂业务规则)。 - 执行引擎插件
:替换默认调度引擎(如从Quartz切换到Airflow)。 - 告警通道插件
:集成更多通知方式(如钉钉、Slack)。
5. 多种运行模式
- Web页面配置
:通过可视化界面管理数据源、配置检查任务、查看报告。 - 在线生成作业脚本
:支持导出检查任务为Python/Shell脚本,便于集成到CI/CD流程。
二、典型应用场景
1. 金融行业
- 场景
:银行需确保交易数据完整性(如无缺失记录)、准确性(如金额非负)。 - 价值
:通过数据质量监控自动检测异常交易,减少人工审核成本,满足监管合规要求。
2. 零售与电商
- 场景
:商品库存数据需与销售数据实时同步,避免超卖。 - 价值
:通过跨表一致性检查,及时发现数据不一致问题,保障业务连续性。
3. 制造业
- 场景
:生产线传感器数据需定期校验,确保设备状态监控可靠。 - 价值
:利用单表检查规则(如数值范围、时间戳连续性)自动识别故障数据。
4. 政府与公共事业
- 场景
:人口普查数据需满足隐私保护(如脱敏处理)和统计准确性。 - 价值
:通过元数据标签管理标记敏感字段,结合数据质量规则验证统计结果。
5. 互联网企业
- 场景
:用户行为日志需快速分析分布特征(如地域、设备类型)。 - 价值
:数据概览报告自动生成可视化图表,辅助产品决策。
三、技术栈与架构优势
1. 后端技术栈
| 技术 | 版本 | 用途 |
|---|---|---|
| Java 8 | ||
| Spring Boot | ||
| Quartz | ||
| Jetty | ||
| PostgreSQL | ||
| ZooKeeper |
2. 前端技术栈
| 技术 | 版本 | 用途 |
|---|---|---|
| React 18 | ||
| Ant Design | ||
| Webpack 5 |
3. 架构优势
- 高扩展性
:插件化设计允许用户根据需求灵活扩展功能,避免"一刀切"式架构。 - 异构数据源支持
:通过数据源插件接入多种数据库(如MySQL、Oracle)和大数据平台(如Hive、HBase)。 - 云原生兼容
:支持容器化部署(Docker/Kubernetes),适配混合云环境。 - 低代码化
:Web界面配置降低使用门槛,非技术人员也可快速上手。
四、开源价值与生态贡献
- 降低企业数据治理成本
:提供开箱即用的数据中台能力,避免重复造轮子。 - 促进数据标准化
:通过统一元数据管理和质量规则,推动企业数据资产规范化。 - 社区协作创新
:鼓励开发者贡献插件(如新增数据源、检查规则),丰富平台生态。 - 学术研究支持
:可作为数据管理领域的教学案例或研究基准平台。
企业级数据中台!开源!平台提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力
源代码
https://www.gitcc.com/pkusz-team/numbat-datacenter
没有评论:
发表评论