2025年10月3日星期五

开源:基于spark 的数据集成平台

基于spark 的数据集成平台源代码https://www.gitpp.com/streamlit/proje

基于spark 的数据集成平台

源代码

https://www.gitpp.com/streamlit/project-datatunnel

一个基于spark引擎的超高性能的分布式数据集成软件,支持海量数据的同步。基于spark extensions 扩展的DSL语法,结合的Spark SQL,更加便捷融入数仓 ETLT 过程中,简单易用。

特性:

  1. Spark 是一个非常成熟大数据引擎,有非常成熟的connector,例如 es、mongodb、redshift、snowflake、cassandra 等产品官方维护了spark connector
  2. 插件式设计让用户可以轻松开发自己的Connector并将其集成到Datatunnel中。
  3. 支持多表或全库同步。
  4. 高吞吐量、低延迟,持并行读写,提供稳定可靠的高吞吐量、低延迟的数据同步能力。
  5. 支持两种作业开发方法:spark sql运行方式,以及向导模式。
  6. 支持bulk insert(pg, mysql, oceanbase等)


一个基于 Spark 引擎 的超高性能分布式数据集成软件,专为海量数据同步场景设计。其核心优势在于利用 Spark 的分布式计算能力,结合 Spark Extensions 扩展的 DSL 语法与 Spark SQL,提供了一种高效、灵活且易于集成的方式,将数据同步流程无缝融入数据仓库的 ETLT(Extract-Transform-Load-Transform)过程。

核心特性解析

  1. Spark 引擎的成熟生态支持
    Spark 作为大数据领域的标杆引擎,拥有丰富的官方维护 Connector,覆盖主流数据源:
    • 数据库
      :PostgreSQL、MySQL、OceanBase 等(支持 Bulk Insert 优化)
    • 大数据存储
      :Elasticsearch、MongoDB、Cassandra
    • 云数据仓库
      :Redshift、Snowflake
      DataTunnel 直接继承这些 Connector,无需重复开发,即可实现跨系统数据流通。
  2. 插件式 Connector 扩展架构
    平台采用插件化设计,用户可基于标准接口开发自定义 Connector,例如:
    • 连接专有数据库或 API 接口
    • 适配非标准数据格式(如日志文件、IoT 设备数据)
      开发后的 Connector 可动态加载至 DataTunnel,无需修改核心代码,极大降低扩展成本。
  3. 多模式作业开发
    • Spark SQL 模式
      :通过 SQL 语句定义数据转换逻辑,适合熟悉 SQL 的数据分析师
    • 向导模式
      :可视化配置同步任务(如选择源表、目标表、字段映射),降低技术门槛
      两种模式支持同一任务切换,兼顾专业性与易用性。
  4. 高性能同步能力
    • 并行读写
      :利用 Spark 的分布式执行引擎,实现多节点并行数据抽取与加载
    • 批量插入优化
      :针对关系型数据库(如 PostgreSQL、MySQL)提供 Bulk Insert 功能,减少网络开销
    • 全库/多表同步
      :支持一次性同步整个数据库或多个表,简化大规模数据迁移场景
  5. 稳定可靠的执行保障
    • 容错机制
      :继承 Spark 的 Checkpoint 与任务重试能力,确保长周期任务不中断
    • 资源隔离
      :支持按作业分配计算资源,避免多任务竞争导致性能波动

技术架构亮点

  • DSL 语法扩展:在 Spark SQL 基础上扩展领域特定语言(DSL),简化复杂转换逻辑的编写,例如:

    sql

    -- 示例:同步时过滤无效数据并转换字段类型
    SYNC TABLE source_table TO target_table
    WHERE
     status ='active'
    TRANSFORM (age TOINT, salary TODECIMAL(10,2))
  • ETLT 流程融合:将传统 ETL 的"加载后转换"(LT)阶段前置,在数据加载前完成清洗与转换,减少目标端计算压力。

适用场景

  1. 数据仓库上云
    :将本地数据库同步至云数据仓库(如 Snowflake、Redshift),支持增量与全量同步。
  2. 跨系统数据整合
    :合并多个业务系统的数据至数据湖(如 Delta Lake),用于统一分析。
  3. 实时数据管道
    :结合 Spark Structured Streaming,构建近实时数据同步链路。
  4. 数据库迁移
    :支持同构/异构数据库间的结构与数据迁移(如 MySQL → PostgreSQL)。

对比传统工具的优势

维度DataTunnel传统工具(如 DataX、Sqoop)
性能
分布式并行,吞吐量更高
单节点或有限并行,性能瓶颈明显
扩展性
插件式 Connector,支持自定义
固定数据源支持,扩展需二次开发
易用性
SQL/向导双模式,降低学习成本
配置文件驱动,需掌握参数调优
生态兼容
直接使用 Spark 生态工具(如 Delta)
依赖独立生态,集成成本较高

总结

 通过深度集成 Spark 引擎,将分布式计算的优势注入数据同步场景,尤其适合需要处理海量数据、跨多源系统整合的企业。其插件化设计、高性能同步能力与低门槛开发模式,使其成为构建现代化数据管道的理想选择。无论是数据工程师、数据分析师还是业务团队,均可通过 DataTunnel 高效完成数据集成任务。


图片


基于spark 的数据集成平台

源代码

https://www.gitpp.com/streamlit/project-datatunnel


没有评论:

发表评论

AI视频(Wan2。2-Animate)工具V1。2,支持lora导入,V2更新,替换和动作迁移,4步即可,支持批量,解压即用!

一 、下载 进入小程序里有。 二 、更新记录 V1.2版本:2025-10-7 1、支持LORA导入。 V1.1版本:2025-9-24 1、加入人物替换模式。 V1.0版本:2025-9-21 1、基于wan2.2 animate项目,4步即可基于视频参考图片生成高质量视频...