项目简介

scalelph 是一个基于 FlinkKubernetes 打造的开放数据平台,具备 FlinkSeaTunnel 任务管理能力,同时支持 Doris 集群在 Kubernetes 上的运维部署。

企业级后台管理系统

在大数据领域中,开源项目如雨后春笋,层出不穷,计算引擎、存储引擎、查询引擎、数据湖,百花齐放,相关技术演进日新月异,让人应接不暇,但是总体呈现如下趋势:

  • 更低的数据延迟。尤以 Flink 的新 sloan 实时即未来 为代表。
  • 更短的数据链路。过长的数据链路一方面增加延迟,另一方面也暴露出企业在打通数据链路时,数据的采集、分发、计算采用不同的组件,如 Flink CDC 为数据采集、分发和计算提供完整地解决方案。
  • 更少的组件。更短的数据链路也会主动缩减数据链路使用的组件。比如以 IceBergHudiPaimon 为代表的新一代流批一体存储方案,力图实现数据采集、计算和查询阶段的统一存储方案,而不是采集阶段采用 Kafka 追求低延迟、高吞吐,计算阶段选用大规模和廉价数据存储,查询阶段又采用一种新的存储方案对数据进行加速。
  • 更方便的运维。资源规划越来越难以匹配数据规模的增长,而 Hadoop 时代的存算一体在运维的不便逐步被存算分离取代,购买机器搭建服务的扩容方式逐步被云厂商 Serverless 取代。

对于企业来说,在释放数据能力上,越来越需要一站式数据平台

  • 数据开发能力。数据集成任务调度ETL 任务
  • 数据治理能力。数据质量数据血缘数据地图指标系统数据建模 等。
  • 数据产品能力。ad-hoc 查询BI 报表、数据应用等。

scaleph 定位在 admin 后台系统,整合、封装 FlinkSeaTunnelDoris 等引擎,连通众多组件,提供开箱即用的一站式数据平台。

能力地图

scaleph 始于 2022 年初,一开始的定位在于为 SeaTunnel 开发一个 web 管理系统,实现 SeaTunnel 任务的创建、提交、停止等功能,类似 DataX 和 DataX-Web 之类的组合。依托 Flink 和 Flink Kubernetes Operator,不断拓展向相关领域扩展,支持的功能如下:

  • 项目管理

    • 数据集成

      • 拖拉拽式的 web 任务开发方式。基于 2.3.5 版本的 SeaTunnel,支持 Flink 引擎。
      • 集成 Flink CDC。尚未完成,Flink CDC 暂不支持 Kubernetes Native Application 和 Flink Kubernetes Operator 部署
    • 数据开发

      • Flink 管理。与 Flink Kubernetes Operator 深度集成,以 operator 模式提供了 Template -> Session-Cluster、Deployment -> Job 的 Flink 任务层级管理。
      • Jar 任务管理。上传基于 Flink DataStream 和 Table API 开发的 jar 包。
      • SQL 任务管理、在线开发。在线 Flink SQL 编辑器,基于 SQL Gateway 提供在线调试、运行。
    • Doris 集群运维

  • 元数据。

    • 对主流数据源提供管理,支持数据源连接信息的统一管理和共享。
    • 集成 gravitino。实现元数据管理
  • 资源管理。Kubernetes 集群管理

  • 数据标准。

  • 后台系统。

    • 数据字典
    • 权限管理
    • 系统任务