最近在搭公司的离线数仓,整理出了一批很实用的组件,在这里分享下。

  • spark-sql
  • seatunnel
  • k8s
  • clickhouse
  • hive metastore
  • dolphin-scheduler

使用seatunnel+spark将数据从业务数据库导入clickhouse中,使用dolphin-scheduler调度clickhouse SQL生产dw层和ads层数据,最后再通过seatunnel将ads层数据写回业务系统数据库。hive metastore存储spark sql中的表信息。整个系统搭在k8s上,每个组件基本都有helm charts或者operator,极大地减少了部署难度。