技术栈
整体流程和技术
- 数据收集与传输:
- 使用 CDC(Debezium、Oracle GoldenGate、Flink CDC) 捕获数据库变化,使用 MQ(Apache Kafka、RabbitMQ、Pulsar),SeaTunel 进行数据传输。
- 数据存储:
- 原始数据存储在 数据湖(Amazon S3、Azure Data Lake Storage、Google Cloud Storage、Apache Hudi、Iceberg、Paimon) 中,支持实时数据写入和更新。
- 经过处理和清洗的数据存储在 数据仓库(Amazon Redshift、Google BigQuery、Snowflake、Doris、鼎石 StarRocks——doris商业化、阿里云 Hologres、飞轮科技 SelectDB——基于 doris、Hive ) 中,提供高性能的查询和分析能力。
- 湖仓一体——数据仓库解决了数据快速分析的需求,数据湖解决了数据的存储和管理的需求,而湖仓一体要解决的就是如何让数据能够在数据湖和数据仓库之间进行无缝的集成和自由的流转,从而帮助用户直接利用数据仓库的能力来解决数据湖中的数据分析问题,同时又能充分利用数据湖的数据管理能力来提升数据的价值。
- 数据处理计算:
- 使用 Flink 和 Spark 进行实时和批量数据处理,利用 Kubernetes(K8s) 管理和扩展计算资源。(MapReduce、Storm、Spark、Sparkstreaming、Flink、Presto)
- 结合 StreamPark 提供的实时数据处理平台,简化流处理任务的开发和部署。
- 数据分析与报表:
- 使用 OLAP 分析数据库(Apache Druid、ClickHouse、Kylin、Greenplum Greenplum、Hive、Hawq、Presto、Impala、Sparksql) 进行多维数据分析。
- 使用 报表分析工具(Tableau、Power BI、Apache Superset、Metabase) 创建交互式报表和仪表盘。
- 任务调度:
- 使用 Apache DolphinScheduler 或 Apache Airflow 等任务调度工具管理和自动化数据处理工作流。
ODS 属于数据湖层,负责存储和管理源数据,确保数据的完整性和一致性。
DW 属于数据仓库层,负责存储和管理经过处理和整合后的数据,支持全局性的分析和报表需求。
ADS 可以看作是数据仓库层的延伸或数据分析层的一部分,专注于为具体应用或业务需求提供优化的数据存储和查询服务。
大数据开源生态也推出了各种解决方案,最流行的就是Spark/Flink/Presto开源数据处理引擎,深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客,践行统一的计算引擎和统一的数据存储思想来综合提供解决方案
CDC | ETL|采集
数据同步工具:tapdata, seatunel, datax、Canal、Logstash
Extract, transform, and load (ETL) is the process of combining data from multiple sources into a large, central repository called a data warehouse.
CDC|Change Data Capture
数据存储 数据湖 数据仓库
HDFS |Hadoop Distributed File System|分布式文件存储Hudi数据仓湖仓一体OLAP 数据分析
OLAPDorisStartRocksSelectDB|基于Doris搭建数据计算处理
Flinkstreampark|流处理BI报表
BI数据产品QuickBIFineDataLink |帆软衡石集群管理 任务调度
YARN|Hadoop Distributed File System| Hadoop 集群资源管理系统DolphinScheduler|工作流协调平台湖仓一体LAS Lakehouse Analytics Service | 火山云LAS 基于 Hudi 存储数据(Hudi 基于 HDFS TOS)
Flink 处理流 实时
Spark 处理批 离线
ODS DWD DWS ADS 数据建模
最终结果可以去做人群划分、BI报表数据、席位查询、推荐算法
目前主流技术体系
其他技术体系
Loading...