EMR|阿里云

集群

E-MapReduce节点有主实例(Master)、核心实例(Core)和计算实例(Task)三种实例类型。详情请参见实例类型
E-MapReduce存储可以采用高效云盘、本地盘、SSD云盘和SSD本地盘。磁盘性能为SSD本地盘 > SSD云盘 > 本地盘 > 高效云盘。
E-MapReduce底层存储支持OSS(仅标准型OSS)和HDFS。相对于HDFS,OSS的数据可用性更高(99.99999999%),HDFS的数据可用性由云盘或本地盘存储的可靠性来保证。归档数据和深度归档数据需要解冻为标准型存储才能参与EMR引擎计算。
存储价格估算如下:
  • 本地盘实例存储为0.04 元/GB/月
  • OSS标准型存储为0.12 元/GB/月
  • OSS归档型存储为0.033 元/GB/月
  • OSS深度归档型存储为0.015 元/GB/月
  • 高效云盘存储为0.35 元/GB/月
  • SSD云盘存储为1.00 元/GB/月

集群类型

集群类型
场景介绍
核心组件
DataLake
云原生数据湖场景,提供Hive和Spark计算引擎,适用于数据湖场景和离线数据分析等情况,支持多种数据湖格式如DeltaLake、Hudi和Iceberg。
HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等
Dataflow
实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台。 Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集和监控数据聚合等场景,支持离线或流式数据处理以及实时数据分析等。
Flink 、Kafka、YARN
OLAP
数据分析场景,其中核心组件ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,与Hadoop和Spark相比,ClickHouse更轻量级。ClickHouse支持线性扩展,简单方便,具有高可靠性和高容错。 StarRocks是开源MPP(Massively Parallel Processing)架构的OLAP分析引擎,支持亚秒级的数据查询和多表JOIN功能。
ClickHouse、StarRocks、Zookeeper
DataServing
数据服务场景,提供更灵活、可靠、高效的数据服务集群。提供HBase服务,同时可以基于OSS-HDFS(JindoFS服务)解耦计算集群与数据存储。支持JindoData本地缓存以进一步提高数据服务集群的读写性能。
HBase、Zookeeper、JindoData

组件类型

数据湖构建

notion image
notion image
Loading...
文章列表
王小扬博客
云原生
Git
Elasticsearch
Apollo
产品
Think
生活技巧
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP
AI