EMR｜阿里云

E-MapReduce节点有主实例（Master）、核心实例（Core）和计算实例（Task）三种实例类型。详情请参见实例类型。

E-MapReduce存储可以采用高效云盘、本地盘、SSD云盘和SSD本地盘。磁盘性能为SSD本地盘 > SSD云盘 > 本地盘 > 高效云盘。

E-MapReduce底层存储支持OSS（仅标准型OSS）和HDFS。相对于HDFS，OSS的数据可用性更高（99.99999999%），HDFS的数据可用性由云盘或本地盘存储的可靠性来保证。归档数据和深度归档数据需要解冻为标准型存储才能参与EMR引擎计算。

存储价格估算如下：

集群类型	场景介绍	核心组件
DataLake	云原生数据湖场景，提供Hive和Spark计算引擎，适用于数据湖场景和离线数据分析等情况，支持多种数据湖格式如DeltaLake、Hudi和Iceberg。	HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等
Dataflow	实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台。 Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集和监控数据聚合等场景，支持离线或流式数据处理以及实时数据分析等。	Flink 、Kafka、YARN
OLAP	数据分析场景，其中核心组件ClickHouse是一个面向联机分析处理（OLAP）的开源的面向列式存储的DBMS，与Hadoop和Spark相比，ClickHouse更轻量级。ClickHouse支持线性扩展，简单方便，具有高可靠性和高容错。 StarRocks是开源MPP（Massively Parallel Processing）架构的OLAP分析引擎，支持亚秒级的数据查询和多表JOIN功能。	ClickHouse、StarRocks、Zookeeper
DataServing	数据服务场景，提供更灵活、可靠、高效的数据服务集群。提供HBase服务，同时可以基于OSS-HDFS（JindoFS服务）解耦计算集群与数据存储。支持JindoData本地缓存以进一步提高数据服务集群的读写性能。	HBase、Zookeeper、JindoData

‣