湖仓一体
- 数据仓库(Data Warehouse):数据仓库是一种面向主题的、集成的、相对稳定的数据存储和处理系统。它通常用于存储和管理结构化数据,采用星型或雪花型模型进行数据建模,具有严格的数据模式和预定义的查询模式。数据仓库主要用于支持业务报表、数据分析和决策支持等任务。
- 数据湖(Data Lake):数据湖是一个存储大规模结构化和非结构化数据的存储库,以原始的、未加工的形式保存数据。数据湖不要求数据模式或预定义的查询模式,可以容纳各种类型和格式的数据。数据湖通常采用分布式文件系统(如Hadoop HDFS)或对象存储(如Amazon S3,阿里的OSS)作为基础存储,可以通过数据湖中的数据进灵活的存储和查询探索。
- 湖仓一体(Data Lakehouse):湖仓一体是将数据湖和数据仓库的优势结合起来的一种架构。它采用数据湖的存储能力和灵活性,同时通过将数据湖中的数据转换为结构化和预定义的模式,实现类似数据仓库的查询和分析能力。湖仓一体通常利用离线和实时计算引擎(如Apache Spark、Apache Flink)或列式存储引擎(如Apache Doris、Apache Iceberg)来实现数据转换和查询功能。
数据湖 | 数据仓库 | |
类型 | 结构化、半结构化、非结构化 | 结构化 |
关系型、非关系型 | 关系型 | |
架构 | 读取时的架构 | 写入时的架构 |
格式 | 原始、未筛选 | 已处理、已审核 |
源 | 大数据、IoT、社交媒体、流数据 | 应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 轻松缩放,成本低 | 完成缩放很困难且成本高昂 |
用户 | 数据科学家、数据工程师 | 数据仓库专业人员、业务分析师 |
用例 | 机器学习、预测分析、实时分析 | 核心报告、BI |
数据湖 | 湖仓一体/LakeHouse/数据湖屋 |
类型 | 结构化、半结构化、非结构化 |
关系型、非关系型 | |
架构 | 读取时的架构 |
格式 | 原始、未筛选、已处理、已精选 |
源 | 大数据、IoT、社交媒体、流数据 |
可伸缩性 | 轻松缩放,成本低 |
用户 | 数据科学家 |
用例 | 机器学习、预测分析 |
Loading...