湖仓一体

  1. 数据仓库(Data Warehouse):数据仓库是一种面向主题的集成的相对稳定的数据存储和处理系统。它通常用于存储和管理结构化数据,采用星型或雪花型模型进行数据建模,具有严格的数据模式和预定义的查询模式。数据仓库主要用于支持业务报表、数据分析和决策支持等任务。
  1. 数据湖(Data Lake):数据湖是一个存储大规模结构化和非结构化数据的存储库,以原始的、未加工的形式保存数据。数据湖不要求数据模式或预定义的查询模式,可以容纳各种类型和格式的数据。数据湖通常采用分布式文件系统(如Hadoop HDFS)或对象存储(如Amazon S3,阿里的OSS)作为基础存储,可以通过数据湖中的数据进灵活的存储和查询探索。
  1. 湖仓一体(Data Lakehouse):湖仓一体是将数据湖和数据仓库的优势结合起来的一种架构。它采用数据湖的存储能力和灵活性,同时通过将数据湖中的数据转换为结构化和预定义的模式,实现类似数据仓库的查询和分析能力。湖仓一体通常利用离线和实时计算引擎(如Apache Spark、Apache Flink)或列式存储引擎(如Apache Doris、Apache Iceberg)来实现数据转换和查询功能。
数据湖
数据仓库
类型
结构化、半结构化、非结构化
结构化
关系型、非关系型
关系型
架构
读取时的架构
写入时的架构
格式
原始、未筛选
已处理、已审核
大数据、IoT、社交媒体、流数据
应用程序、业务、事务数据、批处理报告
可伸缩性
轻松缩放,成本低
完成缩放很困难且成本高昂
用户
数据科学家、数据工程师
数据仓库专业人员、业务分析师
用例
机器学习、预测分析、实时分析
核心报告、BI
数据湖
湖仓一体/LakeHouse/数据湖屋
类型
结构化、半结构化、非结构化
关系型、非关系型
架构
读取时的架构
格式
原始、未筛选、已处理、已精选
大数据、IoT、社交媒体、流数据
可伸缩性
轻松缩放,成本低
用户
数据科学家
用例
机器学习、预测分析
notion image
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP