常见名词
维度 | 数据仓库 | 数据库 |
应用场景 | OLAP | OLTP |
数据来源 | 多数据源 | 单数据源 |
数据标准化 | 非标准化Schema | 高度标准化的静态Schema |
数据读取优势 | 针对读操作进行优化 | 针对写操作进行优化 |
数据湖 | 数据仓库 | |
类型 | 结构化、半结构化、非结构化 | 结构化 |
关系型、非关系型 | 关系型 | |
架构 | 读取时的架构 | 写入时的架构 |
格式 | 原始、未筛选 | 已处理、已审核 |
源 | 大数据、IoT、社交媒体、流数据 | 应用程序、业务、事务数据、批处理报告 |
可伸缩性 | 轻松缩放,成本低 | 完成缩放很困难且成本高昂 |
用户 | 数据科学家、数据工程师 | 数据仓库专业人员、业务分析师 |
用例 | 机器学习、预测分析、实时分析 | 核心报告、BI |
数据湖 | 湖仓一体/LakeHouse/数据湖屋 |
类型 | 结构化、半结构化、非结构化 |
关系型、非关系型 | |
架构 | 读取时的架构 |
格式 | 原始、未筛选、已处理、已精选 |
源 | 大数据、IoT、社交媒体、流数据 |
可伸缩性 | 轻松缩放,成本低 |
用户 | 数据科学家 |
用例 | 机器学习、预测分析 |
一、常见概念:
1. 数据更新频率:T+1 、 实时
数仓建设分为离线数仓和实时数仓。大部分企业决策使用离线数据即可满足分析使用,即数据都是T+1日隔天从各个数据源抽取转换加载存储起来,这种数据存储就称为离线数仓;而实时数仓就是要做到保证数据的即时性,典型的应用例如天猫618实时销售额数据大屏展示。
2. 数据存储方式:增量、全量
全量:指数据存储的是截至到目前最新状态的全部记录。单条数据无论是否有变化,只保留最新一条记录。没有分区,所有数据存储在一个分区中,比如:今天是2号,那么全量表里面包含的数据是截至1号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不记录历史的数据情况,只有截止到当前最新的、全量的数据。
增量:记录更新周期内的新增数据,即在原表中数据的基础上新增本周期内产生的新数据,没变化的数据不会被记录,指把新增的数据追加到原表中;存在分区,增量表中每次新增的数据单独存储在一个分区中,历史分区中的数据记录不发生变化。
3. 数据查询周期
例如历史至今、某个历史时刻至今、最近三个月等。
即当业务方获取所需数据时,需要明确所需的数据周期是多久,可以提高数据查询效率和减少计算资源浪费 。
4. 数据粒度
当获取所需数据时或者说明某张表是什么层次的描述。例如用户粒度,代表表中每一行数据就代表一个用户的相关信息;订单粒度,就代表这行数据描述的是一个订单的信息。
5. 数据维度
表示看数据的某个角度。例如想看转化率这个指标,想要看单个渠道、单个城市的转化率,那渠道、城市就称为维度 。
6. 数据度量
衡量一个业务场景的关键数值。例如我拿什么来衡量这笔生意好还是不好,那价格、成本、利润就是衡量的一种度量。
7. 数据口径
指获取指标的取数逻辑。比如要取的数是10岁以下儿童中男孩的平均身高,这就是统计的口径。
8. 原子指标
用于明确业务的统计口径及计算逻辑。例如,下单总数。
9. 派生指标
派生指标
修饰词用于限定业务活动的范围。例如,线上生鲜门店、线下生鲜门店。
时间周期用于确定需要统计的时间范围。例如,一个自然日。
派生指标由原子指标、修饰词、时间周期三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现,反映企业某一业务活动的业务状况。例如,统计一个自然日中线上生鲜门店的下单总数、一个自然日中线上和线下生鲜门店的下单总数。
二、各类型表名解析
1. 实体表
实体就是一个对象,我们根据业务所要去研究、分析的对象。比如统计用户的活跃度,那用户就是一个实体,统计文章的pv(浏览次数)、uv(浏览人数),那实体就是文章。实体表就是一个实际对象的表,实体表放的数据一定是一条条客观存在的事物数据,比如说各种商品,它就是客观存在的,所以可以将其设计一个实体表,比如客户基本信息表就是一个实体表。
2. 事实表
事实表是指存放了大量业务数据的表,表中包含了基础信息字段和度量字段。例如业务场景一个客户购买了一笔订单,客户基本信息就是实体,客户订单交易金额就是度量,所有数据存放在一起构成了一条事实,这就是事实表。
3. 维度表
客户购买一笔订单,在什么时间、 地点、交易方式情况下成交,时间、地点、交易方式就是单独的三张维度表。
4. 快照表
快照表就是截至过去某个时间点的所有数据,关注更多的是过去某个时间点的状态,即:快照表主要存储的是历史状态的表。每次快照的数据单独储存在一个分区中。每个分区里的数据都是分区时间对应的前一天的所有全量数据。
5. 拉链表
与快照表类似,但拉链表储存的是在快照表的基础上去除了重复状态的数据。他是一种维护历史状态,以及最新状态数据的一种表,记录数据从开始一直到当前状态所有变化的信息。例如甲在1号存了100元,在2号存了100元,则拉链表关于甲会有两条记录,一条就是甲在1号有100元,一条是甲在2号有两百元。
三、数据分析常用术语
1. 下钻
可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
2. 上卷
知道了下钻,上卷就容易理解了,它俩是相逆的操作,所以上卷可以理解为删掉维的某些层,由细粒度到粗粒度观察数据的操作或沿着维的层次向上聚合汇总数据。
其他
DAG监控报表. 数据库可用性组(DAG)
Loading...