每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表（DWD、DWS）的外键。维度表通常比较宽，是扁平型非规范表，包含大量的低粒度的文本属性。例如customer（客户表）、goods(商品表)、d_time(时间表)这些都属于维度表，这些表都有一个唯一的主键，然后在表中存放了详细的数据信息。

ADS层

application data store，应用数据层，面向各个数据应用提供定制化的指标汇总或数据。一般会放在ES，MYSQL，Redis等系统供线上系统使用，也可以放在Hive中供数据分析和数据挖掘使用，或者使用一下其他的大数据工具进行存储和使用。

五、数仓四层架构

对于数仓分层架构，一般就是三层建设。随着业务的发展，就需要对用户进行精细化运营，提供更加精准和个性化的服务。这时候就需要增加TDM层，变成四层架构。

TDM层

Tag data store，标签数据层。面向对象，把跨业务板块、跨数据域的特定对象数据进行整合，形成对象的全域标签数据体系，方便深度的分析、挖掘和应用。这一层的特点就是有大量的算法标签，大数据的智能化也体现在这一层。

对于标签的分类，签按照产生和计算方式的不同可分为属性标签，统计标签，算法标签，关联标签。

属性标签

对象本身的性质就是属性标签，例如用户画像的时候打到用户身上的标签。

统计标签

对象在业务过程中产生的原子指标，通过不同的计算方法可以生成统计标签。

算法标签

对象在多个业务过程中的特征规律通过一定的算法产出的标签。

关联标签

对象在特定的业务过程会和其他对象关联，关联对象的标签也可以打在主对象上。

六、分层建设的作用

开始我们提到，数仓的建模或者分层，其实都是为了更好的去组织、管理、维护数据。越靠上的层次，对应用越友好,比如ADS层，基本是完全为应用设计, 越上层的聚合程度越高，可理解程度就越低。

分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题，不能为了分层而分层。为了解决这些问题，分层仅仅是手段而已。

总结一下，分层建设有以下作用和优点：

1. 隔离原始数据

后期统计和真实数据解除耦合，也就是这边备份了原始数据，不影响原始数据的资源。

2. 清晰数据结构体系

将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。这样在使用表的时候能更方便的定位和理解；也使得开发、维护的成本降低；

3. 数据查询效率高：

分层架构就是利用大数据的技术，通过预计算+占空间这些看上去的缺点，得到效率高的优点。相当于就是把中间数据先提前存储好，然后后面需要使用这些中间数据直接利用这些中间数据即可，加快速度查询效率

4. 数据复用性提高。

分层后，在中间层会存储很多中间数据，这些数据可以给不同的上层使用，这就达到了数据复用。

5. 数据血缘追踪

由于最终给业务呈现的是一个能直接使用的业务表，但是表的数据来源有很多，如果有一张来源表出问题了，我们希望能够快速准确的定位到问题，并清楚它的影响范围，从而及时给到业务方反馈，从而将损失降到最低。

6. 统一数据口径

通过数据分层提供统一的数据出口，统一对外输出的数据口径。

Last update: 2024-7-15