数据仓库

一、第一性原理:数据仓库究竟解决什么问题

1. 问题本质

数据仓库的本质并不是“存更多数据”,而是系统性解决以下矛盾:

数据仓库的核心使命:将变化隔离在系统边缘,把稳定沉淀在核心结构中。


2. 核心设计哲学


二、能力模型:从“系统”而非“工具”理解数据仓库

1. 数据仓库能力全景

数据仓库能力体系├─ 数据采集能力├─ 数据建模能力├─ 数据计算能力├─ 数据存储能力├─ 数据治理能力│  ├─ 质量│  ├─ 元数据│  ├─ 血缘│  └─ 指标口径├─ 数据服务能力└─ 架构演进能力

所有技术选型,本质上都是在为这些能力服务。


三、架构范式演进:为什么架构一定会这样发展

1. 架构演进路径

数据库 → 数据仓库 → 大数据平台 → 数据中台 → 实时数仓

2. 每次演进解决的问题

阶段核心矛盾解决方式
数据库分析拖慢业务引入独立仓储
数据仓库数据规模扩大分布式存储
大数据平台数据难以复用统一建模
数据中台数据交付效率服务化
实时数仓决策延迟流式计算

四、分层模型:分层不是规范,而是复杂性控制手段

1. 分层的根本原因

2. 经典分层结构

ODS → DWD → DWM → DWS → ADS        ↑       DIM

3. 各层存在的“不可替代性”

层级核心职责不能省略的原因
ODS历史留存数据不可再生
DWD业务事实稳定粒度基准
DWM公共中间结果成本控制
DWS主题服务消费友好
ADS产品交付面向用户

五、建模方法论:为什么维度建模最适合分析系统

1. 建模目标

2. 核心抽象

一切分析,本质上是:在某个维度下,对事实进行聚合。


3. 事实表设计哲学

事实类型:


4. 维度设计哲学

缓慢变化维解决方案:


六、指标体系:从“算数”到“共识”的演进

1. 为什么指标必须标准化

2. 指标分层模型


七、实时数仓:另一种架构哲学

1. 实时 vs 离线的根本差异

维度离线数仓实时数仓
优先级准确性时效性
模型稳定性相对较低
容错方式重算状态恢复

2. 实时数仓的核心挑战


八、数据治理:决定数据仓库能活多久

1. 治理不是附加项

2. 核心治理能力


九、云数据仓库:架构范式的再一次跃迁

1. 核心变化

2. 本质变化

从“自建系统”到“消费能力”。


十、数据集市:组织协作视角下的必然产物


结语

关联内容(自动生成)