数据仓库,这座企业决策的智慧宝库,通过整合多元数据,为企业提供有力支持。它的架构如同一座精心设计的城市,由数据仓库(主题导向,集成优化)、数据湖(原始数据的海洋)和湖仓一体(一体化数据底座,兼顾历史与实时查询)共同构成,构建起数据驱动的决策基石。
就像图书馆、建筑和电脑文件的分类,数据建模强调从业务视角出发,合理组织数据,以提升性能、降低成本,提高效率和数据质量。Bill Inmon的ER模型(实体关系模型)通过规范化减少冗余,但不直接支持深度分析;相比之下,Ralph Kimball的维度模型以事实和维度为核心,清晰直观,适合进行深入的数据分析。
建模的真谛在于服务数据分析,它的焦点在于提升需求分析效率和复杂查询的表现。核心是事实表,分为事务事实(如超市购买记录,记录细节)、快照事实(如库存状态,按周期记录)和累计快照(处理工作流分析)。
在大数据时代,处理海量数据如超市库存系统,每天100万条记录,一年3.65亿,设计时需精确定义维度(周期、商品、仓库)和事实(库存量等),考虑周期快照事实表和累计快照事实表的构建。
无度量值的事实表,如咨询和课程出席,通过常量列进行统计,提供额外的洞察。
维度表是基础,围绕业务环境构建,主键和维度属性清晰。设计时需处理主维表和相关维表,如商品sku_info的粒度与主维表保持一致。
在处理维度属性时,遵循丰富、清晰、通用原则,考虑历史变化和编码简化。而在规范化与反规范化之间,平衡数据一致性与查询性能是关键。
设计结束时,输出业务需求规范和模型设计文档,包括事实、维度和概念模型的定义。
数据仓库建模是一门艺术,通过科学的划分数据域,构建总线矩阵,确保模型与业务流程无缝对接。无论是事务事实还是快照事实,都需精心设计,以满足不断变化的业务需求和数据复用。在数据的海洋中,每一块基石都至关重要,共同构建企业的数据决策之路。