十三、数据模型管理（数据分类、建模、数据仓库和ETL）

发布时间：2024-11

浏览量：254

本文字数：4307

读完约 15 分钟

一、数据分类

数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现的。

信息是指有上下文的数据，其实就是在原有数据定义中增加了限定。

知识是基于信息整合形成的观点，是基于信息对模式、趋势的识别、解释、假设和推理。

数据、信息与知识的关系

举例来说，图中有“45”和“前5%”两个数据，我们并不知道“45”和“前5%”所代表的含义是什么，而信息则是给这些数据增加定义、格式、时间范围和相关性等内容，方便人们理解数据所代表的含义，比如这些数据背后代表的信息是“年龄：45岁”和“收入排名：前5%”。如果我们在信息的基础上再加上业务理解，基于模式和趋势、关系、假设等内容，就会构成知识。比如，这个案例我们可以得到“年龄45岁的人，收入排名在前5%的概率有90%”这条知识。

从业务视角对数据进行分类是将企业看作关系的集合，包含各种实体，分别如下：

•当事人：个人或一组人。
•资产：当事人所有的具有价值且能够获得收益的事物。
•财务：企业内部的会计系统。
•区域：地理区域，物理的或电子的地址。
•事件：由用户主动发起的各类行为。
•协议：在用户和机构之间达成的关于特定产品的协议。
•行销活动：为了获取、挽留用户或提高用户的使用率而采取的战略、计划或促销活动。
•内部组织：机构或公司内部的业务单元。
•产品：一种可以在市场上交易的产品或服务，包括条款或条件。
•渠道：用户和机构或公司进行接触的途径。

这种分类方式参考了知名数据仓库公司Teradata的FS-LDM数据模型架构，但是对于不同的公司来说，从业务视角划分的内容是不一样的，很难提供一个完整、统一的标准。

从数据管理视角分类，可以把数据分为主数据、交易数据（又称为事务数据、业务数据）、统计分析数据（又称为指标）、参考数据和元数据。相对于从业务视角分类，数据管理视角的数据分类标准相对统一。

•主数据是关于业务实体的数据，描述组织内的“物”，如人、地点、用户、产品等。在企业中存在很多IT系统，然而主数据信息是需要跨系统流转的，所以主数据是企业中记录数据的核心。
•交易数据描述组织业务运营过程中的内部或外部“事件”。交易数据也可以理解为主数据中的对象产生的一些行为数据，如销售订单、通话记录等。
•统计分析数据是对企业业务活动进行统计分析的数值型数据，即指标，如用户数、销售额等。用户数是对主数据中存在的用户进行统计，销售额是对交易销售行为的订单、额度进行统计。
•参考数据是将其他数据进行分类或进行目录整编的数据，参考数据值是几个允许值之一。参考数据也可以理解为码值，是为了对一些数据定义进行解释和规范的。
•元数据是描述数据的数据，帮助理解、获取、使用数据，分为技术元数据、业务元数据等。

某居民用电缴费数据案例

数据分析师需要学会利用双重视角分析数据，从业务视角分析数据在业务上的类型归属，从数据管理视角对“事”“物”“事物”本身进行记录统计。

二、数据建模

1、数据架构的基本概念

数据架构在数据治理中处于核心地位，数据模型在数据架构中也处于核心地位

借鉴Togaf企业架构模型，可以将企业架构分为4种架构类型：

企业架构中的4种架构类型

2、数据模型介绍

对于企业来说，数据模型可以在不同层次上进行抽象。在业务层面可以抽象成业务流程模型，在技术层面可以抽象成应用模型和数据模型。

数据模型的基本概念如下：
•建模技术：借助模型来分析、设计应用系统的技术。
•模型：现实世界中某些事物的一种抽象表示。
•抽象：抽取事物的本质特性，忽略事物的其他次要因素。
•建模：是理解、分析、开发或改造事物原型的一种常用手段，如建筑物蓝图、高楼大厦模型，建筑师利用蓝图、模型对建筑物进行分析和设计，动工前就能有一个完整且清晰的概念，能够据此对建筑物进行评审，尽早发现问题并改进。

精良的数据模型是用户与IT技术专家之间的桥梁，可以通过概念模型、逻辑模型对数据模型进行合理描述，也方便业务人员进行数据分析、对模型进行审计。

3、数据建模基础

从数据模型的层次上看，可以分为概念模型、逻辑模型和物理模型3个层次。概念模型(CDM)描述预设范围内的业务需求，逻辑模型(LDM)是详细的业务解决方案，物理模型(PDM)是详细的技术解决方案。在数据建模之前，还有一个必要环节，那就是对数据按照业务属性进行分类，即主题域分类。

数据模型经历了长期的历史演变过程。
在20世纪60年代，针对数据模型提出了遵循三范式(3NF)的关系模型，并且广泛应用于在线事务处理(OLTP)。
在20世纪80年代，关系模型适应了数据仓库日益增长的需求，并且也实现了用关系模型的方法论指导建设数据仓库。但是用关系模型做数据仓库在计算上比较费时费力，在建模上也比较复杂。
在20世纪八九十年代出现了新型结构，也就是所谓的维度模型。维度模型面向数据分析应用进行数据模型开发，更加便捷。当时有很多公司的数据分析工作都是基于维度模型实现的。
在20世纪90年代，技术人员开始对DATAVAULT进行研究，并于1999年左右完成。在2004年，一款敏捷的数据库建模技术Anchor问世，它适用于在结构和内容上随时间变化的信息。

4、主题域分类

主题域模型处于企业数据模型的顶层，是针对企业关键业务领域业务概念的分类方法和框架。

主题域模型主要的参与者是企业中的管理者或高级数据管理者。主题域分类是从业务角度对数据进行划分的，不同行业的主题域是不一样的，甚至每个企业的主题域也不是一样的。主题域分析偏战略的层面，并非数据分析师或数据架构师所关心的工作内容。

传统行业如银行、制造业、电信、零售等行业，都有比较成熟的主题域划分，如BDWM、FS-LDM、MLDM等。

主题域模型案例

5、概念模型

概念模型以实体—关系(Entity-Relationship, E-R)理论为基础，通过主题域形式描述概念化的结构。概念模型是一种高阶的数据模型，是对某个主题域内容的细化。

概念模型主要面向业务管理人员，通常需要借助ER图来实现。概念模型最关心实体之间的关系，尽可能地凝聚实体和关系。在概念模型阶段并不需要对实体中的属性进行具体化。

概念模型案例

6、逻辑模型

逻辑模型是对概念模型的进一步细化，通过关键数据属性描述更多的业务细节。逻辑模型描述实体、属性及实体关系，只包含关键数据属性，而不包含全部实体和全部属性。

逻辑模型独立于具体技术，是IT人员和业务人员沟通的工具，主要给架构师使用。在设计逻辑模型时要遵循范式的设计概念，以求达到较少的数据冗余，维护数据的完整性和可扩展性。

检查数据模型是否符合范式（一般符合三范式）要求，比如每个属性的值唯一，不具有多义性；每个非主属性必须完全依赖整个主键，而非主键的一部分；关系模式中不存在传递依赖。

7、物理模型

模型的落地还需要建立物理模型，一般情况下物理模型是由数据库管理员、数据库工程师具体实施的，主要是将逻辑模型转换成数据库的设计表达，涉及数据库中的表、数据类型、字段长度等信息。

物理模型涉及两个层次：

(1)转换模型。创建物理数据库信息，定义和记录数据字典，生成数据库的数据元素和记录，提供上下文环境，提供物理数据库结构。

(2)DBMS模型。DBMS模型记录位于DBMS模式或系统表中的物理数据库对象的定义。通过DBMS模型自动生成这些对象，主键成为唯一索引，候选键和查询项也成为索引。此外，物理模型中的关系基数是通过数据库的参照完整性功能、应用程序逻辑、其他事后监测和修正功能得以实现的。

转换模型和DBMS模型

三、数据建模案例

数据模型是数据视角下对现实世界规则的抽象与概括，根据业务需求抽取信息的主要特征，反映业务对象之间的关联关系。

四、数据仓库体系和ETL

数据仓库是进行数据分析的一个重要工具。在理解数据仓库之前，先介绍两个概念，分别是OLTP系统和OLAP系统。

OLTP(On-line Transaction Processing)系统，也称为联机事务处理系统、生产系统，它是事件驱动、面向需求的，比如银行的储蓄系统就是一个典型的OLTP系统。OLTP系统在使用过程中积累了大量的数据。关系数据库概念被提出来之后，联机事务处理一直是数据库应用的主流。

OLTP系统的特点如下：
•对响应时间要求非常高。
•用户数量庞大，主要是操作人员。
•数据库的各种操作基于索引进行。

OLAP(On-line Analytical Processing)系统，也称为联机分析处理系统，是基于数据仓库的信息分析处理过程，是数据仓库的用户接口部分，是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的。

OLAP系统的特点如下：
•基础数据来源于生产系统的操作数据，也就是说，OLAP系统的数据来源于OLTP系统。
•系统的响应时间合理。
•用户数量相对较少，其用户主要是业务决策人员与管理人员。

数据仓库的特征主要包含4部分，分别是面向主题、数据集成、数据相对稳定和数据随时间变化。

面向主题主要是指用户在使用数据仓库进行决策时所关心的重点方面，如用户、产品、账务、事件、服务使用、资源、用户服务、地域等。数据仓库内的信息是按主题进行组织的，而不是像业务支撑系统那样按业务功能进行组织的。

数据集成是指数据仓库中的信息不是从各个业务系统中简单提取出来的，而是经过一系列加工、整理和汇总，消除源数据中的不一致性，因此数据仓库中的信息是关于整个企业的一致的全局信息。

数据相对稳定是指一旦某个数据进入数据仓库后，一般很少进行修改，更多的是对信息进行查询操作，通常只进行定期的加载和刷新。

数据随时间变化是指数据仓库在集成数据时一般使用拉链表的形式，所有的拉链表要求每个数据在进入数据仓库时都保留一个时间戳。按照时间点保留多个副本。这样做的好处是保证了数据在不同时间点的情况，留痕数据可能发生变化。

从数据仓库ER模型中提取数据建立大宽表。数据集市是按照不同的业务需求对数据仓库中的数据进行进一步提取和整合的，例如财务报表数据集市、中介绩效分析数据集市、健康险盈利性管理数据集市等。

现代多维分析系统一般以数据仓库为基础，即从数据仓库中提取详细数据的一个子集并经过必要的聚集存储到数据立方体存储器。数据立方体存储器中每个小方格里的数据就是所需的度量指标。

数据立方体的建立为数据分析提供很多便利，我们在进行数据分析时，可以利用数据立方体进行向上钻取或向下钻取。向上钻取为向上级进行数据汇总，向下钻取是从上级向下展开细节。

ETL是数据提取(Extract)、清洗(Cleansing)、转换(Transform)、加载(Load)的过程。

ETL起到十分关键的作用，它主要用于解决以下几类问题：
    (1)在多数据源多字符集环境下如何整合数据。
    (2)如何统一多种统计口径。
    (3)如何将严格范式结构转换为星型或雪花型模型。
    (4)如何做到增量提取。
    (5)如何妥善管理开发过程中的元数据。
    (6)如何处理脏数据。
    (7)如何管理复杂的数据交换。

ETL整体流程框架

问风博客