二、数据结构
发布时间:2024-08
浏览量:162
本文字数:3116
读完约 11 分钟
结构化数据与非结构化数据成为大数据时代背景下的数据主体。
结构化数据是指数据结构规范、完整的数据。在使用结构化数据对业务问题进行描述性分析时主要应用的IT工具有电子表格工具、数据库操作语言、ETL工具及数据可视化工具等。
非结构化数据是指数据结构不规范、不完整、格式多样、难以理解、难以进行标准化处理的数据。来自企业系统之外的数据,大部分都属于非结构化数据。
根据对结构化数据进行加工处理、分析、展现所使用的IT工具的不同,结构化数据又可以分为表格结构数据及表结构数据两类。
表格结构数据是指在通过WPS表格、Excel等电子表格工具进行数据分析时,以单元格作为数据加工、处理、分析的基本单位的结构化数据。
表结构数据是指在通过数据库或ETL工具进行数据分析时,以字段作为数据加工、处理、分析的基本单位的结构化数据。
1、表格结构数据
概述:
表格结构数据是指应用在电子表格工具上的数据。表格结构数据需要用电子表格工具对其进行处理加工、分析及展现。当前市面上使用的主流电子表格工具有微软公司的Excel、苹果公司的Numbers及金山办公的WPS表格等
特征:
(1)用于对表格结构数据进行识别、引用、计算的基本单位叫作单元格,单元格的集合叫作单元格区域,单元格区域的集合叫作工作表,工作表的集合叫作工作簿,一个工作簿就是一个独立的电子表格文件。
(2)在表格结构数据中可以为不同的单元格设置不同的数据类型,但是一次只能为一个单元格设置一种数据类型。
(3)一个单元格不仅具有数据类型的属性,还具有单元格格式的属性。
如果说数据类型的属性是为了让计算机能够更加准确、高效地对数据进行识别、处理、计算而存在的,那么单元格格式的属性就是为了让用户能够更加清晰、直观地理解数据信息而存在的。
数据的获取、引用与使用
掌握SQL中的查询语句,对数据的记录逻辑非常清楚
分析人员在向数据库管理人员提需求时应尽量做到以下4点。
(1)需求中的业务描述部分应尽量准确、详细、易懂。
(2)需求中的数据使用部分的描述应尽量做到条理清晰、逻辑严谨、细节描述详细。
(3)需求描述结束后需要确认数据库管理人员是否听懂并且理解了需求内容。
(4)向数据库管理人员询问获取数据的方案,与数据库管理人员一起逐一核对方案细节。
以Excel 2016为例,其工作表中最大行数为1048576行,最大列数为13684列
表格结构数据的引用、查询与计算方法:
引用某个单元格中值的前提条件是需要先定位到该单元格上
单元格值引用:
单元格区域引用:
由单元格构成的单元格区域需要满足以下两个条件。
(1)单元格区域须由连续的单元格构成。
(2)单元格区域须是一个方形区域。
方形单元格区域是由多行多列的单元格值构成的。由多行多列的单元格值构成的数据结构在表格结构数据中称为数组,数组与数组间可以直接进行数学计算,也可以通过函数进行引用数组值的计算。
在引用单元格区域范围时需要先写左上单元格位置再写右下单元格位置。
查询方法:
(1)第1种方法是使用电子表格工具中的搜索功能进行查询。
(2)第2种方法是利用函数进行查询。
利用函数查询的基本逻辑是先为函数指定要查找的值、查找范围、查找后要返回的查找范围内的顺序号及查找匹配模式,然后函数根据条件指引就会自动查找到我们所需要的正确值。这种方法的优点在于,因为查找的条件值是公式引用的参数,所以我们可以非常方便地通过更改函数参数的方法随时更改查找条件,从而可以快速得到我们所需要的查询结果。
计算方法:
(1)直接计算:使用运算符连接单元格值或单元格区域值进行计算。
(2)函数计算:使用函数对单元格值或单元格区域值进行计算并返回计算结果。
2、表结构数据
概述:
在表结构数据中,数据引用、操作、计算的基本单位不是“单元格”而是整列“字段”或整行“记录”。表结构数据的主要来源是数据库中的数据表。一个数据表有一个表名,表名的作用是区分不同数据表。一个数据表由多列不同“字段”及多行不同“记录”构成。“
在表结构数据中,有一些表只包含维度信息而不包含度量信息,这样的表我们称为维度表。既包含维度信息又包含度量信息,这样的表我们称为事实表。事实表用来记录业务的实际情况,在业务描述性分析中,用事实表中的度量字段对业务行为产生结果的好坏程度进行描述。
业务描述性分析方法的本质就是在不同业务角度(维度)下对业务行为的结果(度量)进行分析、展现、论证及总结的过程。
特征:
(1)第1个特征是表结构数据中的基本引用、操作、计算单位是字段或记录行。
(2)第2个特征是在表中所有字段的记录行数相同。
(3)表结构数据的第3个特征是,几乎所有数据表中都存在且只存在一个主键
根据字段数据类型的不同,在处理缺失值时使用的方法也各有不同。
① 当缺失值出现在文本型字段中且对分析结果影响不大时,可以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换。
② 当缺失值出现在文本型字段中且对分析结果产生重要影响时,一般分析人员只能通过与缺失值记录行信息录入者进行确认的方法对缺失值进行替换处理。
③ 当缺失值出现在数值型字段中时,需要综合考虑该数值型字段所代表的度量意义,以及针对该数值型字段进行汇总计算的方式,来最终决定对缺失值的具体处理方法
数据的获取、加工与使用:
获取
业务描述性分析中应用的表结构数据也有企业的后台数据库系统、企业的前端操作平台及企业外部渠道3个主要来源。
数据库与商业智能的概念解析
关系数据库管理系统虽然强于业务数据的存储与读取,但并不善于对海量数据进行计算分析;虽然能为分析任务提供绝大多数数据信息,但无法提供所有数据信息;虽然能够共享数据,但无法共享分析结果。所以,为了完成完整、多源的海量数据获取、加工、分析及共享任务,除关系数据库管理系统外,企业还需要另备一套强于获取、加工多源数据、对海量数据进行 多维分析并能够即时共享分析结果的计算机应用系统。这套系统由ETL功能、数据仓库功能、OLAP功能及数据可视化功能几部分构成,主要用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察,做出正确决策判断,从而最终帮助企业创造更多商业价值。我们将这种系统称为商业智能(Business Intelligence,BI)系统。
在商业智能仪表盘的制作过程中,需要分别用到ETL功能、数据仓库功能、OLAP功能及数据可视化功能
ETL是英文Extract-Transform-Load的首字母缩写,是将分析时使用的数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程。目的:将所有分析所需的分散在企业内外部的零乱、标准不统一、没有质量保证的数据整合到一起,为分析决策提供完整、高质量的数据信息。ETL功能常见的执行顺序分为两类,一类是按照“ETL”的顺序执行,也就是先抽取,再清洗转换,最后加载,另一类是按照“ELT”的顺序执行,也就是先抽取,再加载,最后清洗转换。加载对象数据仓库的处理能力越强,处理数据量越大,清洗转换逻辑越复杂,越倾向于按照“ELT”的顺序执行。
ETL功能与DW功能由不同工具实现
ETL功能与DW功能由同一个工具实现
OLAP技术与多维数据模型
union”命令为去重合并,“union all”命令为全合并
在透视分析中使用的维度字段又称为分组依据,汇总计算规则又称为聚合规则。
除数据透视分析方法外,我们还可以通过算法深入挖掘数据间的内在规律及联系,通过这些规律及联系对业务产生更深层的理解,并且在这些规律及联系的延长线上做出对未来的预测判断,这种方法就是数据挖掘方法。数据挖掘方法既包含描述性分析,也包含预测性分析的内容。
数据透视分析方法及数据挖掘方法是将数据转化为认知信息的两类主要方法