四、描述性统计分析

发布时间:2024-08

浏览量:154

本文字数:9981

读完约 34 分钟

(1)统计学的定义、框架、应用、基本概念,掌握数据分析工作的流程和常用概念。

(2)基础的数据分析方法中描述性统计分析的常用方法,掌握集中趋势(主要是众数、中位数、算术平均数)、离散程度(主要是方差、标准差、离散系数)、分布形态(主要是偏态、峰态)的度量。

(3)复杂的数据分析方法的理论基础——常用的分布,掌握两点分布、二项分布、正态分布(含标准正态分布)、χ2分布、t分布、F分布的概念、性质和简单计算应用。

(4)复杂的数据分析方法中的相关分析,掌握两个变量线性相关关系的描述和度量。

一、统计学概述

统计学是一门收集、处理、分析、解释数据,并从中得出结论的科学。

收集数据→处理数据→分析数据→解释数据

基础的数据分析方法又分为两大类:描述性统计分析方法和推断性统计分析方法,描述性统计分析方法主要结合数据,对实际问题进行分布特征的描述,也称数据分布特征的描述性分析方法;推断性统计分析方法主要根据掌握的样本数据对总体进行估计或检验,侧重于对总体特征的估计或检验推断,即包括参数估计、假设检验两种主要方法。

数据分析流程图(统计学框架图

数据分析流程图(统计学框架图

总体和样本:

总体(population)是指我们所研究的所有元素的集合,其中每个元素称为个体。

从总体中抽取的一部分个体的集合称为样本,样本中个体的数量称为样本容量。把总体的某些特征推断出来即可,这种方案已成为统计学中的主流方法,故需要引入参数和统计量的概念。

参数和统计量:

参数是指总体的某个特征,而统计量是指样本的某个特征。

需要强调的是,说到参数均是指总体的,说到统计量均是指样本的,即总体没有统计量,而样本没有参数。参数和统计量两个概念的引入,刚好回应了前面提出的“用样本的什么来推断总体的什么”这一问题,答案就是“用样本的统计量来推断总体的参数”,意思就是用样本的某个特征来推断总体的某个特征。

常见的特征有比例、均值、方差(标准差)3个,这3个特征是数据的重要特征,也是能反映数据主要信息的特征。掌握了数据的这3个特征,就相当于掌握了数据大部分信息。

总体参数和样本统计量的常见符号

总体参数和样本统计量的常见符号

变量与数据:

变量是用来描述个体特征的概念

如人(个体)从出生开始到现在存活的时间长度(特征),我们引入年龄这一概念来刻画。在实际中,对于个体,我们常用很多不同的变量来刻画其特征。

不同个体的变量有不同的取值,其取值我们称为数据,数据是统计学研究的对象

(1)数据按照表达形式来划分,可以分为定性数据和定量数据。定性数据是刻画个体性质的数据,如男、女是用于刻画人的性别的定性数据,高、中、低是可以用于刻画收入级别的定性数据。定性数据从表现形式上看,常表现为文字形式,而用数字来表现的数据则称为定量数据,如人的身高175cm、体重70kg等。

在实际应用中,人们进一步把定性数据分为两种情况:分类数据和顺序数据。分类数据只是事物分类的结果,而顺序数据则是可以排序的分类结果。定量数据可以分为定距数据和定比数据

在数据分析中,不同数据有不同的分析方法,这些方法之间有一个重要的规律:低级数据的方法,高级数据可以用;但高级数据的方法,低级数据不可以用。如果某个方法是分类数据的方法,顺序数据和数值数据是可以使用的,但如果某个方法是数值数据的方法,分类数据和顺序数据是不能使用的。

(2)数据按照收集方式来划分,可以分为调查数据和实验数据。

(3)数据按照与时间的关系不同来划分,可以分为横截面数据、时间序列数据、混合横截面数据和面板数据。

① 横截面数据集:给定时点对个人、家庭、企业、国家或其他单位的一个或多个变量采集的样本所构成的数据集。
② 时间序列数据集:由一个或几个变量在不同时间的观测值所构成的数据集。
③ 混合横截面数据集:有些数据既有横截面数据的特点又有时间序列数据的特点,但每一时间点的样本不同。
④ 面板数据集:由横截面数据集中每个样本的一个时间序列组成,如定点长期调查获得的数据。

二、数据的描述性统计分析

数据的描述性统计分析常从数据的集中趋势、离散程度、分布形态3个方面进行。

1、集中趋势的描述

集中趋势是指数据向其中心值靠拢的趋势。测量数据的集中趋势,主要是寻找其中心值。

分类数据的集中趋势的描述:众数。众数是指在一组数据中,出现次数最多的数,符号记作Mo。

众数具有以下性质:
①不受极端值的影响。不受极端值影响的特性使得众数常可以适用于有极端值的数据分析中
②不唯一性。很多数据是可以计算众数的,但有些数据中,每个数据出现的频数均相同,即无法确定某个数据出现的次数最多,故不存在众数;有的数据中可能会出现多个数据的频数都最大,即出现了多个众数。

顺序数据的集中趋势的描述:分位数。分位数是指将一组数据排序后,将数据进行等分分割,在这些分割点位置上的数。

分位数的计算需要以数据排序为前提,因此要求数据至少可以排序,即至少为顺序数据才可以计算
1)二分位数:二分位数也称“中位数”,是指将一组数据排序后,处于正中间位置上的数,符号记作Me。

中位数具有以下性质:
①不受极端值的影响。顺序数据只与数据的位置有关,故中位数不受极端值的影响。不受极端值影响的特性也使得中位数常可以适用于有极端值的数据分析中。
②一组数据中所有数据与其中位数的离差绝对值之和是最小的。这一性质使得中位数在绝对值损失函数中被广泛应用。离差绝对值之和即距离之和。

2)四分位数:将一组数据从小到大排序后,我们将处于1/4位置上的数称为“下四分位数”,符号记作QL;将处于3/4位置上的数称为“上四分位数”,符号记作QU。

数值数据的集中趋势的描述:平均数。平均数(Average)也称均值(Mean)、期望(Expect)

算术平均数

算术平均数是指数据之和与数据个数之比,根据所给数据是否分组,算术平均数分为简单算术平均数和加权算术平均数。

算术平均数的性质:
①最常用的平均数。在数据分析中,如果没有特殊规定,常默认使用算术平均数。
②易受极端值的影响。
③各数据与算术平均数的离差之和等于零
④各数据与算术平均数的离差平方和是最小的,这一性质使得算术平均数在平方损失函数中被广泛应用。

调和平均数

调和平均数是指数据倒数的算术平均数的倒数,常用符号H表示,根据所给数据是否分组,调和平均数分为简单调和平均数和加权调和平均数。

调和平均数的性质:
①常用于效率问题的研究。
②易受极端值的影响。与算术平均数类似,在计算过程中,每个数据都参与了计算,因此调和平均数也会受极端值的影响。

几何平均数

几何平均数是指数据乘积的个数方根,常用符号G表示。根据所给数据是否分组,几何平均数分为简单几何平均数和加权几何平均数。

几何平均数的性质:
①常用于比率问题的研究,如研究平均发展速度、平均增长速度等;
②也会受到极端值的影响,但影响微弱。

平方平均数

平方平均数是指数据平方的算术平均数的算术平方根,常用符号Q表示,根据所给数据是否分组,平方平均数分为简单平方平均数和加权平方平均数。

平方平均数的性质:
①常用于长度问题、距离问题的研究,如研究向量长度、空间中点与点的距离等;
②也容易受到极端值的影响。

在数据分析中,对于有极端值的数据,如果需要重点考察极大值的影响,可以使用平方平均数或算术平均数;如果需要重点考察极小值的影响,可以使用调和平均数;如果想要计算最精确的结果,可以使用几何平均数。

2、离散程度的描述

集中趋势度量数据向其中心值靠拢的趋势,而离散程度度量数据偏离其中心值的程度,故离散程度与集中趋势的中心值有关,且如果数据离散程度越大,说明数据偏离其中心值越多,中心值的代表性越差。

分类数据的离散程度:异众比率。异众比率是指在一组数据中,非众数的频数占总数据个数的比重。

异众比率的性质:
①不受极端值的影响;
②一组数据异众比率越大,众数的代表性越差。

顺序数据的离散程度:极差和四分位差

极差,也称范围,等于一组数据的最大值与最小值之差。

极差的性质:
①极差是离散程度最简单的测量方法,但极其容易受极端值的影响,因此它在实际中较少使用;
②极差越大,通常说明数据的范围越大,数据越分散。

四分位差等于一组数据的上四分位数与下四分位数之差。

四分位差的性质:
①不受极端值的影响。
②四分位差是一个局部指标,其衡量了处于中间50%的数据的离散程度,四分位差越大,说明处于中间50%的数据越分散。

数值数据的离散程度:平均差、方差、标准差、离散系数。

平均差是指数据与其算术平均数离差的绝对值的算术平均数,符号记作Md。根据未分组数据计算的平均差为简单平均差,根据分组数据计算的平均差为加权平均差。

平均差(Mean Difference)通常是指一组数据中每个数值与平均数的差的绝对值的平均值,是衡量数据分布离散程度的一个指标。计算平均差的步骤通常如下:
1、计算数据集的平均数
2、计算每个数值与平均数的差
3、求每个差的绝对值
4、计算所有绝对值的平均数,得到平均差
平均差的性质:
①能全面测量数据离散程度,平均差越大,数据越分散;
②容易受极端值的影响;
③在绝对值损失函数中用到的就是平均差;
④平均差的计算需要用到绝对值,导致其数学性质较差,从而在实际中较少使用。

在平均差的计算中如果把绝对值改成平方,就得到一个在实际中常用的指标——方差,方差是数据与其算术平均数离差的平方的算术平均数,方差的算术平方根是标准差。

方差计算步骤:
1、计算数据集的平均数
2、计算每个数据点与平均数的差的平方
3、计算这些平方差的平均值,得到方差

根据总体数据计算的方差为总体方差,根据样本数据计算的方差为样本方差。自由度通常可以简单地理解为在研究问题中,可以自由独立取值的数据或变量。样本数据的自由度是指在一组样本数据中,能自由取值的数据的个数。

离散系数:离散系数也称变异系数,根据平均差计算的离散系数也称平均差系数,根据标准差计算的离散系数也称标准差系数,实际中常用标准差系数,由标准差除以算术平均数得到。

离散系数=标准差/算术平均数

离散系数的性质:
①测量了数据的相对离散程度,常用于不同组数据离散程度的比较;
②可以消除数据水平不同和数据计量单位不同对数据离散程度的影响。

3、分布形态的描述

我们把数据分布的偏斜程度称为偏态,把数据分布的尖峰扁平程度称为峰态。

偏态

偏态是指数据分布的偏斜程度。它衡量了数据的对称性情况(这里只讨论单峰情形),由统计学家Karl Pearson于1895年首次提出。偏态可以用偏态系数(符号记作SK)来测量,其计算方法有很多,常用的有如下两种。

方法一,比较众数和平均数:

若平均数大于众数,则SK为正,故称正偏;若平均数等于众数,则SK为0,故称无偏(对称);若平均数小于众数,则SK为负,故称负偏(有的资料上用平均数-均值)。

方法二,Pearson偏态系数计算法(Excel中采用的是此计算方法):

未分组数据:

分组数据:

不同偏态分布的示意图

不同偏态分布的示意图

峰态:

峰态是指数据分布的尖峰扁平程度。它衡量了数据相对于标准正态分布的尖峰扁平情况(这里只讨论单峰情形),由统计学家Karl Pearson于1905年首次提出。峰态可以用峰态系数(符号记作K)来测量,这里介绍基于中心距的峰态系数(Excel中采用的是此计算方法)。

不同峰态的示意图

峰态的性质:
①K=0时尖峰扁平适中(与标准正态分布近似);K>0时尖峰分布;K<0时扁平分布。
②在峰态系数的计算过程中,若不减3,则计算结果与3比较。

4、描述性统计图表

统计表:

数据分析中,常用到的统计表是频数分布表,其将杂乱无章的数据按照取值情况进行分组整理,并计算相关指标,从中可以初步看出数据的分布情况。频数分布表常在表的第一列列出类别或组别,第二列统计各类别或组别的频数,并可以进一步计算各类别或组别的频率,对于顺序数据和数值数据,还可以进一步计算累计频数、累计频率等。

对于顺序数据和数值数据,在频数分布表中可以计算数据的累计频数或累计频率,累计从累计方向上可以分为向上累计和向下累计。

统计图:

饼图——常用于结构分析:饼图是将饼(圆形)按照各类别数据在总数据中所占比重进行等分,用于展示各类别比重结构状况,在各饼处可以标注数据的频数或频率情况,对于多个类别的数据,需要添加图例注明图中各部分代表的类别。

条形图(柱形图)——常用于对比分析:条形图(柱形图)将数据各类别的频数或频率画出条形(柱形),常将横置的图称为条形图,将竖置的图称为柱形图,通过各条形或柱形的对比,可以明显看出各类别的差异

条形图(柱形图)的各个类别可以任意排序,但如果将各类别按照频数从大到小排序,得到的图称为帕累托图

直方图——常用于观察数据的分布形态:直方图是数值数据的图,将数据按照分组情况画出各组的直方,通过观察直方的变化情况,可以初步确定数据的分布形态。

直方图与柱形图很像,区别在于柱形图是分类数据的方法,其横轴为类别轴,各类别之间无固定顺序,故各类别间需要间隔开;而直方图是数值数据的方法,其横轴为数轴,需要按照数轴的顺序排列,且数据要求连续,故各直方中间无间隔

箱线图——常用于观察数据分布特征:箱线图(也有人称为盒须图)由一个箱子、两条线构成,可以横置也可以竖置(通常采用竖置的箱线图)。竖置时上面一条线的顶端表示该组数据的最大值,下面一条线的底端表示该组数据的最小值,中间的箱子上端为该组数据的上四分位数,下端为该组数据的下四分位数,箱子的中间有一条横线表示该组数据的中位数。由于箱线图由数据的最小值、最大值、上四分位数、下四分位数、中位数5个指标构成,因此在实际数据分析中箱线图常用来观察数据分布特征。由于箱线图中最大值和最小值可能是极端值,为避免极端值影响数据分布特征的观察,因此在制作箱线图时,常先剔除极端值再制作箱线图。

线图——常用于描述变量的变化情况(时间序列数据):线图是用于描述时间序列数据的常用图。它是以横轴表示时间、纵轴表示变量值,将各时间的变量值描点,相邻点连线得到的图。

散点图——常用于描述变量间的相关关系:散点图常用于描述变量间的相关关系,其横轴表示一个变量,纵轴表示另一个变量。根据个体数据在图中描点,得到的图就是散点图。需要注意的是,散点图的各个散点之间不能连线,这与线图不一样,线图的各点之间有时间顺序,故可以连线,而散点图的各散点之间没有固定的顺序,故不能连线。


统计表的作用是整理数据,统计图的作用是展示数据。在实际应用中,有的既像图又像表,不容易识别,故统计学中规定,统计表的标题放在表上方(表头),统计图的标题放在图下方。此外,在统计表的制作中,规定表两端不封口,上下用粗线,其他用细线,去掉一些不必要的线,让统计表看起来尽量简洁;在统计图中也尽量去掉一些不必要的线,让统计图看起来简洁。

三、常用的数据分布

分布的本质是数据的规律。

6个常用的分布:两点分布、二项分布、正态分布(含标准正态分布)、χ2分布、t分布、F分布。

随机试验:结果不确定的试验。例如,进行一次抛硬币试验,结果是不确定的,可能是正面朝上,也可能是背面朝上。对于  随机试验的结果,我们称其为随机事件,如抛硬币正面朝上为一随机事件。用于表示随机事件的变量称为随机变量,若随机变量的取值可一一列举,则称为离散型随机变量;若不可一一列举,则称为连续型随机变量。对于多个随机事件,若其结果互不影响,则称其相互独立。

概率(Probability):用于描述随机事件发生的可能性大小,常用符号P表示,如事件X的概率记作P(X)。概率的取值范围为[0,1],最小为0,最大为1。若某随机事件是必然事件,则其概率为1;若是不可能事件,则其概率为0。

常记:离散型随机变量X的n个取值为xi(i=1,2,…,n),对应的概率为pi;连续型随机变量X的取值为x, x∈(a,b),对应的概率密度为f(x)。

期望(Expect):也称平均数、均值,常用于研究与概率相关的问题中,是随机变量的重要特征值,表示随机事件取值的集中趋势。期望的计算方法如下:①对于离散型随机变量,期望=随机变量的取值与其对应概率的乘积,再求和,即期望②对于连续型随机变量,期望=随机变量的取值与其对应概率密度的乘积,再求积分,即期望

方差(Variance):是随机变量的另一个重要特征值,表示随机事件取值的离散程度。在概率相关的问题中,方差的计算方法如下:①对于离散型随机变量,方差=随机变量的取值与其期望离差的平方的期望,即方差Var(X)= E[xi-E(X)]2;②对于连续型随机变量,方差=随机变量的取值与其期望离差的平方的期望,即方差Var(X)= E[x-E(X)]2。此外,不管是离散型随机变量还是连续型随机变量,其方差也可以通过公式Var(X)= E(X2)-[E(X)]2来计算。

1、两点分布

两点分布是指只有两个结果的随机事件服从的分布,如抛硬币结果:正面朝上、背面朝上,满意情况:满意、不满意,事件发生情况:发生、不发生。

2、二项分布

二项分布也称伯努利分布,将两点分布的试验独立重复进行多次,其结果就服从二项分布。设试验次数为n,两点分布中X =1的概率为p,则二项分布可以记作X~B(n, p),其中B指伯努利试验(伯努利提出的一种独立重复只有两个结果的试验)。因此,两点分布可以看作二项分布的特殊情况,可以看作只有一次试验的二项分布,故两点分布可以用符号记作X~B(1,p)。

二项分布的概率分布表

两点分布和二项分布的应用:在比例的研究中,比例实际上是服从二项分布的。

3、正态分布

正态分布,也称常态分布、高斯分布。它最早由法国数学家棣莫弗1733年在求二项分布的渐近公式中得到,后由德国数学家高斯(Gauss)在研究测量误差时推导得到其概率密度函数公式。

在数据分析中,很多时候如果不确定数据的分布形态,常假定数据服从正态分布。

4、标准正态分布

标准正态分布作为一种重要的特殊分布,我们常用一些特定的表示符号来表示其概率密度函数和分布函数。标准正态分布的概率密度函数通常用符号φ(x)表示,分布函数用Φ(x)表示;普通正态分布的概率密度函数通常用符号f(x)表示,分布函数用F(x)表示。标准正态分布是正态分布中最简化的正态分布。

根据以上正态分布和标准正态分布的概率计算经验,有一个重要结论在数据分析工作中常用到:若一组数据服从或近似服从正态分布,则大约有68.26%的数据落在其均值±1个标准差范围之内,大约有95.44%的数据落在其均值±2个标准差范围之内,大约有99.74%的数据落在其均值±3个标准差范围之内。

常用于置信区间的构造及异常值的判断(实际中常用均值±3个标准差作为异常值的判断,因为99.74%的数据是在这个范围内的,只有极少数据落在这个范围外,故可以判断为异常值)。

5、χ2分布

χ2分布(卡方分布)最早在1863年由阿贝(Abbe)提出,后由海尔墨特(Hermert)和卡·皮尔逊(Karl Pearson)分别于1875年和1900年推导出来。

χ2分布是相互独立的标准正态分布的平方和,故常用于含离差平方和的研究中,如方差的估计、方差的假设检验、列联分析等问题。

6、 t分布

t分布也称学生氏分布,是威廉·戈塞特于1908年在一篇以“学生”为笔名的论文中首次提出的。威廉·戈塞特在研究小样本问题时,发现标准正态分布存在较大误差,用t分布结果更为精确。


t分布的提出为统计学补充和完善了小样本理论,在实际数据分析中,小样本问题的研究需要用到t分布,且由于在大样本情况下,t分布非常接近于标准正态分布,在很多学科中,t分布几乎替代了标准正态分布(小样本需要用t分布,大样本也可以用t分布)。

7、F分布

F分布是统计学家费希尔(R.A.Fisher)于1924年提出的,后以其姓氏的第一个字母来命名。

F分布广泛应用在离差平方和的比较问题中,在比较中采用除法,结果会服从F分布。在方差分析、回归方程的显著性检验中都应用F分布。

分位点

在各分布中,分布函数表示了分布中某个点左侧的面积(概率),在数据分析中,还有一个重要的工具是用右侧面积来定义的——分位点。


四、相关分析

   变量之间关系的分析是数据分析非常核心的工作,变量之间关系的研究包括关系存在性研究、关系程度大小研究、关系方向的研究、关系形式的研究、关系传递的研究等,其中以关系形式的研究最为复杂,统计中有大量的分析方法都是来探索变量之间关系形式的。

   研究变量关系形式的前提是变量间存在一定程度的相关关系,故我们先学习相关分析,相关分析是研究变量之间关系存在性、关系程度大小常用的方法。

1、相关分析的含义

广义的相关分析是对两个或多个变量之间所有可能相关关系的分析(包括简单线性的、简单非线性的、多重线性的、多重非线性的)

变量之间的关系按照强弱来划分,常可以分为函数关系、相关关系、没有关系。

函数关系是指变量之间存在关系、且关系是确定的,即给出一个X,有且只有一个Y与其相对应,则称Y是X的函数。

从极限的角度看,函数关系可以看作是相关关系的极限,是强相关关系的极限;没有关系也可以看作是相关关系的极限,是弱相关关系的极限。

变量之间的关系按照形式来划分,可以分为线性关系和非线性关系。

线性关系是指变量之间的变化按照直线波动,非线性关系则按照非线性波动,非线性的具体形式非常复杂,如二次函数形式、对数形式、指数形式、正弦函数形式等。在实际数据分析中,我们常重点研究存在线性关系的变量,主要的原因是线性关系相比较于非线性关系相对直观一些,更易于理解,并且线性关系是非线性关系的基础,大部分非线性关系都可以转化为线性关系来研究。

变量之间的关系按照变量数量来划分,可以分为简单关系和多重关系。

简单关系常指两个变量的关系,即一对一的关系;多重关系也称复杂关系,是指多个变量的关系,具体可以分为一对多的关系、多对多的关系。

2、简单线性相关关系的描述

在实际数据分析中,常用一个非常直观的工具——散点图来描述变量的相关关系。

对于两个变量的线性相关关系,常呈现两种情形:一种是随着自变量的增大,因变量有增大的趋势,两者同向变化,我们称之为正相关,另一种是随着自变量的增大,因变量有减小的趋势,两者反向变化,我们称之为负相关。

3、简单线性相关关系的度量

简单线性相关关系的度量方法有很多,这里我们主要介绍两个常用的系数:Pearson相关系数和Spearman等级相关系数。

Pearson相关系数

设两个变量分别为x、y,Pearson相关系数的定义公式如下:

式中,Cov(x, y)是x、y的协方差;Var(x)是x的方差;Var(y)是y的方差;ρ可以看作根据总体数据计算的相关系数,即总体的简单线性相关系数。

样本的简单线性相关系数常用符号r表示,根据定义公式有:

式中,{L-End} 为的样本算术平均数;{L-End} 为的样本算术平均数。

相关系数r的特点如下。

(1)相关系数r的取值范围是[-1,1],其中-1≤r< 0表示负相关,0≤r< 1表示正相关。

(2)| r | = 1表示x与y完全相关,其中r = -1表示x与y完全负相关,r = 1表示x与y完全正相关。

(3)| r |越趋于1表示相关关系越密切,| r |越趋于0表示相关关系越不密切。

(4)r = 0表示x与y之间不存在线性相关关系。

相关系数r只能衡量两个变量之间的线性相关关系,当其为0时,只能说这两个变量之间没有线性相关,不能说它们之间没有关系

对于完全相关,只能看作是关系很强,但不能看作是函数关系,因为完全相关只是样本数据计算出相关系数为1或-1,可能换作另一组样本,计算结果就会不一样,即使根据历史数据每次计算的结果都是1或-1,但将来也可能有不一样的计算结果。

函数关系是先有关系再有样本数据,完全相关是先有样本数据再有关系。此外,函数关系除有线性函数关系外,还有非线性函数关系,在这里,完全相关只是完全的线性相关,并未测量非线性相关情形。

一般来说,当样本量越大时,相关关系的判断值就会越小(小的相关系数也表示了强的相关关系)。这需要用到相关系数的显著性检验和假设检验的内容

Spearman等级相关系数

如果变量数据是分类数据,也是可以计算相关系数来衡量变量之间的相关关系的,这需要用到列联分析方法,根据列联分析的统计量来计算。

如果变量数据是顺序数据,我们有以下两个思路可以构造相关系数来衡量变量之间的相关关系。

思路一,用分类数据的列联分析方法,构造列联分析的统计量。

思路二,使用Spearman等级相关系数。

设两个变量分别为x、y,Spearman等级相关系数rd的计算公式如下:

式中,d是被观测的两个变量的等级的差值(若有多个个体等级相同,则取其等级的平均数作为各个体的等级);n是样本容量。Spearman等级相关系数rd的取值范围也是[-1,1],具有和Pearson相关系数相同的特点。

使用相关系数时需要注意的问题

(1)相关系数是对称地度量两个变量的相关关系的,即x对y的相关系数与y对x的相关系数是相等的,x与y互换位置并不影响相关系数大小。

(2)相关系数只能反映变量之间的线性相关程度,既不能确定变量之间具体的因果关系(不能说明是x的变化引起y的变化,还是y的变化引起x的变化),也不能说明这种线性相关关系具体接近哪条直线。


^