七、使用统计学方法进行变量有效性测试(假设检验、方差分析、列联表分析卡方检验、线性回归、逻辑回归)
发布时间:2024-11
浏览量:220
本文字数:19332
读完约 65 分钟
数据驱动型决策的工作流程是,首先根据业务目标制定指标体系,然后通过分析指标发现业务执行过程中的问题,再通过宏观和微观相结合的根因分析技术定位关键问题并制定优化方案,最后使用统计学方法进行变量有效性测试。
变量有效性检验的主流技术是统计学假设检验与回归分析。
一、假设检验
统计学里假设检验的思想举例:如果想知道北京市住宅价格增长率是否是7.4%,那么可以首先假设北京市住宅价格增长率为7.4%,设定显著性水平为0.05,抽样发现样本住宅价格增长率均值为10%,经过统计学检验,发现检验的p值小于0.05,表明差异10%-7.4%=2.6%是显著的,有理由拒绝原假设,即北京市住宅价格增长率不是7.4%。若将原假设改为9.5%,其他不变,虽然也有10%-9.5%=0.5%的差异,但是检验的p值大于0.05,那么就不能够拒绝原假设,说明没有足够的证据证明北京市住宅价格增长率不是9.5%。
1、假设检验的基本概念
1)假设检验的基本原理
统计上的假设检验是一个标准化的流程,具体包括设置等值假设与备择假设、确定显著性水平、收集数据和计算统计量、查表获取p值等。
(1)事先对总体分布或总体参数做出某种假设(原假设),然后利用样本信息判断原假设是否成立。
(2)假设检验可分为参数假设检验和非参数假设检验。
(3)逻辑上类似“反证法”,统计学称为“小概率原理”
2)小概率事件原理
小概率事件发生的概率很小,它在一次试验中几乎是不会发生的。在数学上,我们称这个原理为小概率事件原理。
小概率事件原理是概率论中具有实际应用意义的基本理论,例如,若事件A是小概率事件,但在一次或少数几次试验中小概率事件A居然发生了,就有理由认为情况不正常,事件A不应该发生。
3)假设检验的基本思路
从总体中抽取一定比例的样本用于观察检验,基于样本的检验结果,推测总体的某种情况或现状。检验过程中将提出原假设和备择假设,如果小概率事件未发生,则认为原假设是成立的。
需要注意的是,在设置原假设时实际上是设置等值假设。这里有两个原因。第一,假设我们在打靶,那么前提是要有明确的目标,而设置等值假设的目标是为了更好地命中目标。第二,大部分统计检验的方法都是在等值假设的基础上计算统计量的,比如单样本t检验的分子来自样本的统计量减原假设的值。
2、假设检验中的两类错误
小概率事件原理认为小概率事件在一次试验中是不可能发生的,但现实并非如此。
假设检验中的两类错误:
第一类错误(弃真错误):当原假设H0为真时,拒绝原假设,犯第一类错误的概率为α,也称为“显著性水平”。
第二类错误(取伪错误):当原假设H0为假时,接受原假设,犯第二类错误的概率为β。
虽然一般认为显著性越小越好,但是随着显著性的减小,犯第二类统计错误(β型错误)的概率会上升。
H0为原假设,H1为备择假设。α是阈值点[插图]以右、以μ0为均值的分布曲线下的面积。β是阈值点[插图]以左、以μ1为均值的分布曲线下的面积。α取值越小,阈值越向右移,β值越大,因此不建议α取值过小。当样本量达到几百个时,社会科学领域一般设置α值为5%、1%;而当样本量只有几十个时,可以将α值设置为10%;只有样本量在四五千个左右时,才会将α值设置为0.1%。
注意事项如下:
(1)拒绝或无法拒绝假设,并不能说明该结论100%的正确。
(2)两类错误的概率相加并不一定等于1。
(3)在样本量不变的情况下,α与β不能同时增大或同时减小。
3、假设检验与区间估计的联系
假设检验和区间估计同属于统计方法中的推断统计,假设检验和参数估计属于并列关系,区间估计属于参数估计的一种。
假设检验与区间估计的相同点是,二者均是用通过样本得到的统计量对总体参数进行推断。假设检验与区间估计的不同点是,假设检验使用反证法,先对总体参数μ提出假设,再通过样本检验假设是否成立;区间估计使用顺推法,总体参数μ未知,通过样本估计μ的置信区间。
4、假设检验的基本步骤
(1)提出原假设,确定业务需求。
(2)选择合适的检验统计量。
(3)确定显著性水平α。
(4)计算检验统计量。
(5)做出统计决策,接受或拒绝原假设。
首先,我们需要明确,问题是什么?我们提出了基于问题的假设,如果将原假设设为H0,那么与之相反的假设被称为备择假设,设为H1。接下来,基于结果如何判断是原假设成立还是备择假设成立呢?此时需要一个标准,选择一个α作为Significance Level(显著性水平),即判断标准。由此,我们开始收集证据,当零假设成立时,得到样本平均值的概率为p。最后,得出结论,当p≤α时,拒绝原假设,即备选假设成立;当p>α时,接受原假设。
假设检验的详细步骤如下:
(1)提出原假设,确定业务需求。在实际问题中,提出原假设与备择假设,其他统计学教科书中会提出3种检验问题,笔者建议仅掌握第一种问题检验的方法即可。
(2)检验合适的统计量。选择统计量的方法与选择参数估计的方法相同,先考虑是大样本还是小样本,然后考虑总体方差已知还是未知(在实际工作中很难遇到已知方差的情况)。
(3)检验统计量的基本形式如下。
总体方差已知:
总体方差未知:
(4)确定显著性水平α。显著性水平α即原假设H0为真却拒绝原假设时的概率。α也被称为抽样分布的拒绝域,常用的取值有0.01、0.05等。
(5)计算检验统计量。把待检验的值代入统计量中进行计算。
(6)做出统计决策,接受或拒绝原假设。决策方法有3种:
•α临界值法,该方法最常用;
•p值法,该方法最好用;
•置信区间法,该方法原理最简单,也最好理解。
5、配对样本t检验
配对样本t检验主要用于同一个试验前后效果的比较,或者同一个样本用两种方法得到的检验结果的比较。可以把配对样本的差作为变量,其中差值的总体均值为0,且服从正态分布。
检验两个配对样本的均值是否有显著性差异(总体应服从或近似服从正态分布),可分为以下两种。
第一种:对同一个研究对象给予两种不同的处理结果。
第二种:对同一个研究对象的试验前后效果进行比较。
检验步骤如下:
(1)提出假设
原假设 H0:μ=μ1=μ2
备择假设 H1:μ1≠μ2
(2)建立检验统计量:
设两个总体X和Y都服从正态分布,两个样本之差d~N(u, σ2),则
二、方差分析
方差分析用于检验多个样本的均值是否有显著性差异,多用于两个分类的分类型变量与连续型变量的关系
1、单因素方差分析
单因素方差分析可以得到单个因素下的不同水平对观测变量的影响程度。这里的因素的不同水平表示因素不同的状态或等级。
(1)变量服从正态分布。
(2)观测之间独立。
(3)需要验证组间的方差是否相同,即方差齐性检验。
需要注意的是,在方差分析中,原假设为所有组的方差相等,备择假设为至少有两组方差不相等
不同教育程度的均值在两种假设下的情况案例:
在方差分析中,数据的总误差可以分为组内误差与组间误差,二者的区别在于找到类别不同的组间变异(SSM)和组内变异(SSE)的关系。
其中,组内变异是同类别下数据的离均差平方和,代表同类别数据变异的程度;组间变异是组内均值与总均值的离均差平方和,代表不同类别数据变异的程度。组间变异与组内变异之和为总变异(SST),相关公式如下。
其中,SSE是组内离差平方和,受随机误差的影响;SSm是组间离差平方和,受不同水平的影响。如果原假设成立,则组内均方与组间均方之间的差异不会太大;如果组间均方明显大于组内均方,则说明水平对观测变量的影响显著。因此,观测均值在不同水平下的差异转换为比较组间均方和组内均方之间差异的大小。
总变异与组间变异、组内变异之间的关系:
在进行方差分析时,首先计算所有类别下数据的均值:
再计算总变异,总变异即数据的离差平方和:该数据的总变异为28。
然后分别计算组内变异(SSE)和组间变异(SSM):
组间变异表示类别间数据的差异,组内变异表示类别内数据的差异,两者之和为总变异,在总变异不变时,组间差异大,组内差异就小,这也意味着当各个类别间数据的差异较大时,各类别内数据的差异较小。那么这种差异究竟要大或小到何种程度才能够做出推断呢?此时可以构造如下统计量:
SSM/(k-1)表示组间变异除以自由度,SSE/(n-k)表示组内变异除以自由度,两者的比值服从自由度为(k-1, n-k)的F分布。
显然,当F值越大时,组间的变异越大,越倾向于拒绝原假设,即组间是有差异的。
单因素方差分析的另一种表示方法类似回归:
因变量=原假设成立设定的平均数值+平均数值的变更效应+残差。其中,i表示分类自变量的第i个水平。
从结果看,F值约为32.29,P值接近于0,所以拒绝原假设,即教育程度会显著影响收入。
单因素方差分析可以检验一个分类型变量与一个连续型变量之间的关系,多因素方差分析可以检验多个分类型变量与一个连续型变量的关系。
在多因素方差分析中,除考虑多个分类型变量对连续型变量的影响外,还应考虑分类型变量之间的交互效应。例如,在探讨信用卡消费与性别、教育程度的关系时,应考虑性别与教育程度的交互效应,即教育程度对不同性别的信用卡消费人群的影响可能存在差异。有无交互效应的公式分别如下。
(1)无交互效应。
因变量=原假设成立均值+自变量α的变更效应+自变量τ的变更效应+残差。其中,i表示分类自变量α的第i个水平,j表示分类自变量τ的第j个水平。
(2)有交互效应。
因变量=原假设成立平均数+自变量α的变更效应+自变量τ的变更效应+交互相应+残差。其中,i表示分类自变量α的第i个水平,j表示分类自变量τ的第j个水平。
2、多因素方差分析
多因素方差分析之无交互效应的结果展示:
需要注意的是,教育程度0(研究生)与性别水平0(男性)都变成了参照水平,即不进入模型。可以看到3种等级的教育程度相较于研究生教育程度都有显著差异,而对性别则没有显著差异。
接下来进行加入交互项的方差分析:
多因素方差分析之有交互效应的结果展示:
可以看到,加入交互项后,除之前的参照水平男性(gender:0)和参照水平研究生(edu_class:0)外,交互组多了参照水平男性研究生(gender0*edu_class0)。请注意,在加入交互项后,教育程度的显著性水平发生了细微的变化,而女性对信用卡消费的影响相比于男性对信用卡消费的影响还是不显著的;在交互项中,处于第一种教育程度的女性相比于男性研究生而言,信用卡消费的影响不显著,其他交互项效应的检验结论相同。
三、列联表分析与卡方检验
两个分类型变量之间关系的检验。如果其中一个变量的分布随着另一个变量的水平不同而发生变化,那么两个分类型变量就有关系,反之没有关系。在具体操作时,可以通过列联表分析与卡方检验得以实现。
1、列联表
列联表是一种常见的分类汇总表,该表将待分析的两个分类型变量中一个变量的每个类别设为列变量,另一个变量的每个类别设为行变量,中间对应着不同变量、不同类别下的频数。
假设分类行变量为A=a1,a2,…,ak},分类列变量B={b1,b2,…,bp},I(A=ai, B=bj)表示A变量水平ai和B变量水平bj的频数,交叉表统计频数如下:
下面分析分类型变量是否违约(bad_ind)与分类型变量是否破产(bankruptcy_ind)的关系,在pandas中可以使用crosstab函数生成列联表。
交叉表输出结果如图:
列联表显示破产状态(bankruptcy_ind='Y')且违约状态正常(bad_ind=0)的用户有345个,破产状态(bankruptcy_ind='Y')且违约状态不正常(bad_ind=1)的用户相对较少,有103个。同理,还可以对比其他情形的频数差异。
由于样本量不同(例如bankruptcy_ind中N有5180个,而Y仅有448个),因此频数的差异不能直接反映离散变量之间的关系,我们需要将其转换为频率。例如,将每个频数与行总计相除,就可以得到行百分比。
交叉表转换为行百分比的输出结果如图:
这时我们就可以看到破产状态(bankruptcy_ind='Y')的用户违约率为22.99%,非破产状态(bankruptcy_ind='N')的用户违约率为19.6%。如果我们认为这两个违约率没有差异(纵向比较),那么说明是否破产与是否违约不相关。
在生成列联表以后,虽然能够对比出差异,但是这种差异是否有统计学意义就需要进行检验了,使用的检验方法是卡方检验,其检验统计量可以从列联表的频数计算得来。
2、卡方检验
卡方检验的思想是比较期望频数和实际频数的吻合程度,这里的实际频数指单元格内实际的观测数量,期望频数指行变量某类别与列变量某类别互相独立的时候的频数。
以违约破产为例,列联表中期望频数的计算如图:
以“破产=N”和“违约=0”为例,实际频数为4163。
“破产=N”的频率(概率估计)为5180/5628=92.0%,“违约=0”的频率(概率估计)为4508/5628=80.1%。当二者独立时,期望频率为:
p(破产=N,违约=0)=p(破产=N)×p(违约=0)=92.0%×80.1%=73.7%
此时的期望频数为5628×73.7%=4148,期望频数的整个计算过程简化后是:
期望频数=(行总/样本量×列总/样本量)×样本量=(行总×列总)/样本量
同样的,其他的单元格期望频数与实际频数的差异都可以计算出来。这些差异是否能够表明两个分类型变量的差异具有统计学意义?这里需要继续进行卡方检验。
卡方检验的原假设是期望频数等于实际频数,即两个分类型变量无关,备择假设为期望频数不等于实际频数,即两个变量有关,卡方检验的统计量为:
Obsij指第i行第j列的单元格的实际频数,Expij指第i行第j列的单元格的期望频数,卡方统计量实际上构造了列联表中每个单元格的残差(实际频数-期望频数)平方和除以每个单元格的期望频数,然后求和,计算出卡方检验的统计量。
卡方检验的统计量服从自由度为(r-1)(c-1)的卡方分布(r表示行个数,c表示列个数),如图:
计算出卡方统计量后,结合相应自由度的卡方分布,就可以计算出相应的p值,在违约且破产的情况下,自由度为(3-1)×(2-1)=2。根据p值的大小与事先确定的显著性水平,就可以推断两个分类型变量是否有关了。
需要注意的是,卡方检验并不能展现两个分类型变量相关性的强弱,只能展现两个分类型变量是否有关。
卡方检验的输出结果如图:
检验结果表明,卡方值为2.9167,p值为0.57,表明没有理由拒绝违约与破产两个分类型变量是独立的假设,即二者没有关系。
四、线性回归
在进行两个连续型变量的相关性分析时,可以使用Pearson相关系数衡量两个连续型变量相关性的强弱。
分析一个解释连续型变量的变化对另外一个被解释连续型变量的影响,可以使用线性回归算法。
在线性回归中,变量分为自变量与因变量。因变量是受到影响的变量,自变量是影响因变量的变量。对于线性回归模型,自变量与因变量都是连续型变量。与之前介绍的方差分析不同,在方差分析中自变量为分类型变量,因变量为连续型变量。
1、简单线性回归
简单线性回归只有一个自变量与一个因变量。简单线性回归模型可写为:
其中,Y表示因变量,β0表示截距,β1表示回归系数,X1表示自变量,ε表示残差。
简单线性回归模型与数学中的线性方程类似,只不过多了一个残差项ε,其应服从均值为0的正态分布。
简单线性回归的原理就是拟合一条直线,使得实际值与预测值之差的平方和最小。当该值达到最小时,这条直线就是最好的回归拟合线。
实际值与预测值之差被称为残差,线性回归旨在使残差平方和最小,即:
其中,表示线性回归的预测值,yi表示实际值。求最小值的数学方法为求导数,当导数等于0时,可证明其残差平方和最小,由此可得系数的估计值:
以上这种求解线性回归方程系数的方式被称为最小二乘法。
接下来通过可解释的平方和除以总平方和得到R2,作为线性回归拟合优度的指标:
可解释的平方和指的是因为回归线带来的变异,总平方和指的是数据本身的变异,显然可解释的变异占总平方和比例越大,即R2越大,模型拟合效果越好。一般来说,如果R2大于0.8,则说明拟合效果非常好。
(1)估计出线性回归方程的回归系数与截距后,需要对回归系数进行检验,即回归系数是否为0,其中:
原假设:简单线性回归模型拟合得没有基线模型好,β1=0。
备择假设:简单线性回归模型拟合得比基线模型好,β1≠0。
检验的统计量为:
即系数估计值除以估计值的方差,服从自由度为t-2的t分布。
(2)在多元线性回归中,除检验单个系数是否为0外,还需要检验回归系数是否全部为0。
原假设:回归系数全部为0,即β1=β2=β3=……=0。
备择假设:回归系数不都为0。
检验的统计量为:
MSM表示可解释的变异,MSE表示不可解释的变异。
2、多元线性回归
多元线性回归是在简单线性回归的基础上,增加更多的自变量,其表达形式如下:
其中,Y是因变量,X1,X2,…,Xk是自变量,ε是误差项,β0,β1,β2,…,βk是未知系数。多元线性回归原理与简单线性回归原理一致,以两个自变量的多元线性回归为例,可以构造一个三维直角坐标系,为了方便演示,这里设置X1与X2是服从0~1均匀分布的随机数,ε服从标准正态分布,截距为β0:
z轴表示因变量Y,x、y轴分别表示两个自变量。此时,二元线性回归拟合的是一个回归面,这个回归面与xy平面、xz平面和yz平面都是斜交的,通过旋转得到不同的三维散点图:
回归面及X1与X2:
X1与Y的关系和X2与Y的关系:
可以看到,在多元线性回归中,X1、X2与Y都有明显的线性相关关系,且X1与X2没有线性相关关系,三者形成的点在空间中是一个回归平面。如果X1、X2和Y相关性较弱,那么就无法拟合一个合适的回归平面。同理,当出现高阶项时,X1、X2和Y就不是线性相关关系,三维空间中的点就形成了一个曲面,若用平面拟合,则效果不佳
X1、X2、Y三者彼此无关和三者非线性相关:
二元线性回归是最简单的多元线性回归模型,从上面的例子可以知道,即使是多元线性回归,也要求自变量与因变量之间有线性关系,且自变量之间的相关关系要尽可能弱。
关于模型解释力度的评估,仍旧使用R2。不过在入模变量筛选过程中,由于原始的R2在实际应用中存在一个问题,即解释变量的数量越多,R2越大,至少是不会下降的,因此无法用于对解释变量进行筛选。针对模型解释变量冗繁而无效的问题,统计学专家提出了调整R2。调整R2对解释变量的数量做了惩罚性的调整。当增加一个解释变量,但是其对整个模型的预测能力提升不高时,调整后R2反而下降。因此,调整R2可作为模型筛选的重要依据,计算公式为:
(1)当有截距时,i等于1,反之等于0。
(2)n为用于拟合该模型的观察值数量。
(3)p为模型中参数的个数。
调整后的R2加入了观测个数与模型自变量个数以调整原来的R2,但需要注意的是,在模型观测与自变量个数不变的情况下,评价模型解释力度的仍旧是R2。还有许多指标可以评价回归优劣,例如AIC准则、BIC准则等。
下面以数据集creditcard_exp.csv为例,使用statsmodels模块实现线性回归模型,该数据是一份汽车贷款数据
3、多元线性回归的变量筛选
多元线性回归模型能够按照一些方法筛选建立回归的自变量,这些方法包括向前回归法、向后回归法、逐步回归法。
这3种方法选入或剔除变量的准则可以使用调整R2、AIC准则、BIC准则等。具体来说,3种回归方式的主要区别在于自变量进入模型的先后次序不同。
1)向前回归法
首先将第一个变量引入回归方程,并进行F检验和t检验,计算残差平方和,记为S1,如果通过检验,则保留该变量。然后引入第二个变量,重新构建一个估计方程,进行F检验和t检验,并计算残差平方和,记为S2。直观地看,增加一个新的变量后,回归平方和应该增大,残差平方和应该相应地减少,即S2应该小于或等于S1,S1-S2的值就是第二个变量的偏回归平方和,表示第二个变量解释的增量信息,如果该差值明显偏大,那么说明第二个变量对因变量有显著影响;反之,则没有显著影响。
用被解释变量(Y)和每个解释变量(X)做回归分析,选取一个解释力度最高的变量(AIC准则、BIC准则、P值、调整R2等);在选取第二个变量时,用被解释变量(Y)减使用第一个解释变量(X5)得到的预测值(β5X5),得到残差(e=Y-β5X5)。用残差和余下的解释变量做回归分析,找到解释力度最大的变量X9,以此类推。
2)向后回归法
向后回归法与向前回归法正好相反。首先,将所有的X变量一次性放入模型进行F检验和t检验,然后根据变量偏回归平方和的大小逐个删除不显著的变量。如果偏回归平方和很大,则保留;反之,则删除。
向后回归法需要满足样本量大于变量个数的条件,而向前回归法在这种情况下也可以使用。
3)逐步回归法
综合向前回归法和向后回归法的特点,将变量一个一个地放入方程,在引入变量时需要利用偏回归平方和进行检验,当显著时才加入该变量。当方程加入该变量后,要对原有的变量重新用偏回归平方和进行检验,一旦某个变量变得不显著,就删除该变量。如此循环,直到旧变量均不可删除、新变量也无法加入。
逐步回归法一开始遵循向前回归法,直至有4个变量X1、X2、X3、X4被引入模型。在这之后遵循向后回归法,删除一个最没有解释力度的变量,然后遵循向前回归法,加入一个最有解释力度的变量,这个变量有可能是刚才被删除的变量,也有可能不是被删除的变量。如此循环,直到旧变量均不可删除、新变量也无法加入。
对于线性回归中的变量筛选,统计学家在研究中提出了多种筛选准则,其中一个就是AIC(Akaike InformationCriterion,赤池信息量)准则,即最小信息准则,其计算公式如下:
其中,p代表被引入回归模型的自变量的个数,n为观测数量,RSS为残差平方和,即。在n一定的情况下,残差平方和RSS越小,说明模型拟合效果越好,但如果RSS变小是通过增加解释变量(p增大)来实现的,则模型的复杂度会增加。一般来说,越复杂的模型越容易出现过度拟合,如果换一批数据,模型的拟合效果会大幅下降。AIC准则综合考虑了拟合效果与模型复杂度,AIC值越小,说明模型拟合效果越好且简洁。另外,还有类似的BIC准则、p值等。
4、线性回归模型的经典假设
1)线性于参数
当自变量与因变量是非线性关系时,可以使用一些方法将因变量或自变量做变换,使得变换后的因变量与自变量产生线性关系,变换如下:
因变量是指数型,可以对因变量取自然对数。以上模型被称为可线性化模型。
还有一种是不可线性化模型,其变换公式如下。其中,P为Y=1的概率。
这种变换即逻辑回归,已经不是线性回归模型可以处理的了,被称为一般线性模型。
逻辑回归就是当被解释变量为分类型变量时采用的算法。
2)正交假定:扰动项与自变量不相关,期望值为0
该假设提示我们在建立模型时,只要有同时和X、Y相关的变量就应该被纳入模型中,否则回归系数就是有偏的,注意该假设是不能在回归后根据结果进行检验的(通过工具变量法进行内生性检验并不一定有效,这是计量经济学的前沿问题)。最小二乘法本身就是正交变换,即使该假设不被满足,任何估计的方法产生的残差都会和解释变量正交,因此在建立模型时需要特别注意是否在模型中遗漏了重要变量。
3)扰动项之间相互独立且服从方差相等的同一个正态分布
扰动项代表个体的差异性,如果其不独立,则说明个体之间相互影响,并且仍旧有重要的信息蕴含在其中未被提取出来。扰动项同分布的意义也在于每一个个体都应出自同一个正态分布
扰动项的变化范围要一致,从表象上看就是残差的方差要尽可能相等,如图:其他3个图形中可以明显看出残差的方差与自变量相关,即存在异方差现象。
在线性回归的前提条件中,除自变量与因变量要有线性相关关系外,剩下的基本都和残差有关,所以残差分析是线性回归诊断的重要环节。
以上假设表明,残差应服从的前提条件有三个:第一,残差不能和自变量相关(不能检验);第二,残差独立且同分布;第三,残差方差齐性。查看残差情况的普遍方法是查看对应的残差图。
残差图是由模型预测值与相应的残差绘制而成的,即残差—预测值图,可以分为以下几种情况:
残差—预测值图分类
(a)中,残差随预测值的增大呈随机分布,上下界基本对称,无明显自相关,方差基本齐性,属于正常的残差。
(b)中,可以看到残差与预测值呈曲线关系,意味着实际值与线性拟合的直线的差异不是线性关系,进一步可以判断自变量与因变量不是线性关系,需要将自变量的高阶项一同放入模型。
(c)中,可以看到残差虽然上下基本对称,但随着预测值的增大,上下分布幅度不断增大,这种情况说明残差的方差不齐,拟合的线性回归需要修正。
(d)中,可以看到残差随着预测值的增大呈周期性变化,预示自变量与因变量可能是周期变化的关系。
残差分析能够提供很多模型诊断的信息,对于残差出现的问题,解决方法如下:
(1)X和Y为非线性关系:X的高阶形式,一般加入X2就可以了。
(2)方差不齐:横截面数据经常表现出方差不齐的现象(如“信用卡支出分析”数据),修正的方法有很多,比如加权最小二乘法、稳健回归等,而最简单的方法就是对Y取自然对数。
(3)自相关:在分析时间序列和空间数据时经常遇到这种现象。复杂的方法是使用时间序列或空间计量方法进行分析,简单的方法是加入Y的一阶滞后项进行回归。
4)多重共线性
两个自变量不能有太强的相关性,将其推广到多元线性回归中,自变量之间不能有强共线性,又称多重共线性。如果多元线性回归中存在多重共线性问题,那么会使回归系数、截距系数的估计值非常不稳定。
在介绍多重共线性时,还是以二元线性回归为例。与之前介绍过的二元线性回归和简单线性回归相比,此次拟合的是一个回归平面,如图:
二元线性回归表达式为:
Y=40X1+40X2+ε
其中,X1、X2是服从0~1均匀分布的随机数,是服从均值为0、标准差为1的正态分布。
可以看到,拟合的是一个与X1Y平面、X2Y平面、X1X2平面斜交的回归平面。现在假定X1与Y2有多重共线性,即X1与X2线性相关,构造如下方程组:
Y、X1、X2的三维散点图变成箭头位置的直线,此时拟合回归平面是非常不合适的,因为以箭头为轴可以拟合无数个回归平面,而且从参数估计的角度讲,回归系数与截距数值的估计值非常不稳定。
多元线性回归的案例与二元线性回归的案例类似。多重共线性会导致回归方程的极度不稳定。需要特别注意的是,多重共线性是线性回归的“死敌”,人们研究了很多方法用以减小多重共线性对线性回归的影响,如方差膨胀因子、特征根与条件指数、无截距的多重共线性分析等,这里主要介绍方差膨胀因子。
方差膨胀因子的计算公式为:
VIFi表示自变量Xi的方差膨胀系数;表示把自变量Xi作为因变量,与其他自变量做回归时的R2。
显然,如果自变量Xi与其他自变量的共线性较强,那么回归方程的[插图]就会比较大,从而导致该自变量的方差膨胀系数比较大。一般认为,当方差膨胀因子VIFi的值大于10时,说明有严重的多重共线性。
在处理多重共线性问题时,还有以下几个思路可供选择:
(1)提前筛选变量,在做回归之前对每个解释变量与被解释变量使用相关检验、决策树或随机森林方法筛选对被解释变量的解释力度,但不能完全解决多重共线性问题。如果两个共线性的变量和因变量都很相关,那么使用决策树和随机森林方法分析这两个变量有可能都会排在前面。因此,需要和变量聚类方法结合使用,用以在多个高度相关的变量中保留一个最优价值的变量。
(2)子集选择是一种传统方法,包括逐步回归法和最优子集法等,这种类型的方法对可能的部分子集拟合线性模型,然后利用判别准则(如AIC准则、BIC准则、CP准则、调整R2等)决定最优的模型。这种类型的方法是贪婪算法,在理论上只在大部分情况下起效,在实际操作中需要与思路(1)结合,因为这种类型的方法当变量数量非常多时,执行效率较低。
(3)收缩方法(Shrinkage Method),又被称为正则化(Regularization),主要包括岭回归(Ridge Regression)和Lasso回归。该方法通过对最小二乘估计加入惩罚约束,使某些系数的估计为0。其中,Lasso回归可以实现筛选变量的功能。
(4)维数缩减,包括主成分回归(PCR)和偏最小二乘回归(PLS)两种方法。把P个预测变量投影到m维空间(m<P),利用投影得到的不相关的组合建立线性模型。使用这种方法模型的可解释性差,因此不常使用。
在不更换最小二乘线性回归模型的前提下,方法(1)、(2)、(4)是可行的,而收缩方法会涉及新的回归模型——岭回归和Lasso回归。
5、建立线性回归模型的基本步骤
初始分析用于确定研究目标、收集数据。变量选择用于找到对因变量有影响的自变量。验证模型假定包括以下几点。
(1)在设置模型时,选择何种回归方法、如何选择变量,以及变量以何种形式被放入模型(根据理论、看散点图)。
(2)解释变量和扰动项不能相关(根据理论或常识判断,无法检验)。
(3)解释变量之间不能强线性相关(方差膨胀系数)。
(4)扰动项独立且同分布(异方差检验、D-W检验)。
(5)扰动项服从正态分布(QQ检验)。
需要注意的是,假定(3)~假定(5)检验只能保证模型的精确度;而假定(1)和假定(2)则能保证模型是正确的。
违反假定(1),可能导致模型预测能力差;违反假定(2),可能导致回归系数估计有偏;违反假定(3),可能导致回归系数的标准误被放大,系数估计不准确;违反假定(4),可能导致扰动项的标准差估计不准,t检验失效;违反假定(5),可能导致t检验不可使用。
接下来处理数据集,建立回归模型。回归模型建立后,需要对其进行多重共线性与强影响点的诊断与分析,若模型出现问题,则需要根据具体问题修正模型,使其符合要求后,就可以使用该模型进行预测与解释了。
需要注意的是,统计方法只能帮我们建立精确的模型,不能帮我们建立正确的模型,建立正确的模型还需要有对业务场景的充分了解与丰富的经验,从而尽可能找到全面、合适、关键的自变量。
五、逻辑回归
预测二分类型变量的逻辑(Logistic)回归模型,以及模型系数的估计和模型优劣的评估,并且结合Python实现从建模到评估的过程。
以电信用户流失与否作为案例进行讲解,通过用户年龄、在网时长、最高单月通话时长等特征来构建用户流失预测模型,研究用户流失的可能性大小。对于因变量为分类型变量的分析常常使用逻辑回归模型。逻辑回归模型历史悠久,运算速度快,模型可以输出连续的概率预测值用于排序,常常应用于精准营销、信用评级等领域。由于计算高效,逻辑回归模型常与其他模型组合,用来提高分类准确率。
1、逻辑回归的相关关系分析
逻辑回归的因变量常为二分类型变量,其自变量既可以是分类型变量,也可以是连续型变量。分类型变量相关分析的方法,即列联表分析和卡方检验。对于连续自变量与二分类型因变量的独立性可以使用双样本t检验
变量类型与检验方法(逻辑回归)
2、逻辑回归模型及实现
逻辑回归模型具有可解释性强、计算高效和部署方便等优点,是应用最广泛的3种分类模型之一,也是社会学、生物统计学、计量经济学、市场营销等统计实证分析的常用方法。
1)逻辑回归与发生比
在信用评分模型领域,逻辑回归以其稳健的表现而得到广泛应用,逻辑回归能够根据自变量预测目标变量响应(违约)的概率:
逻辑回归通过logit转换将取值为正负无穷的线性方程的值域转换为(0, 1),正好与概率的取值范围一致,公式如下:
或
其中,被称为logit转换。在二元逻辑回归中,Pi代表事件响应的概率。
虽然是一种数学转换,但也是有现实意义的。在医学中,Pi往往代表发病死亡的概率,所以
又被称为发生比、优势、Odds等,表示在样本中某种疾病导致死亡的概率比不死亡的概率高多少倍,进而通过比较两组的发生比,推断某因素是否是致命的病因;在汽车违约贷款模型中,
表示在样本中违约的概率是不违约的概率的多少倍,显然这个比值是很有用的。
这里A、B两组共有180个观测,其中在B组中结果为“是”的观测数为90个,结果为“否”的观测数有10个,因此B组结果为“是”的概率是0.9,结果为“否”的概率是0.1,进而可以通过公式计算B组的“是”的发生比:
同理,可以计算A组的“是”的发生比:
接下来,比较A、B两组的发生比的比值:
B组的发生比对A组的发生比的比值为3,表明结果“是”在B组的可能性是在A组的3倍。发生比的比值解读:可以以1为界限,若B组和A组发生比的比值为1,则说明两组在“是”的可能性上相当,进而说明“是”这个事件不能够在A、B两组得到区分;当发生比小于1时,说明结果“是”在A组的可能性比在B组的可能性大,反之,B组的可能性大,如图
2)逻辑回归的基本原理
逻辑回归通过构建logit变换,从而进行概率的预测。同样,线性回归也是一种预测方法,两者在使用时容易产生混淆。
线性回归适合预测连续型变量,而逻辑回归适合预测分类型变量,并且其预测的是区间(0, 1)的概率。
在本案例中,目标事件是一个二元目标变量,即流失与不流失,适合二元逻辑回归。在实际中,二元逻辑回归使用最为广泛,因为二元的目标事件非常多,也非常适合分析与解释,除用户关系管理中的“是否重购”“用户是否流失”外,还有金融领域的信用评分模型,以及医学上的“是否死亡”等目标变量。在遇到多元目标变量时,逻辑回归也能够进行预测,但更多时候,分析师倾向于根据业务理解将多元目标变量整合为二元目标变量,然后使用逻辑回归。逻辑回归预测的是事件的概率,其使用最大似然估计对概率进行参数估计,本质上是一个连续型数值。而线性回归使用普通最小二乘法,预测的也是连续型数值,那么为什么不使用线性回归呢?
OLS Regression(普通最小二乘法)的公式为:
首先,我们知道概率是一个(0, 1)的数值,而普通最小二乘法的预测区间包含正无穷和负无穷。如果预测出概率的值为1.1、3.2或负数,那么无法对其进行解释。其次,普通最小二乘法对变量分布有着严格的要求,即正态分布,但分类型变量无法保证其服从正态分布,而二元目标变量服从二项分布而非正态分布,此时线性概率模型便能派上用场了。
Linear Probability(线性概率模型)的公式为:
线性概率模型也会出现一些问题,比如线性概率模型会预测出超过概率范围的值,比如1.1、-0.2等,仍旧不好解释。即使给定了预测值的上限和下限,也无法推断所有取值下自变量与因变量的关系。另外,因为给定了上下限,残差方差的齐性不好验证,最后预测出的概率不知道是什么类别的概率。
逻辑回归则清晰了很多,通过logit变换将预测响应的概率进行了变换,将原来的取值放大到整个数轴,即正负无穷:
逻辑回归模型公式如下:
•logit(Pi)表示将事件发生或不发生的概率进行logit变换。
•β0表示解释回归模型的截距。
•βk表示logit回归待估计的参数。
逻辑回归模型的参数估计使用的是最大似然估计。因变量服从二项分布,logit变换参数估计先是构造最大似然函数,然后估计参数β,使得最大似然函数的值达到最大,其原理是根据样本因变量的分布,计算最大的似然函数值,找到相应的参数β,使得预测值最接近因变量分布。
3)在Python中实现逻辑回归
逻辑回归是经典的分类算法,常见的数据挖掘工具包都在其中实现了,这里使用statsmodel数据集进行案例演示。
3、逻辑回归的极大似然估计
线性回归采用最小二乘法进行参数的估计,逻辑回归采用极大似然法进行参数的估计。
1)极大似然估计的概念
极大似然估计(Maximum Likelihood Estimate)是一种找出与样本的分布最接近的概率分布的模型,“似然”表示的是已知结果的前提下,随机变量分布的最大可能性。在实际应用中,我们一般都不能准确地知道事件或状态发生的概率,但能获得事件或状态的结果,比如某个用户流失的概率。
这里以抛硬币为例,已知一枚硬币被抛掷10次,且每一次抛掷相互独立,其中,正面出现7次,反面出现3次,那么,试问这枚硬币正面向上的概率最有可能是多少?
一般的常识告诉我们一枚质地均匀的硬币被抛掷后正面向上的概率为0.5,但此时不知道硬币质地是否均匀,只知道抛掷结果,而这个问题研究的是此时硬币正面向上的最有可能的概率。
首先,可以计算硬币正面向上的概率为:
此时,p正是一个未知数,在指定p正后,p就确定了,根据题意,问题可转换为求事件发生的概率p最大时,p正为多少。这个问题是一个典型的极大似然估计问题,即
这里,p正代表待估计的参数,而则为似然函数,一般来讲,似然函数都具有一个带估计的参数θ和训练数据集X,而极大似然估计的一般形式可以写为:
为了计算方便,在实际应用中常对似然函数取自然对数,被称为对数似然函数,其形式如下:
若存在一个样本量为N的训练集D,其由自变量X与目标变量Y组成,待估计的参数为θ,那么该训练集的对数似然函数可以写为:
极大似然估计的任务就是在既定训练集D已知的情况下,对参数θ进行估计,使得对数似然函数log(L)最大。
θ=argmax(logL(θ))
2)逻辑回归的极大似然估计
在二元逻辑回归中,yi∈{0,1},其对数似然函数可以写为:
而二元逻辑回归通过构造logit变换将事件发生的概率p转换为,那么,事件发生的概率可以被写为:
其中,ω表示逻辑回归估计的参数向量ω。
带入极大似然估计公式,二元逻辑回归的对数极大似然函数为:
故二元逻辑回归的对数极大似然函数为:
4、模型评估
主要介绍分类模型的评估,以及常用的评估指标ROC曲线及其在Python中的实现。
1)模型评估方法
对于像逻辑回归这样的分类模型,其预测值为概率,很多情况下用于建立排序类模型,分类模型的类型及其统计指标如下:
评估决策问题模型的指标有ROC曲线、K-S曲线、洛伦兹曲线等
2)ROC曲线的概念
ROC(Receiver Operating Characterstic)曲线又被称为接收者操作特征曲线,最早应用于雷达信号检测领域,用于区分信号与噪声,后来人们将其用于评价模型的预测能力。ROC曲线是基于混淆矩阵(Confusion Matrix)得出的。
混淆矩阵的核心是预测值与真实值的列联表。
A、B、C、D 4个区域中,A区域表示预测响应且实际响应的观测数量,又被称为真正(True Positive, TP);B区域表示预测不响应但实际响应的观测数,又被称为假负(FalseNegative, FN);C区域表示预测响应但实际未响应的观测数,又被称为假正(False Positive, FP);D区域表示预测为不响应实际也不响应的观测数,又被称为真负(True Negative,TN)。该列联表的行合计分别代表实际响应观测及实际不响应观测,列合计分别代表预测响应观测和预测不响应观测。
显然,在混淆矩阵中,预测值与实际值相符的观测个数是评价模型好坏的一个重要指标,即A(击中)和D(正确否定)的预测值与实际值相符的观测个数,围绕这两个频数,延伸出一系列指标。
(1)强调预测精准度的指标。
(2)强调预测覆盖度的指标。
(3)既强调预测覆盖度又强调预测精准度的指标。
F1-SCORE:F1=2(Precision×Recall)/(Precision+Recall)=2TP/(2TP+FP+FN)
以上3种类型的指标在不同业务场景中的侧重点不同。在ROC曲线中,主要使用灵敏度与1-特异度两个指标。灵敏度表示模型预测响应的覆盖程度,1-特异度表示模型预测不响应的覆盖程度。这里需要理解覆盖度,其代表预测准确的观测占实际观测的比例。
在决策模型中,预测覆盖度比预测精准度更加重要,因为在很多决策模型中,正负样本量都不太可能是一样的。
ROC曲线中的主要指标是两个覆盖度,即灵敏度与1-特异度。这里要明确预测概率的界值。在排序类模型中预测的是概率而不是类别,通常以概率值0.5为界值,大于界值被认为响应,小于界值被认为不响应。但是这个界值一定是0.5吗?在讨论灵敏度与1-特异度的时候,都需要先确定界值才能划分出响应与不响应,ROC曲线中的这个界值是不断变化的。因此,有多少个界值,就有多少组1-特异度与灵敏度指标
ROC曲线的制作过程
比如,界值从0.96逐渐减少到0,第一行数据表示界值为0.96时,预测概率大于0.96的观测被预测为响应,小于0.96的观测被预测为不响应,此时产生混淆矩阵。接下来可以计算正负样本的覆盖度,即灵敏度与1-特异度。以此类推,第二行数据以界值0.91区分响应与不响应,计算相应的灵敏度和1-特异度。
在本案例中,界值高的时候灵敏度(正例覆盖度)较低,而1-特异度(负例覆盖度)较高,显然是因为界值太高,正例太少,负例太多;随着界值的下降,灵敏度升高,特异度降低,这是因为随着界值的下降,正例逐渐变多,负例逐渐变少。当界值为0.48与0.52时,1-特异度与灵敏度达到了平衡,不会出现“偏科”的情况(灵敏度与1-特异度差距大)。只要出现“偏科”的情况,就表示相应界值下的划分会导致正负样本覆盖度差距较大,一个好的界值会使得两者的差距较小且两者值不会太低。
以1-特异度为X轴,灵敏度为Y轴,可以绘制散点图,将点连接起来就生成了ROC曲线。这里需要说明的是,1-特异度实际上表示的是模型虚报的响应程度,这个比率高代表模型虚报响应频数多,1-特异度又被称为代价;灵敏度高表示模型预测响应的覆盖能力强,灵敏度又被称为收益。在同一个界值下,显然是代价低、收益高好。所以,1-特异度表示代价强弱,灵敏度表示收益强弱,ROC曲线又被称为代价—收益曲线,如图
连接对角线,对比对角线上的曲线,就可以看出正负例的综合覆盖情况。对角线的实际含义是随机判断响应与不响应。在这种情况下,正负例覆盖率应该都是50%,表示随机效果。ROC曲线越陡峭,表示预测概率高的观测里响应的覆盖率越强,虚报的响应占比少,说明模型的效果较好。一般可以使用AUC(Area Under Curve)判断模型的好坏,AUC指曲线下方的面积,显然这个面积的值为0.5~1,0.5表示随机判断,1表示完美的模型。
对AUC值的判断标准如下:
•[0.5,0.7)表示效果较差,但将其用于预测股票已经很不错了。
•[0.7,0.85)表示效果一般。
•[0.85,0.95)表示效果良好。
•[0.95,0.1]表示效果非常好,但在社会科学建模中不太可能出现。
需要注意以下两点:
(1)有时ROC曲线可能会落入对角线以下,这时需检查检验方向与状态值的对应关系。
(2)如果某ROC曲线在对角线两边均有分布,则需检查数据。
3)在Python中实现ROC曲线
5、因果推断模型
精准营销的核心理念是通过数据挖掘出那些“营销敏感人群”,从而最大限度地节约成本,这也是智能营销时代的关键挑战,而因果推断技术是解决这一痛点的最好方法之一。
以优惠券促销活动为例,如何发放优惠券才能够使总收益最大化呢?从以往的经验来看,这类问题的解决方法主要是使用机器学习算法来预估用户购买的概率,常用的是Response模型的相关性模型,假设我们已经通过Response模型预测了两类用户的发券购买率和无券购买率,如下:
可以看到,发券之后两类用户的购买率都有提升,并且用户2的购买率(1.6%)高于用户1的购买率(1.4%)。如果按照这种结果,我们是否可以做出为用户2发放优惠券的决定呢?
前面提到了我们促销的目的是使得总收益最大化,那么接下来就从效益的角度重新计算一下。假设用户1和用户2各有1000人,商品的原价是10元,优惠券的金额是2元,遍历所有发放方案,可以得到如下总效益情况:
•都不发券时,总效益是1000×0.5%×10+1000×1.3%×10=180元;
•都发券时,总效益是1000×1.4%×8+1000×1.6%×8=240元;
•当不给用户1发券,给用户2发券时,总效益是1000×0.5%×10+1000×1.6%×8=178元;
•当给用户1发券,不给用户2发券时,总效益是1000×1.4%×8+1000×1.3%×10=242元。
可以看出,按照Response模型预估的结果进行发券(不给用户1发券,给用户2发券),总效益反而比都不发券时更低,即Response模型的结果获得的补贴效益并不是最大的。换句话说,Response模型无法帮助我们识别出发放优惠券与购买之间是否存在因果关系,这并不是我们的初衷。
进行补贴的目的是通过发放优惠券,促使那些本来不会购买的用户进行购买,从而提高总效益。但是,在用户量庞大的情况下,是不可能给所有用户都发放优惠券的。那么,想要知道如何发放优惠券,首先就需要搞清楚哪一类用户对优惠券刺激最敏感,换言之,就是要通过对用户的分类来了解每一类用户的特点。具体地,可以将用户分为以下4类。
(1)营销敏感人群:基本上只有在发券时才会购买的人群,即优惠券敏感人群。
(2)自然转化人群:无论是否发券都会购买。
(3)无动于衷人群:无论是否发券都不购买,这类用户难以刺激,直接放弃。
(4)反作用人群:对营销活动比较反感,不发券的时候可能会购买,但发券后不会再购买。
显然,我们的目标人群是营销敏感人群,识别营销敏感人群也就是要识别发券与购买之间的因果关系,这就需要用到因果推断技术。在营销领域,因果推断技术主要是运用Uplift建模进行增量预估,通过增量的大小来识别营销敏感人群。
通过前面部分的介绍我们已经知道相关性和因果性是不一样的,比如,缅因州黄油消费量和离婚率的关系如图:
从公式的角度,Response模型和Uplift模型分别表示如下:
Response:P(Y=1|X)
Uplift:P(Y=1|X, T)
Response模型主要用来预测用户的购买率,而Uplift模型主要用来预测添加某种干预后用户购买的概率。比如,发放优惠券后用户的购买率。因果推断技术就是基于Uplift建模来预测发放优惠券这种干预所带来的效益增益。
Uplift建模是如何进行增益评估的呢?需要应用因果效应的概念,假设有n个用户,Yi(1)表示对用户i发放优惠券的结果,Yi(0)表示没有对用户i发放优惠券的结果,那么用户i的因果效应就可以表示为:
τi=Yi(1)-Yi(0)
因果效应也就是应用场景中发放优惠券带来的增量收益,Uplift建模的目标是最大化因果效应,在实际使用时会取所有用户的因果效应期望的估计值来衡量整个用户群的效果,被称为条件平均因果效应(Conditional Average TreatmentEffect, CATE)。
其中,Xi表示用户i的特征。
但是,对于同一个用户,我们不可能同时得到发放优惠券与不发放优惠券的结果,即不可能同时得到Yi(1)与Yi(0),这种问题被称为“反事实问题”,因此将计算公式修改如下:
其中,[插图]表示用户i可以观测到的输出结果,Wi为二值型变量,Wi=1表示对用户进行了干预(发放了优惠券),Wi=0表示没有对用户进行干预。在条件独立假设下,条件平均因果效应的期望估计值如下,最大化该值也是Uplift模型的目标。
由于同一个用户不能被同时观测到发放优惠券与不发放优惠券的结果,因此τ(Xi)是很难直接优化的,但通过AB实验,可以获得发放优惠券和不发放优惠券的两类人群,如果两类人群的特征分布一致,就可以通过模拟两类人群的τ(Xi)得到个体用户的τ(Xi)。因此,Uplift模型依赖AB实验的数据,Uplift建模的常用方法如下。
(1)T-Learner,基本思想是对干预数据和无干预数据分别进行建模,将两个模型的预测结果相减,得到预估的增量,公式如下:uplift=G(Yi|Xi, T)-G(Yi|Xi, C)
其中,T表示实验组(发放优惠券),C表示对照组,G为两组对应的预测模型。
以优惠券发放为例,正样本表示下单用户,负样本表示未下单用户。取实验组的用户作为训练数据,并预测每个用户下单的概率;类似地,用不同的模型预测对照组中每个用户下单的概率,将两个组的用户下单概率求平均可以得到E(YT|XT)和E(YC|XC)。
对用户分别使用对应的模型进行预测,相减后即可得到每个用户i的τ(Xi):
根据τ(Xi)的大小可以决定是否对用户i发放优惠券。
(2)S-Learner,基本思想是把干预(是否发放优惠券)作为特征输入模型,在预测时,同样是将有干预的结果和无干预的结果相减,得到预估增量。和Response模型比较像,相当于特征里面有“是否干预”这样的特征,公式如下:
uplift=G(X, W, Y)
τ(Xi)=G(Yi|Xi, W=1)-G(Yi|Xi, W=0)
(3)Class Transformation Method(标签转化法),是一种更严谨的可以实现实验组、对照组数据打通和模型打通的方法,可以直接优化τ(Xi)。为了统一表示实验组和对照组都下单的情况(Y=1),再定义一个变量Z,Z∈{0,1}:
则有:
τ(X)=PT(Y=1|X)-PC(Y=1|X)=2P(Z=1|X)-1
Uplift模型的评估可以分为线上评估和离线评估,线上评估方法主要是A/B对照。下面主要介绍离线评估指标AUUC,其含义是Uplift曲线下的面积,如图
其中,Uplift曲线与AUUC指标的计算公式如下:
其中,N表示用户数。