四、数据采集与数据预处理(采集方法、市场调研、错误\缺失数据处理)

发布时间:2024-11

浏览量:266

本文字数:8888

读完约 30 分钟

一、数据采集方法

1、市场研究中的数据

    按照数据的收集方式,可以将数据分为实验数据和观测数据。

    按照描述对象与时间的关系,可以将数据分为时间序列数据、截面数据和面板数据。

时间序列数据是按时间顺序在不同时点收集某个个体的多期数据,可以表现研究对象随时间变化的情况。

截面数据是在某个时点对不同对象的调查数据,可以表现对象在某个时点的变异情况。

面板数据是对一个观测群体进行多个时点的观察,在时间序列上取多个截面,在这些截面上同时选取样本观测值构成的样本数据。面板数据是进行因果分析的重要数据基础,偏向于进行学术型数据分析,目前在商业分析中较少运用。

    按照数据的来源,可以将数据分为原始数据和二手数据。

    原始数据是指研究者通过观察、调查或实验收集的数据,也被称为一手数据。原始数据不易收集,有赖于完善的收集技术与筹划,其所花费的人力、时间、金钱很多,收集的数据更符合当前分析的需求。

    二手数据是指私人、机关、团体收集的数据。二手数据的收集省时省力又省钱,但是与当前研究主题的相关性较弱,经常不能完全适合所要研究的问题。

2、概率抽样方法

    概率抽样又被称为随机抽样,是指从总体中随机抽取一部分个体作为样本进行调查,并根据样本调查结果推断总体特征(总体分布的参数,如均值、标准差、偏度等)的数据收集方法,具有经济性好、时效性强、适应面广、准确性高等特点。

概率抽样方法分为简单随机抽样、分层抽样、系统抽样、多段抽样。

(1)简单随机抽样是在总体中不进行任何分组、划类、排序等操作,完全随机地抽取调查个体,每个个体被抽中的概率相等,样本中的每个个体完全独立,彼此之间无关联性和排斥性。

(2)分层抽样也被称为类型抽样,基本思想是将总体分成不同的“层”,然后在每层内进行抽样。比如,将企业按规模分为大、中、小、微企业,将家庭收入分为高收入、中等收入、低收入等。通过分层抽样可以减小偏差,提高样本对总体的代表性。

(3)系统抽样也被称为等距抽样,先按某个标志值的大小对总体样本进行排队并顺序编号,然后根据确定的抽样比例确定抽样间距,随机确定第一个样本的位置,再按顺序从总体中等间距地抽取其余样本。该方法适用于总体样本中有天然序号的场景。

(4)多段抽样是将调查分成两个或两个以上的阶段进行抽样,第一个阶段先将总体按照一定的规范分成若干个抽样单位,称为一级抽样单位,再把抽中的一级抽样单位分成若干个二级抽样单位,从抽中的二级抽样单位中再分出三级抽样单位等,这样就形成了一个多阶段的抽样过程,分成若干个阶段逐步进行抽样。一般较大型的抽样调查使用分段抽样

    在抽样的操作层面,还需要考虑样本的抽取方式。按抽取方式的不同,抽样方法可以分为两类。

(1)重复抽样。从总体N个单位中抽取一个容量为n的样本,每次从总体中抽取一个,连续抽取n次,登记结果后将抽取的单位样本放回总体,重新参加下一次抽选。

(2)不重复抽样。从总体N个单位中抽取一个容量为n的样本,每次从总体中抽取一个,连续抽取n次,被抽取的单位样本在登记结果后,不再放回总体参加下一次的抽选。在实际应用中通常采用不重复抽样方法。

经典统计学中的各类统计量都是假设每个样本被等概率地抽到,那就需要采用重复抽样的方法。但是在实际工作中,重复抽样会造成样本重复,因此当总体数量较大且抽样数量较少时,我们首选不重复抽样。

    按照形成原因的不同,一般可将误差分为抽样误差和非抽样误差两大类。

(1)抽样误差是在用样本统计量推断总体参数时的误差,属于一种代表性误差,抽样误差会随样本量的增大而减少。

(2)非抽样误差不是由抽样引起的。它包括登记性误差、测量偏差、响应偏差(不正确的或不真实的响应)等,非抽样误差不随样本量的增大而降低。

    在实际工作中,样本量的规模受经济约束、时间约束、样本的可得性等多种因素的影响,因此在满足分析精度要求的情况下,一般会尽可能少地提取样本。

最小抽样量的计算公式:

图片.png

    其中,n为样本量;σ2为研究总体的方差,表示变量总体本身的变异程度,总体数值分布越分散,其方差越大,需要的采样量越多;e为抽样误差(可以根据均值的百分比设定),与最小抽样量是倒数平方的关系,即如果需要将抽样误差减小1/2,则抽样量需要增加4倍。

Za/2为可靠性系数,当置信度为95%时,Za/2=1.96;当置信度为90%时,Za/2=1.645,即置信度越高,需要的样本量越多,95%置信度比90%置信度需要的采样量多40%。

3、非概率抽样方法

非概率抽样又被称为不等概率抽样、非随机抽样和主观抽样,均是研究者用自己方便的形式或主观判断抽取样本的方法。这类方法不是严格按随机抽样原则来抽取样本的,无法评估抽样误差,也无法正确地说明样本的统计值在多大程度上适合总体。虽然根据样本调查的结果也可以在一定程度上说明总体的性质、特征,但不能从数量上推断总体。此类抽样方法一般适用于以下情况。

•研究目的的需要。例如,探索性研究、试调查、不打算推论总体的研究。

•无法界定总体边界。例如,农民工研究、流浪儿童研究。

•总体规模较小或同质性较强。例如,吸毒问题研究。

•时间、人力等条件有限。

适用情况不同,非概率抽样的方式也有多种,具体可以分为以下几种类型。

(1)偶遇抽样,又被称为方便抽样、自然抽样,是指研究者根据实际情况,用自己方便的形式抽取偶然遇到的人作为调研对象,或者仅仅选择那些离得最近的、最容易抽取的人作为调研对象。

(2)判断抽样,又被称为立意抽样、目的抽样,是研究者根据自己主观的分析选择和确定调研对象的方法。

(3)定额抽样,也被称为配额抽样,先将总体按照某种标准分层(群),然后根据各层样本数与该层总体数成比例的原则主观抽取样本。

(4)滚雪球抽样,是一种比喻的说法,是指先找少量的,甚至个别的调研对象进行调研,然后通过他们再去寻找新的调研对象,依次类推,就像滚雪球一样越滚越大,直至达到调研目的。

(5)空间抽样,是对非静止的、暂时性的空间相邻的群体的抽样方法。

4、概率抽样和非概率抽样的比较

    概率抽样能估算抽样误差,其调查结果可以用来推断总体,但是必须遵守的抽样计划执行程序会大幅延长收集资料的时间,一般来说费用较高。

    概率抽样认为样本统计量的理论分布是存在的,可以根据调查结果推断总体。

    非概率抽样简单易行、成本低、省时间,但是无法控制和客观地测量样本的代表性,因此样本不具有推论总体的性质。

    非概率抽样就是调研人员根据自己的方便或主观判断抽取样本的方法,因此无法根据调研结果推断总体。

二、市场调研和数据录入

1、市场调研流程

系统化地收集目标用户对现有产品或设计中的产品的反馈数据的过程,就是市场调研。

(1)目标设定。在对行业的分析调研中,拆解目标,提取关键问题。

(2)调研前的准备。主要进行调研对象的选取和问卷设计。

(3)调研。一般通过座谈会、访谈、填写问卷等形式进行。

(4)数据处理与分析。审核数据、录入数据库、统计分析和数据挖掘。

(5)拟写调查报告。总结调查结论,形成决策建议。

图片.png

2、市场调研目标设定

    在调研前需要设定一个调研目标。比如,在用户需求分析方面,明确用户需要什么样的理财产品,用户对理财产品的偏好及认知;在市场竞争方面,了解HS银行的理财产品所处的竞争地位;在创新型理财产品设计方面,了解用户认可的同类产品是什么、哪些产品与什么特质的用户比较匹配等。在此阶段,我们可以通过研究报告、行业研究等深入了解其背景和现状,这个过程也被称为文案研究。

3、市场调研前的准备工作

    在开展市场调研之前,需要完成两项工作,首先是对访谈客群进行定位、抽样,其次是设计调查问卷。调查问卷可以分为结构化问卷和非结构化问卷。非结构化问卷是指仅列出问题,不设置可供选择的备选答案的问卷,又被称为开放式问卷。比如,专家访谈、座谈会等。结构化问卷是指提出问题的同时,也提供备选答案。

    完整的市场调研分为案头研究、定性访谈、定量调研三个阶段。案头研究主要是了解行业背景,形成对研究问题的初步认识。访谈所面对的行业专家包括公司内部业务人员组成的内部专家和行业内比较权威的外部专家。早期会问一些开放式问题,后期会问一些只有题干而没有备选答案的问题。定量调研主要使用选择题形式的结构化问卷,基本上都是一些浅显的问题,主要是对案头研究和定性访谈阶段中形成的认识和观点进行数据佐证。

市场调研方法种类繁多,常见的有焦点小组座谈会、深度访问、实验市场和产品试销、定点拦截访问、中心定点访问、网上调查问卷、电话调查访问等。

    从问卷表述上来看,主要有以下几个方面的要求。

•具体性。调查问卷的内容要具体,不提抽象、笼统的问题。也就是说,如果设计问卷的人自己都没想明白要问什么,那就不要着急设计问卷,先把前面的访谈等工作做好,把具体问题弄清楚。

•单一性。在调查问卷中,一次只问一个问题。如果调查问卷中存在很多混杂的问题,而用户的时间比较紧张,就会导致不能专一地完成作答。所以,当一次提问很多问题时,很容易出现调研对象答非所问的情况。

•通俗性。调查问卷中的语言要通俗易懂,不使用专业术语。很多参与问卷调查的用户不是专业人士,因此调查问卷的语言一定要通俗。

•准确性。调查问卷用语准确,不用模棱两可、含糊不清、易产生歧义的语言。调查问卷中的选项一定要准确,每个选项的差异一定要明显。

•客观性。问卷设计者态度要客观,不要有诱导性或倾向性。一般调查问卷先有一段描述,再给一个假设,最后进行提问。注意调查问卷中不要有误导性、侮辱性或政治问题等。

•非否定性。一般来说,问卷题目避免使用否定句。

    从调查问卷提出问题的结构来看,一般需要遵循以下几点。

•按问题的类别、性质排列。

•按问题的复杂程度进行排列,先易后难。

•按问题的时间顺序排列。

•降低阅读的复杂度。在设计问卷时,设置的问题是正反两方面的,看用户是否答得认真,这也叫作验证式问题,是问卷调研时的一种方法。问卷题目的设置要让用户按一个方向作答,就是均回答“是”或均回答“否”,避免用户有过多的阅读压力。

    调查问卷主要包括以下几个方面的内容。

•调研对象准入的问题。有些调研对调研对象有准入门槛,比如理财产品的购买者必须是有经济条件和行为能力的成年人,因此不要找年龄小于24岁的用户。

•调研质量控制的问题。一般调研会采用分层抽样或定额抽样的方式,因此需要填写分层变量的信息,如年龄段、性别、学历等常见分层变量,这些问题将来在做用户画像或预测性模型时,充当解释变量的角色。

•产品或服务相关属性的问题。比如,理财产品的期限、利率、风险等产品相关问题,用以获取调研对象的产品偏好,这些问题将来在做用户画像或预测性模型时,充当被解释变量的角色。

•调研对象自身的问题。比如,人口基本信息、经济状况信息,这些问题将来在做用户画像或预测性模型时,充当解释变量的角色。不过在问卷中不要问过于隐私的问题,以免引起用户反感。如果是针对公司老用户的问卷调研,则尽量在IT系统中提取这部分信息。

•调研对象产品购买偏好的问题。比如,信息获取渠道、产品购买渠道、购买时机方面的问题,这些问题将来在做用户画像时,充当解释变量的角色。

•用于特殊目的的问题。有些分析会涉及制作用户感知图,因此问卷中会问一些用户对本公司和其他公司产品的比较和相似性打分的问题。

    在设计问卷时,调查问卷的问题类别主要包括以下几类。

•是非题(二选一)

•选择题(单选、多选)

•顺位题(序列题)

•赋值题(标尺法)

•核对题(矩阵法)

•自由回答题(开放题)

    问卷的设计方式直接决定了访问是否可以获得真实有用的调研对象的信息。问卷的设计原则与调研执行方法应该尽量符合调研对象对调查内容的心理接受程度,能够使每次访问都在轻松愉快的气氛中进行,并且保证所收集到的信息都是明确统一和高度定量化的。

4、实施调研

    按照之前的分析,采用专家访谈、焦点小组座谈会和中心定点访问相结合的方法进行调研。首先进行专家访谈,邀请行业专家、理财产品设计专业人士参加专家访谈。需要搜集、开拓理财产品设计的大体思路。

    需要事先准备专家访谈提纲,访谈提纲一般是非结构化或半结构化的。非结构化提纲类似专家访谈,基本上都是开放式的问题,有可能连底稿都没有,直接向专家请教。半结构化提纲就是按照前期调研的情况,根据行业研究结果整理出一系列的问题,这些问题是按照从宏观到微观、从标杆行到案例行的问题一一列出来的。案例提纲如下:

理财产品的理解&案例分享

目标:了解设计理财产品需要考虑的因素,理财产品市场分析。

内部问题清单:请您全面地介绍一下理财产品在设计过程中需要综合考虑的因素有哪些。

请您全面地介绍一下时下银行理财产品的现状,包括产品类型、规模、竞争情况等方面的问题。

您认为时下理财产品的市场发展趋势是怎样的?

您设计的理财产品有哪些?如可能,请分享行业案例。

……

    之后召开焦点小组座谈会。此阶段是邀请用户共同参与的,一般用户参加的都是半结构化访谈,需要用户口头回答问题。比如,可以从数据库中选取8名用户,邀请参加座谈会。访谈由经验丰富且经过严格项目培训的访谈员主持,访谈员的年龄为20~35岁,性格开朗、善于沟通,知道或了解基本的理财信息。根据调研目标和关键问题提前制定访谈提纲,将访谈时间控制在2小时左右。

    需要事先准备座谈会大纲,案例提纲如下:

理财产品的选择动机

目标:了解理财用户在选择理财产品时的主要考虑因素。

内部问题清单:请问您投资过哪些理财产品?

您都是通过哪些途径了解以上理财产品的?

在选择理财产品的过程中,主要考虑的因素有哪些?

市场上有哪些理财产品是您期望购买但未能实现的?

    将用户引导至舒适的调研场所并为用户提供舒适的回答环境。调研问卷一般是结构化问卷,基本上是单选题、多选题,少部分是问答题。之后按照编码规定录入问卷数据,这就是实施调研的具体过程

三、数据预处理基础

1、数据预处理基本步骤

    数据问题主要可以归纳为以下3部分:

1)单变量数据问题

•连续型变量异常值(可能是离群值,也可能是异常值)。

•分类型变量含有稀有水平(出现次数较少的类别)或错误值。

•缺失值、单一值。

•时间序列的噪音值。

    总体来说,此类问题与后续采用何种算法没有关系。

2)单变量数据分布问题

•修改连续型被解释变量的数据分布。

•修改输入的连续型变量的数据分布。此类问题与后续选取的统计分析模型有关系。

3)两个变量间的关系问题

•两个连续型解释变量之间的高度线性关系。

•连续型解释变量和连续型被解释变量非线性关系线性化。

•连续型解释变量和二分类被解释变量Logit之间非线性关系线性化。

2、错误数据识别与处理

    数据分析一般属于数据价值流的后端,在这个阶段识别数据错误的成本较高,一般采用识别异常值的方式发现错误值。异常值是指有悖常理的取值,可能是错误值,也可能是离群值。

    通过观察直方图数据分布的情况,我们可以快速发现和找出异常值数据,在发现数据的异常之后可以回溯数据的来源找出问题所在,从而对其进行修正或删除。

    修正的方法如下:

•如果有足够多的信息,则直接补充正确信息。

•在信息不足的情况下,对照其他信息源进行修正。

•若所有的信息都不能支撑我们补充该信息,则将其视为空值。

    对于错误的异常值数据,还可以进行以下删除操作:

•删除记录。

•删除字段操作。

3、连续型变量离群值识别与处理

    利用盒须图、散点图等进行协同分析,可以方便地发现连续型变量是否存在疑似离群值,也可以用平均值法直接计算,平均值±n倍标准差之外的数据(SR)被视为离群值,建议的临界值如下。

•|SR|>2,用于观察值较少的数据集。

•|SR|>3,用于观察值较多的数据集。

    四分位数法:

IQR=Q3-Q1

Q1-1.5×IQR~Q3+1.5×IQR

    离群值和错误值在概念上很容易区分,但是在实际操作中针对每个样本的数据就很难区分,主要原因是识别这两类问题使用的分析手段是相同的。

    可以直接删除离群值样本,也可以使用盖帽法、分箱法、WoE法等进行处理。

    盖帽法是将某连续型变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值,即盖帽处理

    未处理噪声的变量直方图:

图片.png

    处理完噪声的变量直方图:

图片.png

4、分类型变量概化处理

    利用条形图、饼图等图形可以发现分类型变量中是否含有稀有水平或错误值。识别出的占比极少的观察个体可能是稀有水平或错误值。

    概化处理主要分为3个方面:

•简单合并,将占比少的水平直接合并为一个大类。原则上要求合并后的大类样本占比大于5%,样本量不应低于50个。

•事实合并,根据每个水平内被解释变量的均值、P值、Logit值的大小进行合并。原则上要求合并后的大类样本占比大于5%且样本量不应低于50个。

•基于算法的合并,该方法经常与分箱方法结合使用。分箱方法是常用的消除异常值、离群值、极端值的方法。连续型变量分箱算法包括对连续型变量进行等距分箱、等频分箱,分类型变量则是对水平进行合并。

    常用的分箱方法:

图片.png

5、缺失值处理

    具体来说,数据缺失的影响主要表现在:第一,增大了估计误差;第二,导致有偏差的样本估计。

    数据的缺失分为解释(X)变量数据的缺失与被解释(Y)变量数据的缺失。数据集中不含缺失值的变量(属性)被称为完全变量,数据集中含有缺失值的变量被称为不完全变量,Little和Rubin定义了以下3种不同的数据缺失机制

•完全随机缺失:数据的缺失与不完全变量及完全变量均无关。

•随机缺失:数据的缺失仅依赖完全变量。

•非随机、不可忽略缺失:不完全变量中数据的缺失依赖不完全变量本身,这种缺失是不可忽略的,往往会造成有偏差的样本估计。

    缺失值的处理方式主要有删除法和插补法。删除法主要应用于Y变量数据缺失的情况,即直接删除Y缺失的样本。如果X变量数据有缺失,则可以采用插补法进行修复。而插补法又分为单一插补法、多重插补法和截断数据处理。

    单一插补法主要应用于完全随机缺失数据,又可以细分为推理插补法、集中性统计量插补法、邻近插补法和比率或回归插补法。这几种方法的应用还是有些差异的,具体差异如下。

•推理插补法适合在缺失值可以通过业务知识推断出来的情况下使用。

•集中性统计量插补法用于对随机缺失的数据进行处理,分为均值插补法、中位数插补法和众数插补法。其中,对称分布的连续型变量使用均值插补法,偏态分布的连续型变量使用中位数插补法,分类型变量使用众数插补法。

•近邻插补法适用于前后数据相关的情况,如时间序列数据。

•比率或回归插补法通过一定规则进行填补,与多重插补法类似。

    对于非完全随机缺失的数据,可以使用多重插补法,该方法用其他X变量数据预测当前变量数据,切不可用Y变量数据预测缺失的X变量数据。

    截断数据处理方法用于处理非随机、不可忽略的缺失数据。

    从处理原则看,首选基于业务的填补方法,其次根据单变量分析进行填补,多重插补的填补方法只有在粗略清洗数据时才会使用。

    在处理缺失数据时先从行的角度看,若一个样本数据缺失比较严重,则直接删除该样本数据,然后从列的角度分析每个变量。

处理缺失数据的流程如下:

•横向观察样本数据缺失是否过多,缺失数据过多的样本可将其删除。

•纵向观察每个,连续型变量的缺失值可以考虑用均值或中位数进行填补,离散型变量可以使用众数填补(如教育程度),字符型变量可设置为“未知”。

    有些缺失数据可以通过对比其他数据源获取,或者通过分类建模、聚类均值进行填补。

在分析每个变量的缺失情况时遵循如下原则:

•当缺失数据少于20%时,连续型变量一般使用均值或中位数填补。分类型变量可以将缺失部分单算一类,也可以用众数填补。

•当缺失数据为20%~80%时,填补方法同缺失数据小于20%的情况。另外,每个有缺失数据的变量需要生成一个指示哑变量,参与后续的建模。

•当缺失数据大于80%时,每个有缺失数据的变量生成一个指示哑变量,参与后续的建模,不使用原始变量。

6、连续型变量分布形态转换

    连续型变量本身存在一定的分布形态,自然科学中的很多变量服从正态分布,如身高、降雨量等。但是很多社会科学中的变量会出现所谓“幂律”现象,即存在右偏等情况,当我们需要调整连续型变量分布形态时,通常可以采用3种方法。

第一种是百分位秩。百分位秩就是把变量从小到大排列,然后依次赋予序列号,最后用总的样本量除以序列号,值域为[0,100]。

第二种是Tukey正态分布打分。先把变量转换为百分位秩,然后转换为正态分布。

第三种是变量取自然对数。对数的正态分布是右偏的,变量取对数之后可以转换为正态分布的状态,有时根据数据的实际情况可能需要取两次自然对数。数学表达式如下:A=ln(x)

    这3种方法对比来看,非对称变量在聚类分析中选用百分位秩和Tukey正态分布打分比较多,在回归分析中取自然对数比较多。因为商业上的聚类模型关心的是用户的排序情况,而回归模型关心的是其具有的经济学意义,自然对数表达的是百分比的变化。

7、连续型变量中心标准化或归一化

    对连续型变量的中心标准化是主成分等分析方法默认的,具体公式为:

图片.png

    而极差标准化和中心标准化类似,只不过值域为[0,1],该方法没有命令可以实现,只能用公式编程完成,公式为:

图片.png

    原始变量及经过标准化后的数据分布图:

图片.png

8、变量降维

    连续型变量降维指的是很多变量之间相关性比较强,出现了变量共线性的问题,因此需要通过降维减少变量的数量。常见的连续型变量降维分为主成分分析、因子分析和变量聚类等方法。

    分类型变量降维使用概化处理。

具体变量降维方式:

图片.png

9、WoE转换

    分箱方法通过考察数据的“近邻”来光滑、有序数据的值,使有序值分布到一些桶或箱中。通常分为两种方法,分别是等深分箱和等宽分箱。

    等深分箱是每个分箱中的样本量一致,等宽分箱是每个分箱中的取值范围一致。

    比如,排序后的价格数据:4,8,15,21,21,24,25,28,34。

进行等深分箱:

•箱1:4,8,15。

•箱2:21,21,24。

•箱3:25,28,34。

进行等宽分箱:

•箱1:4,8。

•箱2:15,21,21,24。

•箱3:25,28,34。

    WoE转换方法经常作为“根据事实合并”和“基于算法合并”的后续操作,尤其在信用评分卡技术中被广泛应用。

    WoE编码操作是一种用数值代替非数值的操作,目的是让模型能够对其进行数学运算。在评分卡模型开发中,完成变量的分箱后,所有的变量都变成了组别,此时需要对其进行编码才能进行下一步的建模。在评分卡模型中常用WoE(Weight of Evidence)的形式进行分箱后的编码

其计算公式如下:

图片.png

WoE的计算公式也可以是:

图片.png

    公式的不同只会影响回归系数的正负号。注意在一个项目中公式不可以调换。

^