互联网本身具有数字化和互动性的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破。与传统的数据分析师相比,互联网时代的数据分析师面临的不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段进行高效的数据处理。更为重要的是,互联网时代的数据分析师要不断在数据研究的方法论方面进行创新和突破。

数据挖掘概论
数据挖掘&算法工程 449 阅读
数据挖掘概论

数据挖掘概要从现有的大量数据中,撷取不明显、之前位置、可能有用的知识数据挖掘的发展历程数据挖掘方法论数据库中的知识发掘字段选择数据清洗字段扩充数据编码归并数据数据挖掘结果报告数据预处理:建立数据仓库的过程即是数据预处理的过程,数据预处理是最重要的一个步骤,其重要性和所花费的时间,均居于其他步骤的首位(可能花费-%的时间)有高质量的数据才有高质量的数据挖掘结果数据挖掘技术的产业标准IBMSPSS:C

十三、数据模型管理(数据分类、建模、数据仓库和ETL)
商业策略分析 306 阅读
十三、数据模型管理(数据分类、建模、数据仓库和ETL)

一、数据分类数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现的。信息是指有上下文的数据,其实就是在原有数据定义中增加了限定。知识是基于信息整合形成的观点,是基于信息对模式、趋势的识别、解释、假设和推理。举例来说,图中有“”和“前%”两个数据,我们并不知道“”和“前%”所代表的含义是什么,而信息则是给这些数据增加定义、格式、时间范围和相关性等内容,方便人们理解数据所代表的含义,比如这些

十二、数据治理(驱动因素、数据治理体系、如何开展数据治理)
商业策略分析 327 阅读
十二、数据治理(驱动因素、数据治理体系、如何开展数据治理)

一、数据治理的驱动因素数据治理的驱动因素有两个大的方面:一是内部发展的需要;二是外部监管的需要。、内部发展因素随着信息化建设的不断深入,以及公司业务种类、范围等的逐渐延伸,使得IT系统产生的数据量以惊人的速度增长,面对巨大的数据规模,机构或组织如何在精准营销、风险控制、决策支持、产品定价、绩效考核等各方面得到准确、及时、完整的数据支持,是必须考虑的重要问题。、外部监管因素为了引导机构或组织加强数据

商业策略分析 263 阅读
十一、运筹优化模型

运筹学是一种科学的决策方法,主要包含线性规划、整数规划和二次规划这类问题。它通常是在需要分配稀缺资源的条件下,寻求系统的最佳设计。科学的决策方法需要使用一个或多个数学模型(优化模型)来做出最优决策。优化模型就是在给定约束的情况下,遍历决策变量的所有取值,找到优化(最大化或最小化)目标函数的决策变量的值。优化模型主要由以下个部分组成:()目标函数:要优化的函数(最大化或最小化)。()决策变量:影响系

十、业务流程分析与流程优化(价值流程、对比测试)
商业策略分析 296 阅读
十、业务流程分析与流程优化(价值流程、对比测试)

本章的主要内容是介绍价值流程图与对比测试技术。随着生产工作的日益流程化和规范化,绘制价值流程图(VSM)越发彰显出其重要性,价值流程图不仅可以展现整个生产流程,也可以帮助精确定位整个生产环节出现的问题,是进行目标优化的数据基础。另外,单一的漏斗模型对于分析来说是没有任何意义的,即我们不能单从一个漏斗模型来评价网站某个关键流程中各步骤的转化率的好坏,而是必须通过趋势、比较和细分的方法对流程中各步骤的

九、用户分群方法(用户细分与聚类、层次聚类、K-means聚类、决策树-聚类事后分析)
商业策略分析 349 阅读
九、用户分群方法(用户细分与聚类、层次聚类、K-means聚类、决策树-聚类事后分析)

一、用户细分与聚类世纪年代之前,主要使用用户基本信息进行细分,之后代表性的企业开始将人口统计学和心理学知识融入用户分群,为不同群体的用户提供差异化产品和服务。世纪,得益于信息传输、计算能力的快速发展,此阶段强调基于数据的用户行为分群,越来越多的数据被用于建立用户分群模型,而这里的分群模型就是聚类模型。所谓聚类模型,大致的逻辑是,将样本点根据某种特征进行分类,达到的效果是,类与类之间的差异大,而同一

八、使用时间序列分析方法做预报(效应分解、平稳和非平稳时间序列分析模型)
商业策略分析 307 阅读
八、使用时间序列分析方法做预报(效应分解、平稳和非平稳时间序列分析模型)

时间序列数据是对某个个体在多个时间点上收集的数据。本章的主要内容有时间序列简介、趋势分解法时间序列分析、ARIMA时间序列分析等。一、认识时间序列在实际分析工作中,会遇到很多与时间序列有关的数据。比如,某电商平台每个月的全国销售额、某网站一个月内的日访问量等。时间序列数据是按时间顺序排列、随时间变化且相互关联的数据序列。根据所研究的依据不同,时间序列有不同的分类。按研究对象可以分为一元时间序列和多

七、使用统计学方法进行变量有效性测试(假设检验、方差分析、列联表分析卡方检验、线性回归、逻辑回归)
商业策略分析 387 阅读
七、使用统计学方法进行变量有效性测试(假设检验、方差分析、列联表分析卡方检验、线性回归、逻辑回归)

数据驱动型决策的工作流程是,首先根据业务目标制定指标体系,然后通过分析指标发现业务执行过程中的问题,再通过宏观和微观相结合的根因分析技术定位关键问题并制定优化方案,最后使用统计学方法进行变量有效性测试。变量有效性检验的主流技术是统计学假设检验与回归分析。一、假设检验统计学里假设检验的思想举例:如果想知道北京市住宅价格增长率是否是.%,那么可以首先假设北京市住宅价格增长率为.%,设定显著性水平为.,

六、用户标签体系与用户画像(标签体系、标签分类、用户画像、用户分群)
商业策略分析 287 阅读
六、用户标签体系与用户画像(标签体系、标签分类、用户画像、用户分群)

用户微观视角下的数据分析,用户标签是进行用户画像的基础,用户画像可以辅助业务人员制定用户分群策略,用户分群在企业战略、用户运营、风险防控方面具有广泛的应用。实现精准投放的本质是识别目标消费群体,主要通过两个维度来识别。第一个维度是识别目标消费群体的消费意愿,第二个维度是识别目标消费群体的消费能力。一、标签体系的整体框架用户标签能够以多种形式存在,一种是用户的自然属性,一种是对用户交易、资产数据的统

五、宏观业务分析方法(矩阵分析法、连续型变量降维、主成分分析法、因子分析、多维尺度分析)
商业策略分析 324 阅读
五、宏观业务分析方法(矩阵分析法、连续型变量降维、主成分分析法、因子分析、多维尺度分析)

在实际业务中,收集到的数据往往维度众多,将其全部纳入模型进行分析不仅会造成维度灾难,而且成本较高。本章主要从宏观业务角度出发,讲解大数据小分析的基本思想与合理性,并介绍常用的数据降维方法——主成分分析法与因子分析法。一、矩阵分析法矩阵分析法的基本思想是大数据小分析,所谓大数据小分析就是在做决策时对数据进行降维,以便决策者更加明确地了解事务的本质。因此,在学习矩阵分析法之前先引入维度分析的思想。选取

^