数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

线性回归-补充
统计学 283 阅读
线性回归-补充

线性回归模型评价指标R:可解释的总平方和为y的预测值-y的均值的平方和总平方和为y值的总离差平方和(y-y的均值的平方和):描述数据波动的总量总离差平方和:是各观测值yi与均值yˉ离差的平方和,即SST=∑i=n(yi−yˉ),它反映了因变量y取值的总波动程度。例如,在上述例子中,SST=,体现了y值相对于均值的总体波动大小。方差:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,是

《这就是ChatGPT》
AI 439 阅读
《这就是ChatGPT》

前言:以ChatGPT为代表的人工神经网络的逆袭之旅,在整个科技史上也算得上跌宕起伏。它曾经在流派众多的人工智能界内部屡受歧视和打击。不止一位天才先驱以悲剧结束一生:年,沃尔特·皮茨(WalterPitts)在与沃伦·麦卡洛克(WarrenMcCulloch)共同提出神经网络的数学表示时才岁,后来因为与导师维纳失和而脱离学术界,最终因饮酒过度于岁辞世;年,岁的弗兰克·罗森布拉特(FrankRose

统计学 251 阅读
均值标准误差

定义均值标准误差(StandardErroroftheMean,SEM)是样本均值的标准差。它衡量的是样本均值与总体均值之间的差异程度,反映了样本均值的抽样误差大小。背景在统计学中,我们通常很难去研究整个总体。例如,要研究一个国家所有成年人的身高,测量每一个成年人的身高是几乎不可能的。所以我们需要从总体中抽取样本进行研究。当我们从总体中抽取多个样本(每个样本包含若干个个体)时,这些样本的均值会围绕

逻辑回归模型
统计学 304 阅读
逻辑回归模型

从原理上讲,“对数几率回归”这个名称更准确地反映了逻辑回归模型的本质。因为在这个模型中,关键的步骤是先对事件发生的几率取对数,得到对数几率(log-odds),然后将对数几率建模为自变量的线性组合最后再通过逻辑函数(Sigmoid函数)将对数几率转换回概率。一、逻辑回归的正确理解、名称来源的合理性从原理上讲,“对数几率回归”这个名称更准确地反映了模型的本质。因为在这个模型中,关键的步骤是先对事件发

统计学 382 阅读
协方差矩阵

协方差矩阵反映了各个变量之间的相关性。如果两个变量的协方差为正,说明它们正相关;协方差为负,说明它们负相关;协方差为,说明它们不相关。主成分分析希望找到的主成分方向是数据方差最大的方向,而协方差矩阵的特征向量就对应着这些方差最大的方向。定义与解释协方差的概念:协方差是衡量两个随机变量之间关系的统计量。对于两个随机变量XX和YY,它们的协方差Cov(X,Y)=E[(X−E(X))(Y−E(Y))]C

统计学 348 阅读
线性组合的理解

定义:线性组合是线性代数中的一个基本概念。对于一组向量v,v,⋯,vnv,v,⋯,vn和一组标量(实数或复数)c,c,⋯,cnc,c,⋯,cn,线性组合是指通过将每个向量乘以对应的标量然后相加得到的新向量,表达式为y=cv+cv+⋯+cnvny=cv+cv+⋯+cnvn。其中yy就是向量v,v,⋯,vnv,v,⋯,vn的线性组合。理解:以主成分分析(PCA)为例通俗解释数据分布想象:把数据想象成散

统计学 339 阅读
统计学七支柱

追溯统计学来龙去脉,阐释统计推理核心思想。“统计学是什么?”早在年就有人提出过这个问题(与英国皇家统计学会有关),此后这个问题又被反复提起。多年来,铁打的问题和流水的答案已成为该讨论的特点。统计学有各种各样的问题、方法和解释,那到底有没有自己的核心科学呢?这个问题就是我想在本书中解决的。我不打算告诉你统计学是什么或不是什么,而是尝试制定七个原则,即支撑统计学领域的七根支柱。它们在过去曾以不同方式支

统计学 743 阅读
均值回归

均值回归的概念均值回归是一种统计现象,最初是在金融和经济学领域被广泛关注。它是指当一个变量的数值偏离其长期平均值(或均值)时,在未来的一段时间内,这个变量有向均值靠近的趋势。例如,股票价格如果在短期内大幅上涨,超过了其长期的平均价格水平,根据均值回归理论,在未来的一段时间内,股票价格有可能会下降,向其长期平均价格回归。从数学角度理解,假设变量XX有一个长期稳定的均值μμ,如果在某个时刻tt,XtX

统计学 395 阅读
统计学中的“回归”是什么意思?

回归的词源本意“回归”一词英文是“regression”,最初是由英国生物学家兼统计学家高尔顿(FrancisGalton)在研究人类遗传问题时提出的。高尔顿在研究父母身高与子女身高的关系时发现,高个子父母的子女,其身高有向人群平均身高“回归”的趋势,矮个子父母的子女身高往往会比父母高,也有向平均身高靠近的倾向。这里的“回归”就是指一种趋向于中心值(平均身高)的现象。统计学中的回归含义概念:在统计

统计学 386 阅读
统计学中的自由度是什么意思?

基本概念在统计学中,自由度是指当以样本的统计量来估计总体的参数时,样本中能够自由变化的数值的个数。可以把它想象成有一定限制条件下的“活动空间”。例如,假设有一个样本包含nn个数据,我们要计算样本均值xˉxˉ。在计算出均值后,只有n−n−个数据可以自由取值,因为一旦确定了n−n−个数据和均值,最后一个数据就被确定了。这就是自由度的一种简单体现。简单例子说明假设我们要估计一个班级学生的平均成绩。如果只

^