您好,欢迎访问全国教育考试教材网
商品分类

数据分析必备的统计学基础,数据分析必备的统计学知识大梳理

除了熟悉业务、掌握业务分析思维和工具外,数据分析专家必备技能堆栈还有一个特别重要的知识点:统计学。 无论是简历的技能描述还是实际面试中,统计学都是必须的基础知识。

为什么统计学对数据分析师来说那么重要? 其实答案很明显。 数据分析的价值在于,通过数据洞察业务背后的信息,避免以往“决定拍脑袋,保证拍胸部,拍屁股就走人”的主观误判,一切用数据说话。 数据怎么能说话? 算出一个数据,怎么知道那个数据好不好? 有多好? 两组数据出现在你面前,如何判断这两组数据是否有明显的差异? 要回答这些问题,你需要运用统计学知识,而不是相信自己的眼睛。 因为眼睛有时会说谎,所以你看到的“好”不一定都是好的。 你看到的“没有区别”并不意味着没有区别。

但是,许多刚入门的数据分析师在学习统计学知识时都很头疼。 统计学的书籍里写了很难理解的公式,不是一般人能理解的。

其实,对大多数数据分析师来说,我们不需要掌握得那么全面和深入。 我们只能掌握一部分知识,理解不了理论。 但是,你只要知道在什么场合使用就可以了。 用了之后,慢慢就能理解了。

因此,为了便于学习统计学的基础知识,这里整理一下数据分析工作中最常见的统计学基础知识,并尽量以简单的白字形式进行讲解,以便在面试和以后的工作中都能运用统计学知识。

数据分析中的统计学

问题1、辛普森悖论是什么? 细分后的结果与整体结果相矛盾,人们常说这就是辛普森的悖论。

辛普森悖论主要是因为两组样本不平衡,采样不合理。

在正确的实验实施方案中,除被测试变量外,可能影响结果的变量比例必须一致,流量必须均匀合理划分。

例如:

如果原来的男性是20人,点击1人; 点击女性100人、99人,总点击率为100/120。

现在男性100人,点击6人; 女性20人,点击量20人,总点击率26/120。

男女点击率都有所提高,但点击率更高的女性所占比例太小,无法提高整体点击率。

Q2、协方差与相关系数的差异和联系协方差:

协方差表示两个变量的整体误差,这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致,即一个大于自己的期望值,另一个也大于自己的期望值,则两个变量之间的协方差为正值。

如果两个变量的变化趋势相反,一个大于自己的期望值,另一个小于自己的期望值,则两个变量之间的协方差为负值。

相关系数:

研究变量之间的线性相关程度的量,取值的范围为[-1,1 ]。

相关系数也可以认为是协方差。 消除了两个变量维数的影响的标准化特殊协方差。

Q3、AB测试的统计很显眼,实际上不显眼是什么原因? 这可能是因为我们在AB测试中选择的样本量太大,与总体数据量的差距很小。 这样的话,即使我们发现了微小的差异,这在统计上也是明显的,在实际案例中可能会变得不明显。

举个例子,为了应对我们互联网产品的实践,我们做了改变。 APP启动时间优化为0.001秒。 这个数字在统计学上对应的p值可能很小。 也就是说,虽然在统计学上很显著,但实际上无法感知用户0.01秒的差异。

这样显著的统计差异,其实对我们来说没有什么实际意义。

因此,统计学显著性并不意味着实际效果的显著性。

Q4、如何理解中心极限定理? 中心定理的定义:

(1)任一样本的平均值与其所在整体的平均值大致相等。

)无论总体是什么样的分布,任一总体的样本平均值都围绕在总体平均值的周围,呈正态分布。

中心定理的作用:

)1)在无法获得总体数据的情况下,可以用样本来估计总体。

)根据总体均值和标准差,判断某个样本是否属于总体。

Q5、如何向孩子解释正态分布? 拿出孩子班级的成绩单,按每2分统计人数,画出钟的形状。

然后说这是正态分布,很多人都集中在中间。 只有少数非常好的人和坏的人。 拿出隔壁班的成绩单,让孩子们自己画画,发现是这样的现象,拿出班级的身高表一看,是这样的。

大多数人之间差别不大,但只有少数人有特别好的人和特别坏的人。 这是生活中普遍出现的现象,这就是正态分布。

Q6、什么是聚类? 聚类算法有几种? 选择一个详细介绍(1)聚类分析是一种无监督学习方法,在一定条件下将比较同质的样品归为一类(俗称人在班里聚会,物在班里分组)。

正式地说,集群就是对点集合进行考察,根据一定的距离测度将他们归纳成多个“集群”的过程。

聚类的目标是缩短同一个集群中点之间的距离并增加不同集群中点之间的距离。

)2)聚类方法主要有:

a .分层聚类

分层法( hierarchical methods )是在满足某些条件之前对给定数据集进行分层分解的方法。

具体分为“自下而上”和“自上而下”两个方案。

b .聚类划分:(经典算法为k均值) ) )。

分区给出具有n个组或记录的数据集。 分裂法构建k个组,每个组表示一个集群。

c .密度聚类

基于密度的方法( density-based methods ) (基于密度的方法与其他方法的一个根本区别在于基于密度,而不是基于各种距离。

这样,可以克服基于距离的算法只能发现“类圆形”聚类的缺点。

经典算法: DBSCAN:DBSCAN算法是典型的基于密度的聚类算法。 该算法利用空间索引技术搜索对象邻域,引入“核心对象”和“密度可达”等概念,从核心对象中将所有密度可达对象聚集成一个簇。

d .网格聚类

基于网格的方法( grid-based methods )首先将数据空间分割为有限个单元( cell )的网格结构,所有处理都以单个单元为对象。

此类处理的一大优点是处理速度快。 通常,这与将数据空间划分为多少个单元无关,与目标数据库中记录的数量无关。

经典算法: STING :利用网格单元存储数据统计信息,实现多分辨率聚类。

)3) k-means容易介绍,开始选取k个点作为聚类中心,剩下的点根据距离分类为类,找到新的类中心,重新分配点; 重复直到达到收敛条件或重复次数。

优点是快; 缺点是先指定k,同时对异常值敏感。

Q7、线性回归和逻辑回归的区别是什么? 以线性回归为对象的目标变量为区间型,逻辑回归为对象的目标变量为类别型,

假定线性回归模型的目标变量和自变量之间的关系是线性相关的,逻辑回归模型的目标变量和自变量是非线性的。

线性回归中通常使用假设,对应自变量x的某个值,目标变量y的观测值服从正太分布。

逻辑回归中的目标变量y服从二项分布的0和1或多项分布

逻辑回归中不存在线性回归中常见的残差。

参数评估采用线性回归最小二乘法,逻辑回归采用最大似然法。

Q8、为什么朴素的贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但非常强大的预测建模算法。

之所以称为朴素贝叶斯是因为它假定每个输入变量都是独立的。

这是一个强硬的假设,实际上并不一定,但这项技术对大多数复杂问题仍然非常有效。

Q9、k均值和KNN的区别是什么? 首先,这两种算法解决了数据挖掘中的两类问题。

k均值是聚类算法,KNN是分类算法。

其次,这两种算法分别是两种不同的学习方式。

k均值是非监督学习,即不需要提前进行分类标记,而KNN有监督学习,需要对训练数据进行分类标记。

最后,k值的含义不同。

K-Means的k值表示k类。

KNN的k值表示最近的k个邻居。

Q10、逻辑回归和线性回归的区别? 线性回归要求因变量必须是连续性数据变量; 逻辑回归需求因变量必须为分类变量、二分类或多分类; 例如,要分析性别、年龄、身高和饮食习惯对体重的影响,请通过线性回归来分析体重是实际重量,还是连续性数据变量。 对体重进行分类,作为因变量分为高、中、低3种体重类型时,采用logistic回归。

两者的不同还体现在以下几点。

一、性质不同

1、逻辑回归:是一个广义线性回归分析模型。

2、线性回归:一种利用数理统计中的回归分析,确定两个或多个变量之间相互依存的定量关系的统计分析方法。

二、应用不同

1、逻辑回归:常用于数据挖掘、疾病自动诊断、经济预测等领域。

2、线性回归:常用于数学、金融、趋势线、经济学等领域。

以上是【几分面试宝典】系列——统计学基础知识第一篇文章的内容。 历史文章的一部分请恢复为公众号。 更多数据分析面试笔试文章持续更新,敬请期待。 觉得好的话,就分享,点赞,也欢迎收藏~