变异系数 相对标准偏差,标准差与资料变异度

variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离 。
可变性有时也称为扩散或者分散 。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散 。
低变异性是理想的 , 因为这意味着可以根据样本数据更好地预测有关总体的信息 。高可变性意味着值的一致性较低 , 因此更难做出预测 。在统计学中,我们的目标是测量一组特定数据或一个分布的变异性 。简单来说,如果一个分布中的数据值是相同的 , 那么它没有变异性 。

变异系数 相对标准偏差,标准差与资料变异度

文章插图
上图中尽管数据服从正态分布 , 但每个样本都有不同的分布 。样品 A 的变异性最大,而样品 C 的变异性最小 。
可以使用多种不同的方式对变异度进行度量
极差(Range)
变异系数 相对标准偏差,标准差与资料变异度

文章插图
极差,又称全距,可以显示数据从分布中的最低值到最高值的分布 。
例如,考虑以下数字:1、3、4、5、5、6、7、11 。对于这组数字,极差是 11-1 或 10 。
变异系数 相对标准偏差,标准差与资料变异度

文章插图
极差的度量仅使用了 2 个数字因此受异常值影响很大,并且不会提供有关值分布的任何信息 。所以它最好与其他方法结合使用 。
四分位距(Interquartile range)
变异系数 相对标准偏差,标准差与资料变异度

文章插图
四分位距又被称作四分差,可以提供数据分布中间的分布 。
对于从低到高排序的任何分布,四分位距包含数据中一半的值 。第一个四分位数 (Q1) 包含前 25% 的值,而第四个四分位数 (Q4) 包含最后 25% 的值 。
它衡量数据如何围绕均值分布 。基本公式为:IQR = Q3 - Q1
就像极差一样,四分位距在其计算中仅使用 2 个值 。但是IQR受异常值的影响较?。赫?个值来自数据集的中间一半 , 所以不太可能是极端分数 。
变异系数 相对标准偏差,标准差与资料变异度

文章插图
小知识:每个分布都可以使用五个数字摘要进行组织:
最低值Q1:第 25 个百分位Q2:中位数Q3:第 75 个百分位最高值 (Q4)
变异系数 相对标准偏差,标准差与资料变异度

文章插图
方差(Variance)
变异系数 相对标准偏差,标准差与资料变异度

文章插图
方差表示数据集的分布范围 , 但它是一个抽象数字 。它反映了数据集中的分散程度 。数据越分散 , 方差与均值的关系就越大 。
变异系数 相对标准偏差,标准差与资料变异度

文章插图
小方差 - 数据点往往非常接近均值且彼此非常接近高方差 - 数据点与均值和彼此之间非常分散零方差——所有数据值都相同标准差(Standard Deviation)标准偏差是数据集中的平均变异量 。它平均表示每个数据点与平均值相差多远 。标准差越大,数据集的可变性越大 。
变异系数 相对标准偏差,标准差与资料变异度

文章插图
为什么使用 n - 1 作为样本标准差?当拥有总体数据时可以获得总体标准差的准确值 。可以从每个总体成员收集数据,因此标准差反映了分布(总体)中的精确变异量 。