在前面的文章当中,我们认识了许多重要的统计量,比如描述数据集中和分散程度的均值和差值。数据作为随机变量出现,有与之对应的概率分布,统计量也不例外。因为统计量产生于样本,而样本可看作随机变量,故统计量其实也是随机变量,也有相应的分布。统计量的概率分布称为抽样分布(Sampling Distribution)。
由于统计量是描述性统计的重要概念,那么探求样本统计量的分布必然成为统计日常之一。在过去的 200 年间,科学家们发现了抽样分布的四种形式,并且大致可以分为两类:一类是有关样本均值的分布,z-分布和 t-分布;一类是有关样本方差的分布,卡方分布和 F-分布。
时至今日,我们仍能透过这些成果看见那些伟人前赴后继在寻求答案的路程中的身影。你也许会像我一样,在对他们辛勤付出心怀感激的同时,更油然而生一种对于那个时代人的智慧和精神的敬佩。对抽样分布的探索固然可循而不可同日而语,我们倒不妨带着类似「样本与总体的统计量之间的差异到底有多少」以及「这种差异是否有规律可循」的问题,去了解抽样分布的模样。
I. 样本均值的抽样分布
z-分布
在介绍差值用于标准化的文章中,我们接触到了 z-分数这一概念。回顾一下 z-分数,z=(x-μ)/σ
,含义是「当前数据点与样本平均值之间差了多少个标准差」。借助 z-分数,同理我们可以构造抽样的 z-分数,用于表示「样本均值和总体均值之间差了多少个标准差」。此时式子中的 x
和 σ
就变成了每次抽样的平均值和标准误,记为
已经通过反复的实验证明,当 n
充分大时,抽样的 z-分数会服从标准正态分布,也就是 z-分布。
t-分布
t-分布全称是学生 t-分布(Student’s t-distribution),来自英国人 William S. Gosset 在 1908 年对外发表其在酿酒研究中取得的成果。William 在研究过程中发现,在样本量很小(不足 30)的情况下使用 z-分数产生的误差非常大,便依靠自己的统计知识创造出了 t-分布。产生大误差的原因在于对 μ
和 σ
两个参数的估计。因为 z-分数里的 μ
和 σ
总是已知的,然而在实际中未必清楚这两个数值到底是多少,尤其是 σ
要比 μ
难测量得多。试着想一想,如果总体有 10 个,样本数为 3 的抽样情况就有 C(10, 3)=120
种。计算量太大导致人们更倾向于主观估计。William 想到用样本方差 s
来表示总体方差,构造出一个「神似」z-分数的新统计量
中心极限定理告诉我们,当样本量足够大的时候,任何分布形态的均值和方差都可用此时的样本统计量来近似。因此这种做法是合理的。
William 还发现这个统计量服从的是自由度(Degrees of Freedom)为 n-1
的分布,后来被称为 t-分布,其中的n-1
来自样本方差的有偏估计(重温或进一步认识自由度的概念,可翻到文末查看推荐阅读的材料)。这种分布的形状与自由度有关,自由度越小分布曲线越「矮胖」,自由度越大则分布曲线越「高挑」。当自由度为 30 的时候(图中橙色线条),t-分布整体上已经很接近正态分布了。
II. 样本方差的抽样分布
卡方分布
针对服从 z-分布的总体,如果将每次抽样求得的样本 z-分数求平方和,就可得到叫做卡方(Chi-square)的统计量
Karl Pearson(没错,正是发明相关系数的那位先生)证明了当样本无限大时,这个统计量会接近一种偏态的分布,如下图所示。这种分布和 t-分布类似,它的形态依赖于自由度的大小,称为卡方分布(Chi-square Distribution)。
若总体均值 μ
无法得知,可用样本均值代替,此时的卡方就为
服从自由度为 n-1
的卡方分布,n-1
来自样本方差的有偏估计。
F-分布
前面介绍的三个统计量针对的是都是组内(单个总体)比较,现在我们将目光转向另一方面,如何对比组间(两个总体)的差异。按照同样的思路,我们可以分别对两个总体进行抽样,得到它们的样本均值或方差的抽样分布。然后再对比各自的抽样分布统计量,比方说把两个卡方统计量求一下比值,就能大致确定它们的差异状况了。
我们计算一下上面提到的卡方比值,假设总体均值事先未知
如果两个总体具有相等的方差,那么就简化成
仔细一看,你会发现式子上的 n(a)-1
和 n(b)-1
分别对应 s(a)
和 s(b)
的自由度。为了方便计算,对分式作消元处理后原式变成
可见,
同理可得当总体均值已知时,
我们把这个依赖于双方自由度的统计量叫做 F-统计量,它的值服从 F-分布。计算 F-统计量时通常要把方差较大的一方作为分子,然后把结果与 F-分布表上的数值进行比较,从而确定总体间是否存在差异。
III. 进一步阅读
- 正态分布的前世今生 (下)
- Chi-Square Statistic: How to Calculate It / Distribution
- 闲扯 “自由度”
- The F distribution and its relationship to the chi squared and tdistributions