浅谈 Central Limit Theorem
第一次接触中心极限定理是在 1853 的概率论 part 上,当时就觉得这个定理实在是非常优美。第二次就是 2501 了;但这个立足于数据科学的新表述却给我一种熟悉的陌生感。怎么个事?遂新开一篇文章做一点小小研究。
Lindeberg-Levy CLT (Math1853)
从这个我印象最深的 CLT 定义开始说起。
对一系列 independent and identically distributed (i.i.d.) random variables \(\{X_n\}\),其均值为 \(\mu\),方差 \(\sigma^2<\infty\),并令 \(S_n=X_1+X_2+...+X_n\),那么有 \[ \lim_{n\to\infty} S_n\sim N(n\mu,\sqrt{n}\sigma) \] 也就是 i.i.d. 变量的 和 \(S_n\) 符合正态分布。
注意两个性质:
- \(\mathrm{mean}(X)+\mathrm{mean}(Y)=\mathrm{mean}(X+Y)\).
- \(\mathrm{var}(X)+\mathrm{var}(Y)=\mathrm{var}(X+Y)\).
由此可推出 \(S_n\) 所服从的正态分布的两个参数:
- \(\mathrm{mean}(S_n)=n\cdot\mathrm{mean}(X)=n\mu\).
- \(\mathrm{sd}(S_n)=\sqrt{\mathrm{var}(S_n)}=\sqrt{n\mathrm{var}(X)}=\sqrt{n\sigma^2}=\sqrt{n}\sigma\).
这是最经典的 CLT 定义,因此限制也最严格。随机变量序列 \(\{X_n\}\) 不仅需要相互独立,还需要保证它们的分布完全一致 (对具体是怎样的分布则没有限制)。
第一次变形: Standardization
我们经常能够看到经典 CLT 的另一种表述:条件不变,但结论写成: \[ \lim_{n\to\infty} \frac{S_n-n\mu}{\sqrt{n}\sigma}\sim N(0,1) \] 右侧的正态分布,我们称其为 标准正态分布 (standard normal distribution)。
对于任何一个服从正态分布的随机变量,通过 减去均值,除以标准差 这两个步骤都能得到一个符合标准正态分布的新随机变量,我们称这个过程为 标准化 (standardization)。
- 减去均值:使得钟形曲线的中轴移至 \(x=0\)。
- 除以标准差:使得钟形曲线的标准差变为 \(1\)。想象一个原本位于 \((\sigma,b)\) 的点,转换后将位于 \((1,b)\)。
这样,我们成功将任意正态分布映射到了标准正态分布上。 该标准正态分布上的任意一点 \((x,b)\) 都对应原正态分布上的某点 \((x\sigma+\mu, b)\)。
正态分布的标准化消除了不同正态分布之间的鸿沟,使得它们都能被总结到标准正态分布上。
第二种表述: Data Science
这次我们将 \(X\) 定义一次抽样中某个个体的数据,若总共抽样 \(n\) 次,那么本次抽样的均值 (即所谓 sample means) 为 \(S_n/n\)。我们将说明该 sample means 服从正态分布。
根据经典 CLT,我们有 \[ \lim_{n\to\infty} S_n\sim N(n\mu,\sqrt{n}\sigma) \] 按照类似标准化的转换模式,能够得到 \[ \lim_{n\to\infty}\frac{S_n-n\mu}{\sqrt{n}\sigma}=\lim_{n\to{\infty}}\frac{\mu_s-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) \] 我们利用该结论来研究使用 sample mean \(\mu_s=\frac{S_n}{n}\) 近似 population mean \(\mu\) 的准确性,即 \(\mu_s\) 与 \(\mu\) 之间的标准误差 (standard error) \(|Z|\)。
令 \(Z=\mu-\mu_s\),对于任意 \(\Delta=z\frac{\sigma}{\sqrt{n}}\),都有 \[ \begin{aligned} \Pr[|Z|\leq \Delta&]=\Pr[|\frac{Z}{\frac{\sigma}{\sqrt{n}}}|\leq z] \\ &= \Pr[\frac{Z}{\frac{\sigma}{\sqrt{n}}}\leq z]-\Pr[\frac{Z}{\frac{\sigma}{\sqrt{n}}}\leq -z] \\ \frac{Z}{\frac{\sigma}{\sqrt{n}}}&\sim N(0,1) \end{aligned} \] 由此就能计算出 sample mean 与 population mean 误差在 \(\Delta\) 之内的概率。
反过来,给出概率 \(\Pr\)
我们也能求出 \(\Delta\),从而得到在概率
\(\Pr\) 保证下的置信区间 \([\mu_s-z\frac{\sigma_s}{\sqrt{n}},
\mu_s+z\frac{\sigma_s}{\sqrt{n}}]\)。\(z\) 和 confidence
是一一对应的:confidenceTable <- tibble(z) |> mutate(pnorm(z) - pnorm(-z))
。
还有一个问题,population standard deviation \(\sigma\) 是未知的:我们用 sample standard deviation \(\sigma_s\) 来近似。能够这样做的原因是当 \(n\) 足够大时,\(\frac{\sigma}{\sqrt{n}}\) 与 \(\frac{\sigma_s}{\sqrt{n}}\) 间的误差可以忽略不记,保证了近似的准确性。
p-values
Given a coin, we are told that the coin is fair.
We don't quite believe it, and we flip the coin 100 times with 58 heads. How likely is it to see 58 or more heads if the assumption the coin is fair is true?
- null hypothesis (零假设):希望被证伪的假设。
- p-value:根据实验结果所得零假设成立的概率。若 p-value \(<0.05\), 没有足够的证据证明零假设成立。
上例中,零假设为 the coin is
fair;若其成立,则抛硬币这一事件的 \(\mu=0.5\),\(\sigma=\sqrt{0.5(1-0.5)}=0.5\)。因此
p-value 为 \(\Pr[\mu_s\geq
0.58]\)。应用 CLT 我们得出: \[
\begin{aligned}
\Pr[\mu_s\geq
0.58]&=\Pr[\mu_s-\mu\geq0.08]\vphantom{\frac{\mu_s-\mu}{\sigma/\sqrt{100}}}\\
&= \Pr\left[\frac{\mu_s-\mu}{\sigma/\sqrt{100}}\geq
\frac{0.08}{\sigma/\sqrt{100}}\right] \\
&= \Pr[Z\geq1.6]\vphantom{\frac{\mu_s-\mu}{\sigma/\sqrt{100}}} \\
&= 1-\Pr[Z\leq1.6]\vphantom{\frac{\mu_s-\mu}{\sigma/\sqrt{100}}}
\end{aligned}
\] 在 R 中利用公式计算出 1-pnorm(1.6)
计算出 p-value
为
0.05479929,仍然是一个非常小的值。因此该实验并没有足够的证据支持零假设。
Bayesian Analysis
与 Bayesian Analysis 相对的是 Frequentist Analysis。
我们目前所学习的所有概念与技巧 (CLT, confidence interval, p-value) 都属于 frequentist statistic 的范畴:结论的得出仅仅基于实验的结果,并不考虑任何先验信息 (prior information)。
Bayesian Analysis 得名于贝叶斯公式 \(\Pr(A|B)=\frac{\Pr(A)\Pr(B|A)}{\Pr(B)}\)。
- 根据 prior information 得出 prior distribution (先验分布)。
- 根据实验结果对 prior distribution 进行修正,得到 posterior distribution (后验预测分布)。
研究一个例子:\(A\) 是否应该准备开始面对死亡的来临?
- prior information:囊肿性纤维在人群中的发病率为 \(\frac{1}{3900}\)。
- 实验结果:囊肿性纤维测试准确率为 \(99\%\)。某个倒霉蛋 \(A\) 测试的结果是阳性。
这里,医学测试的准确率 (accuracy) 为 \(99\%\) 意味着:(患病为自变量,测试结果为因变量)
has | has not | |
---|---|---|
positive | (true positive) \(99\%\) | (false positive) \(1\%\) |
negative | (false negative) \(1\%\) | (true negative) \(99\%\) |
如果从纯 frequentist analysis 的角度来看,\(A\) 似乎是必死无疑了。毕竟假阳性的出现概率仅有 \(1\%\)。然而如果考虑到囊肿性纤维的发病率为 \(\frac{1}{3900}\) 这一关键的先验信息,Bayesian analysis 能为我们提供另外的答案。
令 \(D=1\) 表示 \(A\) 患病,\(D=0\) 反之;那么先验信息为 \(\Pr(D=1)=\frac{1}{3900}\)。 \[ \begin{aligned} \Pr(D=1|+)&=\frac{\Pr(+|D=1)\cdot\Pr(D=1)}{\Pr(+)}\\ &= \frac{\Pr(+|D=1)\cdot \Pr(D=1)}{\Pr(+|D=0)\Pr(D=0)+\Pr(+|D=1)\Pr(D=1)} \\ &= \frac{99\%\times\frac{1}{3900}}{1\%\times(1-\frac{1}{3900})+99\%\times \frac{1}{3900}} \\ &\approx \vphantom{\frac{1}{\frac{1}{3900}}} 0.02 \end{aligned} \] 由此可见,在测试结果为阳性的前提下患有囊性纤维的概率仅有 \(2\%\);\(A\) 大可不必如此惊慌。这就是贝叶斯分析:考虑先验信息的存在,从而提高结论的准确性。
Reference
- COMP2501 lecture slides.
- But What is Central Limit Theorem? - 3Blue1Brown.
- CLT - a visual explanation.