統計學:取樣分佈 (Sampling Distributions)

取樣分佈 (Sampling Distributions)


對於特定樣本數 (sample size) N,所有可能的取樣之統計量(舉例來說,算術平均數)的機率分佈。

算術平均數的取樣分佈 (Sampling Distribution of the Mean)


若母群(X)為常態分佈 (算術平均數為 μ,標準差為 σ),

則對於任意樣本數,所有可能的取樣的算術平均數( \( \overline{X} \) )亦為常態分佈,且算術平均數為 μ,標準差為 \( \frac{\sigma}{\sqrt{n}} \)。

可以看出來,若樣本數愈大,算術平均數的變異數及標準差會越小。

舉例來說,若台灣人口 (假設 2000 萬人) 的體重呈常態分佈,則任意調查 N 個人,所有可能的取樣的體重的算術平均數,也是呈常態分佈。

若 N=1,所有可能的取樣為 2000 萬筆體重資料。

中央極限定理 (Central Limit Theorem)


從任何一個母群 (算術平均數為 μ,標準差為 σ) 中取大小為 N 之樣本,

當 N 足夠大時,取樣的算術平均數會接近常態分佈,且算術平均數為 μ,標準差為 \( \frac{\sigma}{\sqrt{n}} \)。

一般來說,N = 30,可視為「足夠大」。是否足夠大,視母群的分佈近似常態分佈的程度。

舉例來說,電機系主任宣稱電機系畢業生的月薪平均為 NT$80,000,標準差為 $10,000。

某甲想要驗證這個說法的真實性,調查了 25 位電機系畢業生,發現月薪平均為 NT$75,000。

某甲想要瞭解,樣本數為 25,月薪平均 <=NT$75,000 的機率。

X: 母群的月薪。

\( \overline{X} \): 所有可能的取樣的算術平均數,其中樣本數為 25。

我們想計算的是 \( P(\overline{X} \lt \ 75,000) \)。

\( \mu_{\overline{X}} = \mu = 80,000 \)

\( \sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{10,000}{\sqrt{25}} = 2,000 \)

\( P(\overline{X} \lt \ 75,000) = P(\frac{\overline{X} - \mu_{\overline{X}} }{ \sigma_{\overline{X}} } \lt \frac{75,000 - 80,000}{2,000} ) = P (Z \lt -2.5) = 0.0062 \)

機率很低,所以可以認為電機系主任的說法很可能是不符合事實的。

fig1

延伸閱讀


[書籍] Managerial Statistics, Chap 9 Sampling Distributions, 作者: Gerald Keller