統計學:估計 (Estimation)

估計 (Estimation)


根據樣本的統計量,決定母群體的參數近似值

舉例來說,根據樣本的算術平均數,估計母群體的算術平均數。

估計式: estimator。舉例,樣本的算術平均數。

估計量: estimate。

點估計式 (Point Estimator)


使用單一的值(單點)來估計未知的母群體參數,以導出對於母群體的推論。

舉例,為了瞭解台北市民的平均月收入(假設有 260 萬人),挑選其中 1000 人,計算月收入的算術平均數,假設為 60000, 點估計會推論台北市民的平均月收入為 60000。

缺點:

1. 估計完全正確的可能性是 0。因為連續型隨機變數在任何一點發生的機率是 0。

2. 無法知道估計量參數有多接近。

3. 當樣本數愈大,估計量預計應該會愈準確,但點估計無法反應這個特性。

區間估計式 (Interval Estimator)


使用區間來估計未知的母群體參數,以導出對於母群體的推論。

舉例,為了瞭解台北市民的平均月收入(假設有 260 萬人),挑選其中 1000 人,紀錄月收入的分佈,區間估計會推論台北市民的平均月收入在 50000 到 70000 之間。

不偏估計 (Unbiased Estimator)


若一估計式的期望值等於母群體參數,則該估計式稱為不偏估計式。

意為,若對母群體進行無限次數的取樣,求得的估計值,會等於母群體參數。

舉例來說,樣本的算術平均數是母群體算術平均數的不偏估計。

一致性 (Consistency)


隨著樣本數變大,若估計量母群體參數的差異隨之變小,則稱該不偏估計具有「一致性」。

前述差異的量測值為變異數(或標準差)。

舉例來說,樣本的算術平均數( \( \overline{X} \) )是母群體的算術平均數(μ)的一致性估計式,因為 \( \overline{X} \) 的標準差為 \( \frac{\sigma}{\sqrt{n}} \),當樣本數 n 愈大,\( \overline{X} \) 的變異數變小,有愈多的樣本算術平均數會接近 μ。

相對有效性 (Relative Efficiency)


對於2個不偏估計,變異數較小的稱為「相對較有效」 (relatively more efficient)。

舉例來說,對於母群體算術平均數的估計,樣本算術平均數比樣本中位數相對有效。

區間估計


母群體標準差為已知時,估計母群體算術平均數的方式


這個例子雖然不實際,但因為很簡單,有助於瞭解區間估計的概念。

假設母群體算術平均數為 μ,標準差為 σ。

假設母群體算術平均數是未知,而標準差是已知,我們想要估計母群體的算術平均數。

我們會隨機取 n 個樣本,並計算樣本算術平均數為 \( \overline{X} \)。

根據中央極限定理,如果 X 是常態分佈,或如果 X 不是常態分佈但 n 足夠大,\( \overline{X} \) 也會是常態分佈。

因此隨機變數 \( Z = \frac{\overline{X}-\mu}{\sigma / \sqrt{n}}\) 會是標準常態分佈。

可推導出

\( P(-Z_{\alpha / 2} \lt \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \lt Z_{\alpha / 2}) = 1 - \alpha \)

\( P(\mu - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \overline{X} \lt \mu + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

\( P(\overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \mu \lt \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

最後一個式子意義為,當重複從母群體中進行取樣,\( ( \overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} , \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} ) \) 區間包含母群體算術平均數 μ 的機率是 1-α。
其中 Zα 的意義為某一個 z 值,使得標準常態分佈曲線在該 z 值右方的面積為 α,換句話說,P(Z>Zα) = α

1-α 稱為信賴水準(confidence level)。
舉例來說,信賴水準為 95%,意義為,若取樣多次(每次取樣數為 n),其中 95% 的取樣,會使得取樣的算術平均數落在信賴區間內。但實際上,通常只會取樣一次,意義為該次取樣的算術平均數落在信賴區間內的機率是 95%。
\( \overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 稱為下信賴界限(lower confidence limit, LCL).

\( \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 稱為上信賴界限(upper confidence limit, UCL).

通常信賴區間估計式(confidence interval estimator)表示為 \( \overline{X} \pm Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \)

估計誤差


估計量母群體參數之間的差距。

根據前述的例子,可推導為下式,其中 \( \overline{X} - \mu \)是估計誤差。

\( P(-Z_{\alpha / 2} \lt \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \lt Z_{\alpha / 2}) = 1 - \alpha \)

\( P(- Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \overline{X} - \mu \lt Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

也就是說,\( |\overline{X} - \mu| \lt Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 的機率是 \( 1 - \alpha \)

延伸閱讀


[書籍] Managerial Statistics, Chap 10 Introduction to Estimation, 作者: Gerald Keller