估計 (Estimation)

根據樣本的統計量，決定母群體的參數的近似值。

舉例來說，根據樣本的算術平均數，估計母群體的算術平均數。

估計式: estimator。舉例，樣本的算術平均數。

估計量: estimate。

點估計式 (Point Estimator)

使用單一的值(單點)來估計未知的母群體參數，以導出對於母群體的推論。

舉例，為了瞭解台北市民的平均月收入(假設有 260 萬人)，挑選其中 1000 人，計算月收入的算術平均數，假設為 60000，點估計會推論台北市民的平均月收入為 60000。

缺點:

1. 估計完全正確的可能性是 0。因為連續型隨機變數在任何一點發生的機率是 0。

2. 無法知道估計量和參數有多接近。

3. 當樣本數愈大，估計量預計應該會愈準確，但點估計無法反應這個特性。

區間估計式 (Interval Estimator)

使用區間來估計未知的母群體參數，以導出對於母群體的推論。

舉例，為了瞭解台北市民的平均月收入(假設有 260 萬人)，挑選其中 1000 人，紀錄月收入的分佈，區間估計會推論台北市民的平均月收入在 50000 到 70000 之間。

不偏估計 (Unbiased Estimator)

若一估計式的期望值等於母群體參數，則該估計式稱為不偏估計式。

意為，若對母群體進行無限次數的取樣，求得的估計值，會等於母群體參數。

舉例來說，樣本的算術平均數是母群體算術平均數的不偏估計。

一致性 (Consistency)

隨著樣本數變大，若估計量和母群體參數的差異隨之變小，則稱該不偏估計具有「一致性」。

前述差異的量測值為變異數（或標準差）。

舉例來說，樣本的算術平均數( \( \overline{X} \) )是母群體的算術平均數(μ)的一致性估計式，因為 \( \overline{X} \) 的標準差為 \( \frac{\sigma}{\sqrt{n}} \)，當樣本數 n 愈大，\( \overline{X} \) 的變異數變小，有愈多的樣本算術平均數會接近 μ。

相對有效性 (Relative Efficiency)

對於2個不偏估計，變異數較小的稱為「相對較有效」 (relatively more efficient)。

舉例來說，對於母群體算術平均數的估計，樣本算術平均數比樣本中位數相對有效。

區間估計

母群體標準差為已知時，估計母群體算術平均數的方式

這個例子雖然不實際，但因為很簡單，有助於瞭解區間估計的概念。

假設母群體算術平均數為 μ，標準差為 σ。

假設母群體算術平均數是未知，而標準差是已知，我們想要估計母群體的算術平均數。

我們會隨機取 n 個樣本，並計算樣本算術平均數為 \( \overline{X} \)。

根據中央極限定理，如果 X 是常態分佈，或如果 X 不是常態分佈但 n 足夠大，\( \overline{X} \) 也會是常態分佈。

因此隨機變數 \( Z = \frac{\overline{X}-\mu}{\sigma / \sqrt{n}}\) 會是標準常態分佈。

可推導出

\( P(-Z_{\alpha / 2} \lt \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \lt Z_{\alpha / 2}) = 1 - \alpha \)

\( P(\mu - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \overline{X} \lt \mu + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

\( P(\overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \mu \lt \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

最後一個式子意義為，當重複從母群體中進行取樣，\( ( \overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} , \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} ) \) 區間包含母群體算術平均數 μ 的機率是 1-α。

其中 Z_α 的意義為某一個 z 值，使得標準常態分佈曲線在該 z 值右方的面積為 α，換句話說，P(Z>Z_α) = α

1-α 稱為信賴水準(confidence level)。

舉例來說，信賴水準為 95%，意義為，若取樣多次(每次取樣數為 n)，其中 95% 的取樣，會使得取樣的算術平均數落在信賴區間內。但實際上，通常只會取樣一次，意義為該次取樣的算術平均數落在信賴區間內的機率是 95%。
\( \overline{X} - Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 稱為下信賴界限(lower confidence limit, LCL).

\( \overline{X} + Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 稱為上信賴界限(upper confidence limit, UCL).

通常信賴區間估計式(confidence interval estimator)表示為 \( \overline{X} \pm Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \)

估計誤差

估計量和母群體參數之間的差距。

根據前述的例子，可推導為下式，其中 \( \overline{X} - \mu \)是估計誤差。

\( P(-Z_{\alpha / 2} \lt \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \lt Z_{\alpha / 2}) = 1 - \alpha \)

\( P(- Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \lt \overline{X} - \mu \lt Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha \)

也就是說，\( |\overline{X} - \mu| \lt Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \) 的機率是 \( 1 - \alpha \)

延伸閱讀

[書籍] Managerial Statistics, Chap 10 Introduction to Estimation, 作者: Gerald Keller

Murphy 的書房

統計學：估計 (Estimation)