[學習筆記] 統計學:估計 Estimation

估計 Estimation

根據樣本的統計量,決定母群體的參數近似值

舉例來說,根據樣本的算術平均數,估計母群體的算術平均數。

估計式: estimator。舉例,樣本的算術平均數。
估計量: estimate。

點估計式 Point Estimator

使用單一的值(單點)來估計未知的母群體參數,以導出對於母群體的推論。

舉例,為了瞭解台北市民的平均月收入(假設有260萬人),挑選其中1000人,計算月收入的算術平均數,假設為60000, 點估計會推論台北市民的平均月收入為60000。

缺點:
1. 估計完全正確的可能性是0。因為連續型隨機變數在任何一點發生的機率是0。
2. 無法知道估計量參數有多接近。
3. 當樣本數愈大,估計量預計應該會愈準確,但點估計無法反應這個特性。

區間估計式 Interval Estimator

使用區間來估計未知的母群體參數,以導出對於母群體的推論。

舉例,為了瞭解台北市民的平均月收入(假設有260萬人),挑選其中1000人,紀錄月收入的分佈,區間估計會推論台北市民的平均月收入在50000到70000之間。

不偏估計 Unbiased Estimator

若一估計式的期望值等於母群體參數,則該估計式稱為不偏估計式。

意為,若對母群體進行無限次數的取樣,求得的估計值,會等於母群體參數。

舉例來說,樣本的算術平均數是母群體算術平均數的不偏估計。

一致性 Consistency

隨著樣本數變大,若估計量母群體參數的差異隨之變小,則稱該不偏估計具有一致性。

前述差異的量測值為變異數(或標準差)。

舉例來說,樣本的算術平均數(eq1)是母群體的算術平均數(μ)的一致性估計式,因為eq1的標準差為eq2,當樣本數n愈大,eq1的變異數變小,有愈多的樣本算術平均數會接近μ。

相對有效性 Relative Efficiency

對於2個不偏估計,變異數較小的稱為相對較有效 (relatively more efficient)。

舉例來說,對於母群體算術平均數的估計,樣本算術平均數比樣本中位數相對有效。

區間估計

母群體標準差為已知時,估計母群體算術平均數的方式

這個例子雖然不實際,但因為很簡單,有助於瞭解區間估計的概念。

假設母群體算術平均數為μ,標準差為σ。
假設母群體算術平均數是未知,而標準差是已知,我們想要估計母群體的算術平均數。
我們會隨機取n個樣本,並計算樣本算術平均數為eq3

根據中央極限定理,如果X是常態分佈,或如果X不是常態分佈但n足夠大,eq1也會是常態分佈。

因此隨機變數Z
eq4
會是標準常態分佈。

可推導出
eq5
最後一個式子意義為,當重複從母群體中進行取樣,eq6, eq7 區間包含母群體算術平均數μ的機率是1-α。

其中Zα的意義為某一個z值,使得標準常態分佈曲線在該z值右方的面積為α,換句話說,P(Z>Zα) = α

1-α稱為信賴水準(confidence level)。

舉例來說,信賴水準為95%,意義為,若取樣多次(每次取樣數為n),其中95%的取樣,會使得取樣的算術平均數落在信賴區間內。但實際上,通常只會取樣一次,意義為該次取樣的算術平均數落在信賴區間內的機率是95%。

eq8稱為下信賴界限(lower confidence limit, LCL).

eq9稱為上信賴界限(upper confidence limit, UCL).

通常信賴區間估計式(confidence interal estimator)表示為eq10

估計誤差

估計量母群體參數之間的差距。

根據前述的例子,可推導為下式,其中eq1-μ是估計誤差。

eq11

也就是說,eq12的機率是1-α

延伸閱讀

[學習筆記] 統計學:基本概念

[學習筆記] 統計學:資料搜集及取樣

[學習筆記] 統計學:取樣分佈

Managerial Statistics, Chap 10 Introduction to Estimation