[學習筆記] 統計學:資料搜集及取樣 Sampling

資料搜集的方式 Methods of Collecting Data

直接觀測 Direct Observation

可能只能找到相關性,而非因果關係

實驗 Experiments

設計周延的實驗,會比直接觀測,更能真正找到因果關係

調查 Surveys

回應率若太低,統計分析結果的可信度會大打折扣。

面談 Personal Interview

回應率 (response rate)較高,但成本較高。

電話訪談 Telephone Interview

回應率較低,但成本較低。

問卷調查 Self-Administered Survey

回應率最低,且因為可能誤解問題使得錯誤的回應比例較高。

取樣 Sampling

目標母群體 (target population): 想要進行推論的母群體(population)。

舉例來說,電台的聽眾。

樣本 (sampled population): 母群體中實際被取樣的集合。

舉例來說,參與call-in民調的電台聽眾。

自我選擇取樣 (self-selected sampling)

舉例來說,參與call-in民調的電台聽眾,因為對於該議題感興趣而參與調查,這是聽眾的自我選擇。

這種取樣方式幾乎總是有偏差的。

取樣計劃 Sampling Plans

簡易隨機取樣 Simple Random Sampling

每個樣本被選取的機率是相同的。

分層隨機取樣 Stratified Random Sampling

先對母群體加以分層,然後對於每一層 (stratum) 進行簡易隨機取樣

分層方式,舉例來說,對於人口資料,以性別區分、以年齡區分、以職業區分、以收入區分。

好處是可以獲得比較多的資訊。舉例來說,不同收入層級的人對於增稅的想法,因為增稅對於不同收入層級的人有不同的影響。

群集取樣 Cluster Sampling

對於群集進行簡易隨機取樣

舉例來說,要得知台北市的平均家庭年收入,可以將每一區(如中山區)視為一群集,然後對每一群集,進行簡易隨機取樣

成本較低,但誤差較大。

取樣誤差 Sampling Errors

統計量參數之間的差距。

降低取樣誤差唯一的方式是增加樣本數(sample size)。

非取樣誤差 Nonsampling Errors

資料取得誤差 (errors in data acquisition)

取得錯誤的資料、取得資料的過程中出錯。

無回應誤差 (nonresponse error)

因為取樣的對象沒有回應,導致的偏誤。

選擇偏差 (selection bias)

取樣計劃中,某些成員並沒有被包含進去。

舉例來說,在電台節目中使用call-in進行取樣,沒有電話的人,或沒有收聽廣播的人,並沒有被包含進來。

延伸閱讀

[學習筆記] 統計學:基本概念

Managerial Statistics, Chap 5 Data Collection and Sampling