[學習筆記] 統計學:資料搜集及取樣 (Sampling)

資料搜集的方式 Methods of Collecting Data


直接觀測 Direct Observation


可能只能找到相關性,而非因果關係

實驗 Experiments


設計周延的實驗,會比直接觀測,更能真正找到因果關係

調查 Surveys


回應率若太低,統計分析結果的可信度會大打折扣。
面談 Personal Interview

回應率 (response rate)較高,但成本較高。
電話訪談 Telephone Interview
回應率較低,但成本較低。
問卷調查 Self-Administered Survey
回應率最低,且因為可能誤解問題使得錯誤的回應比例較高。

取樣 Sampling


目標母群體 (target population): 想要進行推論的母群體(population)。
舉例來說,電台的聽眾。
樣本 (sampled population): 母群體中實際被取樣的集合。
舉例來說,參與call-in民調的電台聽眾。
自我選擇取樣 (self-selected sampling)
舉例來說,參與call-in民調的電台聽眾,因為對於該議題感興趣而參與調查,這是聽眾的自我選擇。

這種取樣方式幾乎總是有偏差的。

取樣計劃 Sampling Plans


簡易隨機取樣 Simple Random Sampling


每個樣本被選取的機率是相同的。

分層隨機取樣 Stratified Random Sampling


先對母群體加以分層,然後對於每一層 (stratum) 進行簡易隨機取樣

分層方式,舉例來說,對於人口資料,以性別區分、以年齡區分、以職業區分、以收入區分。

好處是可以獲得比較多的資訊。舉例來說,不同收入層級的人對於增稅的想法,因為增稅對於不同收入層級的人有不同的影響。

群集取樣 Cluster Sampling


對於群集進行簡易隨機取樣

舉例來說,要得知台北市的平均家庭年收入,可以將每一區(如中山區)視為一群集,然後對每一群集,進行簡易隨機取樣

成本較低,但誤差較大。

取樣誤差 Sampling Errors


統計量參數之間的差距。

降低取樣誤差唯一的方式是增加樣本數(sample size)。

非取樣誤差 Nonsampling Errors


資料取得誤差 (errors in data acquisition)


取得錯誤的資料、取得資料的過程中出錯。

無回應誤差 (nonresponse error)


因為取樣的對象沒有回應,導致的偏誤。

選擇偏差 (selection bias)


取樣計劃中,某些成員並沒有被包含進去。

舉例來說,在電台節目中使用call-in進行取樣,沒有電話的人,或沒有收聽廣播的人,並沒有被包含進來。

延伸閱讀


[書籍] Managerial Statistics, Chap 5 Data Collection and Sampling, 作者: Gerald Keller

系列文章


[學習筆記] 統計學:基本概念

[學習筆記] 統計學:圖表描述技巧 (Graphic and Tabular Descriptive Techniques)

[學習筆記] 統計學:數值描述技巧 (Numerical Descriptive Techniques)

[學習筆記] 統計學:資料搜集及取樣 (Sampling)

[學習筆記] 統計學:機率 (Probability)

[學習筆記] 統計學:隨機變數及離散型機率分佈 (Random Variables and Discrete Probability Distributions)

[學習筆記] 統計學:連續型機率分佈 (Continuous Probability Distributions)

[學習筆記] 統計學:取樣分佈 (Sampling Distributions)

[學習筆記] 統計學:估計 (Estimation)

[學習筆記] 統計學:假設檢定 (Hypothesis Testing)