資料搜集的方式 Methods of Collecting Data
直接觀測 Direct Observation
可能只能找到相關性,而非因果關係。
實驗 Experiments
設計周延的實驗,會比直接觀測,更能真正找到因果關係。
調查 Surveys
回應率若太低,統計分析結果的可信度會大打折扣。
面談 Personal Interview回應率 (response rate)較高,但成本較高。電話訪談 Telephone Interview
回應率較低,但成本較低。問卷調查 Self-Administered Survey
回應率最低,且因為可能誤解問題使得錯誤的回應比例較高。
取樣 Sampling
目標母群體 (target population): 想要進行推論的母群體(population)。
舉例來說,電台的聽眾。樣本 (sampled population): 母群體中實際被取樣的集合。
舉例來說,參與call-in民調的電台聽眾。自我選擇取樣 (self-selected sampling)
舉例來說,參與call-in民調的電台聽眾,因為對於該議題感興趣而參與調查,這是聽眾的自我選擇。
這種取樣方式幾乎總是有偏差的。
取樣計劃 Sampling Plans
簡易隨機取樣 Simple Random Sampling
每個樣本被選取的機率是相同的。
分層隨機取樣 Stratified Random Sampling
先對母群體加以分層,然後對於每一層 (stratum) 進行簡易隨機取樣。
分層方式,舉例來說,對於人口資料,以性別區分、以年齡區分、以職業區分、以收入區分。
好處是可以獲得比較多的資訊。舉例來說,不同收入層級的人對於增稅的想法,因為增稅對於不同收入層級的人有不同的影響。
群集取樣 Cluster Sampling
對於群集進行簡易隨機取樣。
舉例來說,要得知台北市的平均家庭年收入,可以將每一區(如中山區)視為一群集,然後對每一群集,進行簡易隨機取樣。
成本較低,但誤差較大。
取樣誤差 Sampling Errors
統計量和參數之間的差距。
降低取樣誤差唯一的方式是增加樣本數(sample size)。
非取樣誤差 Nonsampling Errors
資料取得誤差 (errors in data acquisition)
取得錯誤的資料、取得資料的過程中出錯。
無回應誤差 (nonresponse error)
因為取樣的對象沒有回應,導致的偏誤。
選擇偏差 (selection bias)
取樣計劃中,某些成員並沒有被包含進去。
舉例來說,在電台節目中使用call-in進行取樣,沒有電話的人,或沒有收聽廣播的人,並沒有被包含進來。
延伸閱讀
[書籍] Managerial Statistics, Chap 5 Data Collection and Sampling, 作者: Gerald Keller
系列文章
[學習筆記] 統計學:基本概念
[學習筆記] 統計學:圖表描述技巧 (Graphic and Tabular Descriptive Techniques)
[學習筆記] 統計學:數值描述技巧 (Numerical Descriptive Techniques)
[學習筆記] 統計學:資料搜集及取樣 (Sampling)
[學習筆記] 統計學:機率 (Probability)
[學習筆記] 統計學:隨機變數及離散型機率分佈 (Random Variables and Discrete Probability Distributions)
[學習筆記] 統計學:連續型機率分佈 (Continuous Probability Distributions)
[學習筆記] 統計學:取樣分佈 (Sampling Distributions)
[學習筆記] 統計學:估計 (Estimation)
[學習筆記] 統計學:假設檢定 (Hypothesis Testing)