中心位置量數 (Measures of Central Location)
算數平均數 (Arithmetic Mean, Average, or Mean)
Population Mean
μ: 唸作mu.
xi: 母群體的第i筆資料.
N: 母群體的資料個數 (population size).
Sample Mean
xi: 取樣的第i筆資料.
n: 取樣的資料個數 (sample size).
算數平均數適用於區間資料。
中位數 (Median)
把資料加以排序,落在中間的數值,即為中位數。
若有偶數筆資料,則中位數是落在中間的2筆資料的平均。
中位數的意義在於有1半的資料<中位數;另1半的資料>中位數。
和算數平均數相比,中位數的好處是,不會受到極端值的影響。
舉例來說,有5名同學成績排序為: 50, 60, 70, 80, 90,則中位數為70。有1半的同學<70分;另1半的同學>70分。
中位數適用於區間資料、序位資料。
眾數 (Mode)
資料中出現次數最多的數值,即為眾數。
眾數可能不只一個。
眾數適用於區間資料、序位資料、類別資料。
幾何平均數 (Geometric Mean)
適用於找出隨著時間變化的變數的成長率或改變的速率。
幾何平均數適用於區間資料。
變異量數 (Measures of Variability)
適用於區間資料。
全距 (Range)
Range = 資料中的最大值 - 資料中的最小值
優點: 簡單.
缺點: 只考慮到資料中的2筆數值,包含的資訊有限。
變異數 (Variance)
Population Variance
σ2: 唸作sigma squared.
Sample Variance (corrected for the mean)
算式中,xi-μ取平方的原因,是因為我們想觀察的是距離,需要避免正負數值互相抵銷。
變異數的單位是資料的單位的平方。舉例來說,若資料的單位是秒,變異數的單位則是秒2。
變異數適用於比較相同型態變數的兩組以上的資料。
標準差 (Standard Deviation)
Population Standard Deviation
Sample Standard Deviation
標準差的單位和資料的單位相同。
根據 Chebysheff's Theorem,資料中至少有比例為 1 - (1/k2) 的觀測落在距離算術平均數的k個標準差之內 (其中k>1):
1. 至少有75%的觀測落在距離算術平均數的2個標準差之內。(k=2)
2. 至少有88.9%的觀測落在距離算術平均數的3個標準差之內。(k=3)
如果資料的histogram是鐘形 (bell shaped),可以使用下列經驗法則(Empirical Rule)來解讀標準差的意涵:
1. 大約68%的觀測落在距離算術平均數的1個標準差之內。
2. 大約95%的觀測落在距離算術平均數的2個標準差之內。
3. 大約99.7%的觀測落在距離算術平均數的3個標準差之內。
變易係數 (Coefficient of Variation)
Population Coefficient of Variation
Sample Coefficient of Variation
相對位置量數 (Measures of Relative Standing)
適用於區間資料、序位資料。
百分位數 (Percentile)
第P百分位數(Pth percentile): 是一個數值,其中P%的資料<該數值,而(100-P)%的資料>該數值。
第25百分位數,又稱為第1四分位數(first quartile, Q1)。
第50百分位數(50th percentile)就是中位數(median),又稱為第2四分位數(second quartile, Q2)。
第75百分位數,又稱為第3四分位數(third quartile, Q3)。
百分位數的近似位置(Location of a Percentile)
LP: the location of the Pth percentile
四分位距 (Interquartile Range)
四分位距 = Q3 - Q1
線性關係量數 (Measures of Linear Relationship)
描述2個變數之間的關聯性,適用於區間資料。
共變異數 (Covariance)
Population Covariance
Sample Covariance
一般來說,當2個變數移動的方向相同,共變異數會是較大的正數;
當2個變數移動的方向相反,共變異數會是較大的負數;
當2個變數關聯性較低,共變異數會是較小的數值。
相關係數 (Coefficient of Correlation)
Population Coefficient of Correlation
ρ: 唸作rho.
-1 <= ρ <= +1
Sample Coefficient of Correlation
-1 <= r <= +1
當相關係數接近+1,表示2個變數之間有正向的線性關係,散佈圖(scatter
diagram)呈現接近正斜率的直線;
當相關係數接近-1,表示2個變數之間有負向的線性關係,散佈圖(scatter
diagram)呈現接近負斜率的直線;
當相關係數接近0,表示2個變數之間沒有線性關係。
有相關性不代表有因果性(Correlation does not imply causation)。
最小平方法 (Least Squares Method)
對於變數X, Y,可得出一條直線,其中下列數值是最小的:
該直線方程式如下:
決定係數 (Coefficient of Determination)
決定係數 R2 = 相關係數的平方
決定係數的意函是相依變數(dependent variable)中多少比例的變異量(variation)和獨立變數(independent variable)有關。
舉例來說,R2=.88,表示88%的變異量和獨立變數有關。
延伸閱讀
[學習筆記] 統計學:基本概念
[學習筆記] 統計學:圖表描述技巧 Graphic and Tabular Descriptive Techniques
Managerial Statistics, Chap 3 Numerical Descriptive Techniques















0 意見:
張貼意見