中心位置量數 (Measures of Central Location)
算數平均數 (Arithmetic Mean, Average, or Mean)
Population Mean
μ=∑Ni=1xiN
μ: 唸作 mu.
xi: 母群體的第 i 筆資料.
N: 母群體的資料個數 (population size).
Sample Mean
¯x=∑ni=1xin
xi: 取樣的第 i 筆資料.
n: 取樣的資料個數 (sample size).
算數平均數適用於區間資料 (interval data, quantitative data, or numerical data)。
中位數 (Median)
把資料加以排序,落在中間的數值,即為中位數。
若有偶數筆資料,則中位數是落在中間的 2 筆資料的平均。
中位數的意義在於有 1 半的資料 < 中位數;另 1 半的資料 > 中位數。
和算數平均數相比,中位數的好處是,不會受到極端值的影響。
舉例來說,有 5 名同學成績排序為: 50, 60, 70, 80, 90,則中位數為70,有 1 半的同學 < 70 分;另 1 半的同學 > 70 分。
中位數適用於區間資料、序位資料 (ordinal data)。
眾數 (Mode)
資料中出現次數最多的數值,即為眾數。
眾數可能不只一個。
眾數適用於區間資料、序位資料、類別資料 (nominal data, qualitative data, or categorical data)。
幾何平均數 (Geometric Mean)
適用於找出隨著時間變化的變數的成長率或改變的速率。
幾何平均數適用於區間資料。
變異量數 (Measures of Variability)
適用於區間資料。
全距 (Range)
Range = 資料中的最大值 - 資料中的最小值
優點: 簡單.
缺點: 只考慮到資料中的 2 筆數值,包含的資訊有限。
變異數 (Variance)
Population Variance
σ2=∑Ni=1(xi−μ)2N
σ2: 唸作 sigma squared.
Sample Variance (corrected for the mean)
s2=∑ni=1(xi−¯x)2n−1
算式中,xi−¯x 取平方的原因,是因為我們想觀察的是距離,需要避免正負數值互相抵銷。
變異數的單位是資料的單位的平方。舉例來說,若資料的單位是秒,變異數的單位則是秒2。
變異數適用於比較相同型態變數的兩組以上的資料。
標準差 (Standard Deviation)
Population Standard Deviation
σ=√σ2
Sample Standard Deviation
s=√s2
標準差的單位和資料的單位相同。
根據 Chebysheff's Theorem,資料中至少有比例為 1−1k2 的觀測落在距離算術平均數的 k 個標準差之內 (其中 k>1 ):
1. 至少有 75% 的觀測落在距離算術平均數的 2 個標準差之內。(k=2)如果資料的histogram是鐘形 (bell shaped),可以使用下列經驗法則(Empirical Rule)來解讀標準差的意涵:
2. 至少有 88.9% 的觀測落在距離算術平均數的 3 個標準差之內。(k=3)
1. 大約 68% 的觀測落在距離算術平均數的 1 個標準差之內。
2. 大約 95% 的觀測落在距離算術平均數的 2 個標準差之內。
3. 大約 99.7% 的觀測落在距離算術平均數的 3 個標準差之內。
變易係數 (Coefficient of Variation)
Population Coefficient of Variation
CV=σμ
Sample Coefficient of Variation
cv=s¯x
相對位置量數 (Measures of Relative Standing)
適用於區間資料、序位資料。
百分位數 (Percentile)
第 P 百分位數 (Pth percentile): 是一個數值,其中 P% 的資料 < 該數值,而 (100-P)% 的資料 > 該數值。
第 25 百分位數 (25th percentile),又稱為第 1 四分位數 (first quartile, Q1)。
第 50 百分位數 (50th percentile) 就是中位數 (median),又稱為第 2 四分位數 (second quartile, Q2)。
第 75 百分位數 (75th percentile),又稱為第 3 四分位數 (third quartile, Q3)。
百分位數的近似位置 (Location of a Percentile)
LP=(n+1)P100
LP: the location of the Pth percentile
四分位距 (Interquartile Range)
四分位距 = Q3 - Q1
線性關係量數 (Measures of Linear Relationship)
描述2個變數之間的關聯性,適用於區間資料。
共變異數 (Covariance)
Population Covariance
σxy=∑Ni=1(xi−μx)(yi−μy)N
Sample Covariance
sxy=∑ni=1(xi−¯x)(yi−¯y)n−1
一般來說,當 2 個變數移動的方向相同,共變異數會是較大的正數;
當 2 個變數移動的方向相反,共變異數會是較大的負數;
當 2 個變數關聯性較低,共變異數會是較小的數值。
相關係數 (Coefficient of Correlation)
Population Coefficient of Correlation
ρ=σxyσxσy
ρ: 唸作 rho.
−1≤ρ≤+1
Sample Coefficient of Correlation
r=sxysxsy
−1≤r≤+1
當相關係數接近 +1,表示 2 個變數之間有正向的線性關係,散佈圖(scatter diagram)呈現接近正斜率的直線;
當相關係數接近 -1,表示 2 個變數之間有負向的線性關係,散佈圖(scatter diagram)呈現接近負斜率的直線;
當相關係數接近 0,表示 2 個變數之間沒有線性關係。
有相關性不代表有因果性 (Correlation does not imply causation)。
最小平方法 (Least Squares Method)
對於變數 X, Y,可得出一條直線,其中下列數值是最小的:
∑ni=1(yi−ˆyi)2
該直線方程式如下:
ˆy=b0+b1x
b1=sxys2x
b0=¯y−b1¯x
決定係數 (Coefficient of Determination)
決定係數 R2 = 相關係數的平方
決定係數的意函是相依變數 (dependent variable) 中多少比例的變異量 (variation) 和獨立變數 (independent variable) 有關。
舉例來說,R2 = .88,表示 88% 的變異量和獨立變數有關。
延伸閱讀
[書籍] Managerial Statistics, Chap 3 Numerical Descriptive Techniques