Loading [MathJax]/jax/output/CommonHTML/jax.js

統計學:數值描述技巧 (Numerical Descriptive Techniques)

中心位置量數 (Measures of Central Location)


算數平均數 (Arithmetic Mean, Average, or Mean)


Population Mean

μ=Ni=1xiN

μ: 唸作 mu.

xi: 母群體的第 i 筆資料.

N: 母群體的資料個數 (population size).

Sample Mean

¯x=ni=1xin

xi: 取樣的第 i 筆資料.

n: 取樣的資料個數 (sample size).

算數平均數適用於區間資料 (interval data, quantitative data, or numerical data)。

中位數 (Median)


資料加以排序,落在中間的數值,即為中位數

若有偶數筆資料,則中位數是落在中間的 2 筆資料的平均。

中位數的意義在於有 1 半的資料 < 中位數;另 1 半的資料 > 中位數

算數平均數相比,中位數的好處是,不會受到極端值的影響。

舉例來說,有 5 名同學成績排序為: 50, 60, 70, 80, 90,則中位數為70,有 1 半的同學 < 70 分;另 1 半的同學 > 70 分。

中位數適用於區間資料、序位資料 (ordinal data)。

眾數 (Mode)


資料中出現次數最多的數值,即為眾數

眾數可能不只一個。

眾數適用於區間資料、序位資料、類別資料 (nominal data, qualitative data, or categorical data)。

幾何平均數 (Geometric Mean)


適用於找出隨著時間變化的變數成長率改變的速率

幾何平均數適用於區間資料

變異量數 (Measures of Variability)


適用於區間資料

全距 (Range)


Range = 資料中的最大值 - 資料中的最小值

優點: 簡單.

缺點: 只考慮到資料中的 2 筆數值,包含的資訊有限。

變異數 (Variance)


Population Variance

σ2=Ni=1(xiμ)2N

σ2: 唸作 sigma squared.

Sample Variance (corrected for the mean)

s2=ni=1(xi¯x)2n1

算式中,xi¯x 取平方的原因,是因為我們想觀察的是距離,需要避免正負數值互相抵銷。

變異數的單位是資料的單位的平方。舉例來說,若資料的單位是秒,變異數的單位則是秒2

變異數適用於比較相同型態變數的兩組以上的資料。

標準差 (Standard Deviation)


Population Standard Deviation

σ=σ2

Sample Standard Deviation

s=s2

標準差的單位和資料的單位相同。

根據 Chebysheff's Theorem,資料至少有比例為 11k2 的觀測落在距離算術平均數k標準差之內 (其中 k>1 ):
1. 至少有 75% 的觀測落在距離算術平均數2標準差之內。(k=2)

2. 至少有 88.9% 的觀測落在距離算術平均數3標準差之內。(k=3)
如果資料的histogram是鐘形 (bell shaped),可以使用下列經驗法則(Empirical Rule)來解讀標準差的意涵:
1. 大約 68% 的觀測落在距離算術平均數1標準差之內。

2. 大約 95% 的觀測落在距離算術平均數2標準差之內。

3. 大約 99.7% 的觀測落在距離算術平均數3標準差之內。

變易係數 (Coefficient of Variation)


Population Coefficient of Variation

CV=σμ

Sample Coefficient of Variation

cv=s¯x

相對位置量數 (Measures of Relative Standing)


適用於區間資料序位資料

百分位數 (Percentile)


第 P 百分位數 (Pth percentile): 是一個數值,其中 P% 的資料 < 該數值,而 (100-P)% 的資料 > 該數值。
第 25 百分位數 (25th percentile),又稱為第 1 四分位數 (first quartile, Q1)。

第 50 百分位數 (50th percentile) 就是中位數 (median),又稱為第 2 四分位數 (second quartile, Q2)。

第 75 百分位數 (75th percentile),又稱為第 3 四分位數 (third quartile, Q3)。

百分位數的近似位置 (Location of a Percentile)


LP=(n+1)P100

LP: the location of the Pth percentile

四分位距 (Interquartile Range)


四分位距 = Q3 - Q1

線性關係量數 (Measures of Linear Relationship)


描述2個變數之間的關聯性,適用於區間資料

共變異數 (Covariance)


Population Covariance

σxy=Ni=1(xiμx)(yiμy)N

Sample Covariance

sxy=ni=1(xi¯x)(yi¯y)n1

一般來說,當 2 個變數移動的方向相同,共變異數會是較大的正數;

當 2 個變數移動的方向相反,共變異數會是較大的負數;

當 2 個變數關聯性較低,共變異數會是較小的數值。

相關係數 (Coefficient of Correlation)


Population Coefficient of Correlation

ρ=σxyσxσy

ρ: 唸作 rho.

1ρ+1

Sample Coefficient of Correlation

r=sxysxsy

1r+1

相關係數接近 +1,表示 2 個變數之間有正向的線性關係,散佈圖(scatter diagram)呈現接近正斜率的直線;

相關係數接近 -1,表示 2 個變數之間有負向的線性關係,散佈圖(scatter diagram)呈現接近負斜率的直線;

相關係數接近 0,表示 2 個變數之間沒有線性關係。

相關性不代表有因果性 (Correlation does not imply causation)。

最小平方法 (Least Squares Method)


對於變數 X, Y,可得出一條直線,其中下列數值是最小的:

ni=1(yiˆyi)2

該直線方程式如下:

ˆy=b0+b1x

b1=sxys2x

b0=¯yb1¯x

決定係數 (Coefficient of Determination)


決定係數 R2 = 相關係數的平方

決定係數的意函是相依變數 (dependent variable) 中多少比例的變異量 (variation) 和獨立變數 (independent variable) 有關。

舉例來說,R2 = .88,表示 88% 的變異量和獨立變數有關。

延伸閱讀


[書籍] Managerial Statistics, Chap 3 Numerical Descriptive Techniques