[學習筆記] 統計學:數值描述技巧 Numerical Descriptive Techniques

中心位置量數 (Measures of Central Location)

算數平均數 (Arithmetic Mean, Average, or Mean)

Population Mean

2011_09_12_Numerical_Description_PopulationMean

μ: 唸作mu.
xi: 母群體的第i筆資料.
N: 母群體的資料個數 (population size).

Sample Mean

2011_09_12_Numerical_Description_SampleMean

xi: 取樣的第i筆資料.
n: 取樣的資料個數 (sample size).

算數平均數適用於區間資料

中位數 (Median)

資料加以排序,落在中間的數值,即為中位數

若有偶數筆資料,則中位數是落在中間的2筆資料的平均。

中位數的意義在於有1半的資料<中位數;另1半的資料>中位數

算數平均數相比,中位數的好處是,不會受到極端值的影響。

舉例來說,有5名同學成績排序為: 50, 60, 70, 80, 90,則中位數為70。有1半的同學<70分;另1半的同學>70分。

中位數適用於區間資料、序位資料

眾數 (Mode)

資料中出現次數最多的數值,即為眾數

眾數可能不只一個。

眾數適用於區間資料、序位資料、類別資料

幾何平均數 (Geometric Mean)

適用於找出隨著時間變化的變數成長率改變的速率

幾何平均數適用於區間資料

變異量數 (Measures of Variability)

適用於區間資料

全距 (Range)

Range = 資料中的最大值 - 資料中的最小值

優點: 簡單.

缺點: 只考慮到資料中的2筆數值,包含的資訊有限。

變異數 (Variance)

Population Variance

2011_09_12_Numerical_Description_PopulationVariance

σ2: 唸作sigma squared.

Sample Variance (corrected for the mean)

2011_09_12_Numerical_Description_SampleVariance

算式中,xi-μ取平方的原因,是因為我們想觀察的是距離,需要避免正負數值互相抵銷。

變異數的單位是資料的單位的平方。舉例來說,若資料的單位是秒,變異數的單位則是秒2

變異數適用於比較相同型態變數的兩組以上的資料。

標準差 (Standard Deviation)

Population Standard Deviation

2011_09_12_Numerical_Description_PopulationStandardDeviation

Sample Standard Deviation

2011_09_12_Numerical_Description_SampleStandardDeviation

標準差的單位和資料的單位相同。

根據 Chebysheff's Theorem,資料至少有比例為 1 - (1/k2) 的觀測落在距離算術平均數k標準差之內 (其中k>1):

1. 至少有75%的觀測落在距離算術平均數2標準差之內。(k=2)

2. 至少有88.9%的觀測落在距離算術平均數3標準差之內。(k=3)

如果資料的histogram是鐘形 (bell shaped),可以使用下列經驗法則(Empirical Rule)來解讀標準差的意涵:

1. 大約68%的觀測落在距離算術平均數1標準差之內。

2. 大約95%的觀測落在距離算術平均數2標準差之內。

3. 大約99.7%的觀測落在距離算術平均數3標準差之內。

變易係數 (Coefficient of Variation)

Population Coefficient of Variation

2011_09_12_Numerical_Description_PopulationCoefficientofVariation

Sample Coefficient of Variation

2011_09_12_Numerical_Description_SampleCoefficientofVariation

相對位置量數 (Measures of Relative Standing)

適用於區間資料序位資料

百分位數 (Percentile)

第P百分位數(Pth percentile): 是一個數值,其中P%的資料<該數值,而(100-P)%的資料>該數值。

第25百分位數,又稱為第1四分位數(first quartile, Q1)。

第50百分位數(50th percentile)就是中位數(median),又稱為第2四分位數(second quartile, Q2)。

第75百分位數,又稱為第3四分位數(third quartile, Q3)。

百分位數的近似位置(Location of a Percentile)

2011_09_12_Numerical_Description_LocationPercentile

LP: the location of the Pth percentile

四分位距 (Interquartile Range)

四分位距 = Q3 - Q1

線性關係量數 (Measures of Linear Relationship)

描述2個變數之間的關聯性,適用於區間資料

共變異數 (Covariance)

Population Covariance

2011_09_12_Numerical_Description_PopulationCovariance

Sample Covariance

2011_09_12_Numerical_Description_SampleCovariance

一般來說,當2個變數移動的方向相同,共變異數會是較大的正數;
當2個變數移動的方向相反,共變異數會是較大的負數;
當2個變數關聯性較低,共變異數會是較小的數值。

相關係數 (Coefficient of Correlation)

Population Coefficient of Correlation

2011_09_12_Numerical_Description_PopulationCoeffCorrelation

ρ: 唸作rho.
-1 <= ρ <= +1

Sample Coefficient of Correlation

2011_09_12_Numerical_Description_SampleCoeffCorrelation

-1 <= r <= +1

相關係數接近+1,表示2個變數之間有正向的線性關係,散佈圖(scatter diagram)呈現接近正斜率的直線;
相關係數接近-1,表示2個變數之間有負向的線性關係,散佈圖(scatter diagram)呈現接近負斜率的直線;
相關係數接近0,表示2個變數之間沒有線性關係。

相關性不代表有因果性(Correlation does not imply causation)。

最小平方法 (Least Squares Method)

對於變數X, Y,可得出一條直線,其中下列數值是最小的:

2011_09_12_Numerical_Description_LeastSquaresMethod

該直線方程式如下:

2011_09_12_Numerical_Description_LeastSquaresLine

決定係數 (Coefficient of Determination)

決定係數 R2 = 相關係數的平方

決定係數的意函是相依變數(dependent variable)中多少比例的變異量(variation)和獨立變數(independent variable)有關。

舉例來說,R2=.88,表示88%的變異量和獨立變數有關。

延伸閱讀

[學習筆記] 統計學:基本概念

[學習筆記] 統計學:圖表描述技巧 Graphic and Tabular Descriptive Techniques

Managerial Statistics, Chap 3 Numerical Descriptive Techniques