統計學:數值描述技巧 (Numerical Descriptive Techniques)

中心位置量數 (Measures of Central Location)


算數平均數 (Arithmetic Mean, Average, or Mean)


Population Mean

\( \mu = \frac{\sum_{i=1}^N x_i}{N} \)

\( \mu \): 唸作 mu.

\( x_i \): 母群體的第 i 筆資料.

\( N \): 母群體的資料個數 (population size).

Sample Mean

\( \overline{x} = \frac{\sum_{i=1}^n x_i}{n} \)

\( x_i \): 取樣的第 i 筆資料.

\( n \): 取樣的資料個數 (sample size).

算數平均數適用於區間資料 (interval data, quantitative data, or numerical data)。

中位數 (Median)


資料加以排序,落在中間的數值,即為中位數

若有偶數筆資料,則中位數是落在中間的 2 筆資料的平均。

中位數的意義在於有 1 半的資料 \( \lt \) 中位數;另 1 半的資料 \( \gt \) 中位數

算數平均數相比,中位數的好處是,不會受到極端值的影響。

舉例來說,有 5 名同學成績排序為: 50, 60, 70, 80, 90,則中位數為70,有 1 半的同學 \( \lt \) 70 分;另 1 半的同學 \( \gt \) 70 分。

中位數適用於區間資料、序位資料 (ordinal data)。

眾數 (Mode)


資料中出現次數最多的數值,即為眾數

眾數可能不只一個。

眾數適用於區間資料、序位資料、類別資料 (nominal data, qualitative data, or categorical data)。

幾何平均數 (Geometric Mean)


適用於找出隨著時間變化的變數成長率改變的速率

幾何平均數適用於區間資料

變異量數 (Measures of Variability)


適用於區間資料

全距 (Range)


Range = 資料中的最大值 - 資料中的最小值

優點: 簡單.

缺點: 只考慮到資料中的 2 筆數值,包含的資訊有限。

變異數 (Variance)


Population Variance

\( \sigma ^2 = \frac{\sum_{i=1}^N (x_i - \mu)^2}{N} \)

\( \sigma ^2 \): 唸作 sigma squared.

Sample Variance (corrected for the mean)

\( s^2 = \frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1} \)

算式中,\( x_i - \overline{x} \) 取平方的原因,是因為我們想觀察的是距離,需要避免正負數值互相抵銷。

變異數的單位是資料的單位的平方。舉例來說,若資料的單位是秒,變異數的單位則是秒2

變異數適用於比較相同型態變數的兩組以上的資料。

標準差 (Standard Deviation)


Population Standard Deviation

\( \sigma = \sqrt{\sigma ^2} \)

Sample Standard Deviation

\( s = \sqrt{s^2} \)

標準差的單位和資料的單位相同。

根據 Chebysheff's Theorem,資料至少有比例為 \( 1 - \frac{1}{k^2} \) 的觀測落在距離算術平均數k標準差之內 (其中 \( k \gt 1 \) ):
1. 至少有 75% 的觀測落在距離算術平均數2標準差之內。(k=2)

2. 至少有 88.9% 的觀測落在距離算術平均數3標準差之內。(k=3)
如果資料的histogram是鐘形 (bell shaped),可以使用下列經驗法則(Empirical Rule)來解讀標準差的意涵:
1. 大約 68% 的觀測落在距離算術平均數1標準差之內。

2. 大約 95% 的觀測落在距離算術平均數2標準差之內。

3. 大約 99.7% 的觀測落在距離算術平均數3標準差之內。

變易係數 (Coefficient of Variation)


Population Coefficient of Variation

\( CV = \frac{\sigma}{\mu} \)

Sample Coefficient of Variation

\( cv = \frac{s}{\overline{x}} \)

相對位置量數 (Measures of Relative Standing)


適用於區間資料序位資料

百分位數 (Percentile)


第 P 百分位數 (Pth percentile): 是一個數值,其中 P% 的資料 \( \lt \) 該數值,而 (100-P)% 的資料 \( \gt \) 該數值。
第 25 百分位數 (25th percentile),又稱為第 1 四分位數 (first quartile, Q1)。

第 50 百分位數 (50th percentile) 就是中位數 (median),又稱為第 2 四分位數 (second quartile, Q2)。

第 75 百分位數 (75th percentile),又稱為第 3 四分位數 (third quartile, Q3)。

百分位數的近似位置 (Location of a Percentile)


\( L_P = (n+1) \frac{P}{100} \)

\( L_P \): the location of the Pth percentile

四分位距 (Interquartile Range)


四分位距 = Q3 - Q1

線性關係量數 (Measures of Linear Relationship)


描述2個變數之間的關聯性,適用於區間資料

共變異數 (Covariance)


Population Covariance

\( \sigma_{xy} = \frac{\sum_{i=1}^N (x_i - \mu_x)(y_i - \mu_y)}{N} \)

Sample Covariance

\( s_{xy} = \frac{\sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y})}{n-1} \)

一般來說,當 2 個變數移動的方向相同,共變異數會是較大的正數;

當 2 個變數移動的方向相反,共變異數會是較大的負數;

當 2 個變數關聯性較低,共變異數會是較小的數值。

相關係數 (Coefficient of Correlation)


Population Coefficient of Correlation

\( \rho = \frac{\sigma_{xy}}{\sigma_x \sigma_y} \)

\( \rho \): 唸作 rho.

\( -1 \leq \rho \leq +1 \)

Sample Coefficient of Correlation

\( r = \frac{s_{xy}}{s_x s_y} \)

\( -1 \leq r \leq +1 \)

相關係數接近 +1,表示 2 個變數之間有正向的線性關係,散佈圖(scatter diagram)呈現接近正斜率的直線;

相關係數接近 -1,表示 2 個變數之間有負向的線性關係,散佈圖(scatter diagram)呈現接近負斜率的直線;

相關係數接近 0,表示 2 個變數之間沒有線性關係。

相關性不代表有因果性 (Correlation does not imply causation)。

最小平方法 (Least Squares Method)


對於變數 X, Y,可得出一條直線,其中下列數值是最小的:

\( \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)

該直線方程式如下:

\( \hat{y} = b_0 + b_1 x \)

\( b_1 = \frac{s_{xy}}{s_x^2} \)

\( b_0 = \overline{y} - b_1 \overline{x} \)

決定係數 (Coefficient of Determination)


決定係數 R2 = 相關係數的平方

決定係數的意函是相依變數 (dependent variable) 中多少比例的變異量 (variation) 和獨立變數 (independent variable) 有關。

舉例來說,R2 = .88,表示 88% 的變異量和獨立變數有關。

延伸閱讀


[書籍] Managerial Statistics, Chap 3 Numerical Descriptive Techniques