Programing/R- programming

R에서 사분위수와 box plot

sosal 2014. 10. 17. 14:27
반응형


/*

 http://sosal.kr/
 * made by so_Sal
 */


표본(sample)의 데이터들이 대칭적인 구조거나 outlier가 있는경우, 극단적으로 크거나 작은 값들에 영향을 받는다.

* 국회의원 재산 평균을 낼 때, 정몽준 현대중공업 회장의 재산을 제외하는 경우


이런 경우에는 평균값이 표본의 데이터를 대표한다고 보기 힘들기 때문에, 순서통계량(order statistics)을 사용하는 경우가 많다.


4분위수(Quartiles)

 - minumujm

 - Q1 * 25%에 위치하는 수

 - Q2 * 50%에 위치하는 수 < 중위수(median) >

 - Q3 * 75%에 위치하는 수

 - maximum


데이터의 개수가 짝수일 경우, 중위수(median. Q2)값은 중간에 위치한 두 데이터의 평균이 된다.



표본만들기 (Random값)

 - a = sample(1:100, 50, replace = T)

    * 1부터 100 사이 값을 50개 만들며, 중복된 값을 허락한다.(replace = True)



함수: 

quantile(sample)

fivenum(sample)


ex) 

 [1] 83 80 38  5 27 86  5 80  8 94 34 20 70  1 90 23  8  3 48  4 90 19 51  9 62  7 57 15 69 88 40 95 38 61 25 10

[37] 23 60 27 43 13 45 91 37 63 68 35 92 33 22


> quantile(a)

   0%   25%   50%   75%  100% 

 1.00 19.25 38.00 68.75 95.00 

> fivenum(a)

[1]  1 19 38 69 95



평균값(mean) vs 중간값(median)

> mean(a)

[1] 43.9

> median(a)

[1] 38


분산값(sd) vs IQR(Q3 - Q1)

> sd(a)

[1] 30.39284

> IQR(a)

[1] 49.5


평균은 중간값과 대응되는 통계치이며, 표준편차는 IQR값과 대응되는 통계치이다.



 

상자그림 [box plot, box and whisker plot ]

4분위수(Quantiles)의 값(최댓값, 최솟값, 중앙값, 사분편차)를 그림으로 나타낸 것으로, 데이터의 분포를 파악하기 좋다.

특히 outlier(이상치)들의 위치와 자료의 비대칭 여부도 쉽게 파악할 수 있다.


boxplot(a)

'



- Maximum


- Q3 (75%)



- Q2 (median)


- Q1 (25%)


- Minumum