표본(sample)의 데이터들이 대칭적인 구조거나 outlier가 있는경우, 극단적으로 크거나 작은 값들에 영향을 받는다.
* 국회의원 재산 평균을 낼 때, 정몽준 현대중공업 회장의 재산을 제외하는 경우
이런 경우에는 평균값이 표본의 데이터를 대표한다고 보기 힘들기 때문에, 순서통계량(order statistics)을 사용하는 경우가 많다.
4분위수(Quartiles)
- minumujm
- Q1 * 25%에 위치하는 수
- Q2 * 50%에 위치하는 수 < 중위수(median) >
- Q3 * 75%에 위치하는 수
- maximum
데이터의 개수가 짝수일 경우, 중위수(median. Q2)값은 중간에 위치한 두 데이터의 평균이 된다.
표본만들기 (Random값)
- a = sample(1:100, 50, replace = T)
* 1부터 100 사이 값을 50개 만들며, 중복된 값을 허락한다.(replace = True)
함수:
quantile(sample)
fivenum(sample)
ex)
[1] 83 80 38 5 27 86 5 80 8 94 34 20 70 1 90 23 8 3 48 4 90 19 51 9 62 7 57 15 69 88 40 95 38 61 25 10
[37] 23 60 27 43 13 45 91 37 63 68 35 92 33 22
> quantile(a)
0% 25% 50% 75% 100%
1.00 19.25 38.00 68.75 95.00
> fivenum(a)
[1] 1 19 38 69 95
평균값(mean) vs 중간값(median)
> mean(a)
[1] 43.9
> median(a)
[1] 38
분산값(sd) vs IQR(Q3 - Q1)
> sd(a)
[1] 30.39284
> IQR(a)
[1] 49.5
평균은 중간값과 대응되는 통계치이며, 표준편차는 IQR값과 대응되는 통계치이다.
상자그림 [box plot, box and whisker plot ]
4분위수(Quantiles)의 값(최댓값, 최솟값, 중앙값, 사분편차)를 그림으로 나타낸 것으로, 데이터의 분포를 파악하기 좋다.
특히 outlier(이상치)들의 위치와 자료의 비대칭 여부도 쉽게 파악할 수 있다.
boxplot(a)
'
- Maximum
- Q3 (75%)
- Q2 (median)
- Q1 (25%)
- Minumum
'Programing > R- programming' 카테고리의 다른 글
R 변동계수의 정의와 의미(coefficient of variation) (0) | 2014.10.17 |
---|---|
R에서 히스토그램(Histogram), 줄기잎그림(stem) (0) | 2014.10.17 |
R graphics, plot 저장하기 (0) | 2014.08.22 |
two-way ANOVA (0) | 2014.08.21 |
범주형 자료의 통계분석 R programming (4) | 2014.08.21 |