[R] 사분위수와 범위
사분위수의 정의
사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값이다. 사분위수를 사용하여 데이터 집합의 범위와 중심 위치를 신속하게 평가할 수 있다.
사분위수 | 설명 |
---|---|
제1 사분위수(Q1) | 데이터의 25%가 이 값보다 작거나 같음. |
제 2 사분위수(Q2) | 중위수 데이터의 50%가 이 값보다 작거나 같음. |
제3 사분위수(Q3) | 데이터의 75%가 이 값보다 작거나 같음. |
사분위간 범위 | 제1 사분위수와 제3 사분위수 간의 거리(Q3-Q1)이므로, 데이터의 중간 50%에 대한 범위 |
예를 들어, 데이터가 7, 9, 16, 36, 39, 45, 45, 46, 48, 51인 경우
- Q1 = 14.25
- Q2(중위수) = 42
- Q3 = 46.50
- 사분위간 범위 = 14.25 ~ 46.50 또는 32.25
참고
사분위수는 데이터의 관측치가 아닌 계산된 값이다. 사분위수를 정확하게 계산하려면 종종 두 관측치 사이를 봐야한다.
중위수와 사분위간 범위는 극단 관측치의 영향을 받지 않기 때문에 평균 및 표준 편차보다 치우침이 많은 데이터의 중심 위치와 범위의 더 나은 측도가 될 수 있다.
사분위수범위(Interquartile Range, IQR)
- 제3사분위수에서 제1사분위수를 뺀 값이다.
- 상자 아래와 위로 IQR의 배 안에 있는 데이터의 최솟값과 최댓값까지 수염(whisker)을 그린다.
- IQR의 1.5배를 벗어난 데이터는 이상점(outlier)이라고 한다.
Leave a comment