반전공자

R # 선 그래프 ( 상자 그림 ) 본문

데이터분석/R

R # 선 그래프 ( 상자 그림 )

하연01 2021. 2. 25. 23:34

" 쉽게 배우는 R 데이터 분석 " 을 교재로 하는 글입니다. 

 

 

이전에 데이터 정제 파트에서 이상치를 구분할 때 상자 그림을 통해 극단치를 판단할 수 있는 기준을 만들었다. 

그때 잠깐 상자 그림을 그리는 방법을 살펴봤는데 이번에 자세하게 배워보도록 하겠다. 

 

 

# 상자그림 

 

" 데이터 특성 자세히 이해 가능 " 

 

mpg 데이터를 통해 상자 그림을 그려보자. 

ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()

 

구동방식 별 고속도로 연비를 상자 그림으로 살펴본다. 

 

4륜구동 - 상자 내 굵은 선 (중앙값) 이 상자 아랫쪽에 위치한 것을 보아 연비 값들이 낮게 치우쳐있다는 의미이다. 

f (전륜구동) - 상자의 크기가 작은 것을 보아 값들이 좁은 범위 내에 분포하고 있고, 상자 밖의 점 (극단치) 이 많은 것을 보아 연비가 아주 높거나, 낮은 차량이 존재하는 듯 하다. 

r (후륜구동) - 박스 크기가 크고, 상자 밖 점 (극단치) 이 없는 것을 보아 비교적 균일하게 분포되어 있음을 알 수 있다. 

 

 

 

지난 번에 상자그림을 보는 방법도 잠깐 이야기 했었지만, 다시한번 정리해보도록 하겠다 !

 

 

# 상자그림의 값 

 

상자 아래 세로선 : 하위 0~25%

상자 밑면 : 1사분위수 / 하위 25%

상자 내 굵은 선 : 2사분위수 / 하위 50% (중앙값)

상자 윗면 : 3사분위수 / 하위 75% 

상자 위 세로선 : 4사분위수 / 하위 75~100%

상자 밖 점 : 극단치 

 

 

 

 

 

# 혼자서 해보기 / 복습 하기 

 

mpg 데이터 사용 

 

1. 자동차 종류가 compact, subcompact, suv 인 자동차의 도시연비가 어떻게 다른지 비교해보자. 세 차종의 도시연비를 나타낸 상자그림?

 

mpg <- as.data.frame(ggplot2::mpg)

class_mpg <- mpg %>%
   filter(class %in% c("compact", "subcompact", "suv")) 
  
ggplot(data = class_mpg, aes(x=class, y=cty)) + geom_boxplot()
   

 

 

지금까지 데이터 분석 프로젝트에 필요한 것들에 대해서는 모두 배웠고, 

다음 포스팅부터는 데이터 분석 프로젝트를 해보도록 하겠다. 

 

이번 2021-1학기에는 아마도 크롤링을 배울 듯 하여 데이터 분석 프로젝트를 더욱 수월하게 할 수 있을 것이다.

 

'데이터분석 > R' 카테고리의 다른 글

R 통계분석 (2주차)  (0) 2021.03.10
R 통계분석 (1주차)  (0) 2021.03.04
R # 그래프 그리기 ( 선그래프 )  (0) 2021.02.25
R # 그래프 그리기 (막대 그래프)  (0) 2021.02.24
R # 그래프 그리기 (산점도)  (0) 2021.02.24