일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- Tableau
- 인공지능
- Okt
- ionehotencoding
- SQL
- konlpy
- 파이썬
- iNT
- pyspark
- 데이터
- 데이터 분석
- selenium
- Udemy
- input
- 머신러닝
- scikit-learn
- 데이터분석
- 형태소분석기
- 크롤링
- 시각화
- numpy
- 태블로
- Python
- Word Cloud
- Today
- Total
반전공자
R # 선 그래프 ( 상자 그림 ) 본문
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하는 글입니다.
이전에 데이터 정제 파트에서 이상치를 구분할 때 상자 그림을 통해 극단치를 판단할 수 있는 기준을 만들었다.
그때 잠깐 상자 그림을 그리는 방법을 살펴봤는데 이번에 자세하게 배워보도록 하겠다.
# 상자그림
" 데이터 특성 자세히 이해 가능 "
mpg 데이터를 통해 상자 그림을 그려보자.
ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()
구동방식 별 고속도로 연비를 상자 그림으로 살펴본다.
4륜구동 - 상자 내 굵은 선 (중앙값) 이 상자 아랫쪽에 위치한 것을 보아 연비 값들이 낮게 치우쳐있다는 의미이다.
f (전륜구동) - 상자의 크기가 작은 것을 보아 값들이 좁은 범위 내에 분포하고 있고, 상자 밖의 점 (극단치) 이 많은 것을 보아 연비가 아주 높거나, 낮은 차량이 존재하는 듯 하다.
r (후륜구동) - 박스 크기가 크고, 상자 밖 점 (극단치) 이 없는 것을 보아 비교적 균일하게 분포되어 있음을 알 수 있다.
지난 번에 상자그림을 보는 방법도 잠깐 이야기 했었지만, 다시한번 정리해보도록 하겠다 !
# 상자그림의 값
상자 아래 세로선 : 하위 0~25%
상자 밑면 : 1사분위수 / 하위 25%
상자 내 굵은 선 : 2사분위수 / 하위 50% (중앙값)
상자 윗면 : 3사분위수 / 하위 75%
상자 위 세로선 : 4사분위수 / 하위 75~100%
상자 밖 점 : 극단치
# 혼자서 해보기 / 복습 하기
mpg 데이터 사용
1. 자동차 종류가 compact, subcompact, suv 인 자동차의 도시연비가 어떻게 다른지 비교해보자. 세 차종의 도시연비를 나타낸 상자그림?
mpg <- as.data.frame(ggplot2::mpg)
class_mpg <- mpg %>%
filter(class %in% c("compact", "subcompact", "suv"))
ggplot(data = class_mpg, aes(x=class, y=cty)) + geom_boxplot()
지금까지 데이터 분석 프로젝트에 필요한 것들에 대해서는 모두 배웠고,
다음 포스팅부터는 데이터 분석 프로젝트를 해보도록 하겠다.
이번 2021-1학기에는 아마도 크롤링을 배울 듯 하여 데이터 분석 프로젝트를 더욱 수월하게 할 수 있을 것이다.
'데이터분석 > R' 카테고리의 다른 글
R 통계분석 (2주차) (0) | 2021.03.10 |
---|---|
R 통계분석 (1주차) (0) | 2021.03.04 |
R # 그래프 그리기 ( 선그래프 ) (0) | 2021.02.25 |
R # 그래프 그리기 (막대 그래프) (0) | 2021.02.24 |
R # 그래프 그리기 (산점도) (0) | 2021.02.24 |