일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- selenium
- Tableau
- konlpy
- 데이터분석
- Python
- 시각화
- pyspark
- 크롤링
- 데이터
- numpy
- input
- iNT
- ionehotencoding
- 인공지능
- 형태소분석기
- pandas
- Word Cloud
- 데이터 분석
- 태블로
- 파이썬
- scikit-learn
- SQL
- Udemy
- 머신러닝
- Okt
- Today
- Total
반전공자
R # 데이터분석 실습 본문
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.)
교재 123p에 있는 분석 실습 문제를 혼자 풀어보도록 하겠다!
데이터를 불러오고 분석에 용이하도록 정보를 추가한 다음에 분석을 진행해보려 한다!
# 실습
1. ggplot2 패키지 안에 있는 midwest 데이터 불러오기
먼저 데이터가 어떻게 생겼고 어떤 정보가 들어있는지 보기 위해 head()를 이용해 6번째 줄을 뽑아보았다.
< 불러오기 >
mid <- as.data.frame(midwest)
이름을 mid로 정했다!
데이터를 데이터프레임형식으로 불러와야하고, 복사본을 만들어야 하기 때문에 as.data.frame()으로 불러와야 해!!
< 라이브러리 불러오기 >
다음 단계인 " 변수명 변경 " 역할인 rename() 함수를 쓰기 위해서는 dplyr 패키지를 다운로드 받아야 한다.
library(dplyr)
그 다음 단계에서 그래프를 그려야하기 때문에 ggplot2도 불러온다.
library(ggplot2)
2. 변수명 수정하기
전체 인구(poptotal), 아시아 인구(popasian) 변수명을 total, asian으로 바꾸겠다.
mid <- rename(mid, total=poptotal)
mid <- rename(mid, asian=popasian)
맨 좌측, 맨 우측에 total, asian으로 바뀐 것을 볼 수 있다.
3. 파생변수 만들기, 히스토그램 만들기
전체 인구 대비 아시아 인구의 백분율을 파생변수로 추가하려 한다.
mid$per <- (mid$asian / mid$total)*100
백분율로 계산했한 결과의 값들이 per이라는 변수명으로 생겼다!
근데 난,, 다 0인게 쪼금,, 불편해서,, 정수가 보였음 해서 곱하기 1000을 해줘보았다!
확실히 숫자가 큰게 보인다!
이 숫자들을 가지고 히스토그램을 만들어볼까?
< 분석 >
- 0~0.5 사이가 가장 많이 분포되어있는 구간.
- 아시아인들이 많이 모여있는 도시는 몇 개 되지 않는다.
- 각 도시인구에서 아시아인이 차지하는 비율이 0~0.5% 정도인 도시가 300개 이상이 존재한다.
Q. 그렇다면 아시아인들이 모여 사는 도시는 몇 개 정도가 있을까?
-> 백분율이 30 이상인 도시들이 몇개인지 뽑아보겠다.
->
mid$jud <- ifelse(mid$per2>=30, "concen", "dis")
concen = 30 이상인 도시 / dis = 30 이하인 도시
딱 몇 개인지 숫자로 바로 보여줘!!
table()
내가 많이 사는 도시를 걸러내기 위해 정한 기준인 (뭐,,라 해야하지 천분율,,? 곱하기 1000한 값) 30 이상을 충족하는 도시는 6개이다~!
도시 전체 인구 대비 아시아인이 몇명 살지 않는 도시(30 이하)는 총 431개이다.
4. 아시아인구 백분율 전체 평균, 파생변수 만들기
백분율 전체 평균
mean(mid$per)
결과는 약 0.48이다.
평균을 기준으로 크면 large, 작으면 small로 파생변수를 만들어보자!
m <- mean(mid$per)
mid$meanjub <- ifelse(mid$per>m, "large", "small")
과연 결과가 어떻게 나왔는지 table을 통해 볼까?
평균보다 많이 밀집해있는 도시는 총 119개, 평균보다 적은 도시는 318개이다.
5. 그래프 그리기
그래프로 한눈에 보자!
값이 문자인 값은 qplot으로 보아야하기 때문에 qplot()을 사용한다!
qplot(mid$meanjud)
-> small과 large 개수의 차이가 확연히 보인다.
< 후기 >
지금까지 데이터 분석 일련의 과정을 교재 도움 없이 스스로 해보는 시간을 가져봤다!
이전에는 이론을 배우는 과정이라 배웠던 다른 것들은 까먹기도 했는데 이렇게 실습하는 시간을 가지니 배웠던 모든 것들이 어떤 단계에서 필요하고 어떤 역할을 하며 내가 어떻게 생각하고 이 단계 다음에 어떤 정보를 뽑아내야하는가에 대한 사고력을 훈련하는 데 도움이 되었다!!
'데이터분석 > R' 카테고리의 다른 글
R # 분석과정 다시해보기 (0) | 2021.01.25 |
---|---|
R # 데이터 가공, 실습 (0) | 2021.01.23 |
R # 파생변수 (0) | 2021.01.22 |
R # 변수명 바꾸기 (0) | 2021.01.21 |
R #데이터 파악하기 (0) | 2021.01.20 |