일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- pyspark
- 형태소분석기
- 데이터분석
- 시각화
- 머신러닝
- scikit-learn
- ionehotencoding
- Python
- 파이썬
- 인공지능
- Okt
- pandas
- Word Cloud
- 크롤링
- input
- 데이터
- Udemy
- 태블로
- SQL
- iNT
- selenium
- 데이터 분석
- konlpy
- numpy
- Tableau
- Today
- Total
반전공자
# 데이터 분석 - 성별에 따른 월급 차이 분석 본문
library(dplyr)
library(ggplot2)
welfare <- read.csv("welfare.csv")
필요한 패키지 로드하기
- dplyr ( 데이터 전처리)
- ggplot2 (데이터 시각화)
welfare.csv 데이터 welfare 변수에 넣기
# 1-1. 성별 데이터를 1:male, 2:female로 변경하기
welfare$gender[welfare$gender==1]<-"male"
welfare$gender[welfare$gender==2]<-"female"
gender 값에 1 과 2로 이루어져있는 값을 각각 male, female로 변경하기
# 1-2. income의 정상범위가 아닌 값들을 NA로 처리하기
welfare$income = ifelse(welfare$income==0 | welfare$income==9999,
NA, welfare$income)
welfare의 income이 0, 9999라면 NA , 이 외의 값이라면 원래의 값을 유지하기
# 1-3. 성별에 따른 income의 평균값을 계산하기
gender_income<-welfare %>% filter(!is.na(income)) %>% group_by(gender) %>%
summarise(mean_income = mean(income))
gender income 이라는 변수에
welfare 중 income의 NA 값을 제외한 후 성별로 그룹핑하고 income의 평균을 넣기
# 1-4. 남녀 평균 임금을 그래프로 그리기.
ggplot(data = gender_income, aes(x=gender, y=mean_income))+geom_bar(stat = "identity")
위에서 만든 gender_income 데이터 중 x 축에 성별, y축에 수입 평균을 넣고 막대그래프를 그린다.
▶ 남성이 여성보다 평균적으로 임금이 150$ 정도가 높다.
그렇다면 이제 '나이'와 성별에 따른 임금 차이에 대해서 알아볼까?
성별 데이터 값 변경하는 과정과 NA 처리하는 과정은 이미 했으므로 생략하고 바로 분석으로 들어가도록 한다.
# 2-3. 나이 파생변수 생성 / 나이와 성별에 따른 income의 평균값 계산
welfare$age = 2021-welfare$birth
age_gender_income <- welfare %>% filter(!is.na(income)) %>% group_by(gender, age) %>%
summarise(mean_income=mean(income))
나이는 현재의 연도에서 태어난 연도를 뺀 값이기 때문에 먼저 welfare의 파생변수 age를 추가한다.
age_gender_income 변수에
income의 NA 값은 제외한 데이터 중 gender와 age로 그룹핑한 후 수입 평균을 넣는다.
# 2-4. 나이와 성별에 따른 남녀 평균 임금을 그래프로 그리기
ggplot(data = age_gender_income, aes(x=age, y=mean_income, col=gender))+geom_line()
age_gender_income 을 데이터로 하고 x 축에 나이, y 축에 수입 평균을 지정한 후 성별에 따라 색을 다르게 하는 선 그래프를 그린다.
▶ '20세' 부근에서는 남녀의 임금 차이가 크게 나지 않지만
'30세' 정도가 되면 점점 임금 차이의 폭이 커지기 시작한다.
'59세' 의 임금차이 폭이 가장 크고 '65세' 정도가 되면 점점 임금이 하락폭을 보이면서
'80세'에 교차지점이 생기면서 임금 차이가 줄어든다.
'데이터분석 > R' 카테고리의 다른 글
R - Airquality (0) | 2021.05.09 |
---|---|
R 통계분석 (5) 분석과제 ( mpg data) (0) | 2021.04.08 |
R 통계분석 (2주차) (0) | 2021.03.10 |
R 통계분석 (1주차) (0) | 2021.03.04 |
R # 선 그래프 ( 상자 그림 ) (0) | 2021.02.25 |