반전공자

# 데이터 분석 - 성별에 따른 월급 차이 분석 본문

데이터분석/R

# 데이터 분석 - 성별에 따른 월급 차이 분석

하연01 2021. 3. 10. 02:37
library(dplyr)
library(ggplot2)

welfare <- read.csv("welfare.csv")

필요한 패키지 로드하기 

- dplyr ( 데이터 전처리)

- ggplot2 (데이터 시각화)

 

welfare.csv 데이터 welfare 변수에 넣기 

 

# 1-1.  성별 데이터를 1:male, 2:female로 변경하기 
welfare$gender[welfare$gender==1]<-"male"
welfare$gender[welfare$gender==2]<-"female"

gender 값에 1 과 2로 이루어져있는 값을 각각 male, female로 변경하기 

 

# 1-2. income의 정상범위가 아닌 값들을 NA로 처리하기 
welfare$income = ifelse(welfare$income==0 | welfare$income==9999,
                              NA, welfare$income)

welfare의 income이 0, 9999라면 NA , 이 외의 값이라면 원래의 값을 유지하기 

 

# 1-3. 성별에 따른 income의 평균값을 계산하기
gender_income<-welfare %>% filter(!is.na(income)) %>% group_by(gender) %>%
  summarise(mean_income = mean(income))

gender income 이라는 변수에

welfare 중 income의 NA 값을 제외한 후 성별로 그룹핑하고 income의 평균을 넣기 

 

# 1-4. 남녀 평균 임금을 그래프로 그리기. 
ggplot(data = gender_income, aes(x=gender, y=mean_income))+geom_bar(stat = "identity")

위에서 만든 gender_income 데이터 중 x 축에 성별, y축에 수입 평균을 넣고 막대그래프를 그린다.

 

 

▶ 남성이 여성보다 평균적으로 임금이 150$ 정도가 높다.

 

 

 

 

그렇다면 이제 '나이'와 성별에 따른 임금 차이에 대해서 알아볼까?

성별 데이터 값 변경하는 과정과 NA 처리하는 과정은 이미 했으므로 생략하고 바로 분석으로 들어가도록 한다.

# 2-3. 나이 파생변수 생성 / 나이와 성별에 따른 income의 평균값 계산 
welfare$age = 2021-welfare$birth

age_gender_income <- welfare %>% filter(!is.na(income)) %>% group_by(gender, age) %>% 
  summarise(mean_income=mean(income))

나이는 현재의 연도에서 태어난 연도를 뺀 값이기 때문에 먼저 welfare의 파생변수 age를 추가한다. 

age_gender_income 변수에

income의 NA 값은 제외한 데이터 중 gender와 age로 그룹핑한 후 수입 평균을 넣는다. 

 

# 2-4. 나이와 성별에 따른 남녀 평균 임금을 그래프로 그리기 
ggplot(data = age_gender_income, aes(x=age, y=mean_income, col=gender))+geom_line()

age_gender_income 을 데이터로 하고 x 축에 나이, y 축에 수입 평균을 지정한 후 성별에 따라 색을 다르게 하는 선 그래프를 그린다. 

 

▶ '20세' 부근에서는 남녀의 임금 차이가 크게 나지 않지만

    '30세' 정도가 되면 점점 임금 차이의 폭이 커지기 시작한다. 

    '59세' 의 임금차이 폭이 가장 크고 '65세' 정도가 되면 점점 임금이 하락폭을 보이면서

    '80세'에 교차지점이 생기면서 임금 차이가 줄어든다. 

 

 

 

 

 

 

 

2021.03.10 - [데이터분석/R] - R 통계분석 (2주차)

'데이터분석 > R' 카테고리의 다른 글

R - Airquality  (0) 2021.05.09
R 통계분석 (5) 분석과제 ( mpg data)  (0) 2021.04.08
R 통계분석 (2주차)  (0) 2021.03.10
R 통계분석 (1주차)  (0) 2021.03.04
R # 선 그래프 ( 상자 그림 )  (0) 2021.02.25