반전공자

R # 데이터 불러오기 본문

데이터분석/R

R # 데이터 불러오기

하연01 2021. 1. 20. 00:26

" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다. (일개 대학생입니다.)

 

엑셀을 과연 R로 어떻게 불. 러. 올. 것. 인. 가. ! 

 

파일이 정말,,, 중구난방이 되어있기에,,, 다시 파일 지정을 다시 해줬다ㅠㅠㅠㅠ 

 

R에서 getwd()을 실행시키면 현재 어떤 파일로 지정되어있는가를 보여준다. 

 

setwd()로도 파일지정이 가능하다고 하지만 나는 tools로 들어가서 직접 지정해주었다!

 

 

겨우겨우,, 파일 지정을 해주고 그 안에 엑셀파일을 넣었다. 

 

github.com/youngwoos/Doit_R/blob/master/Data/excel_exam.xlsx

 

youngwoos/Doit_R

저장소. Contribute to youngwoos/Doit_R development by creating an account on GitHub.

github.com

'쉽게배우는 R 데이터 분석'의 저자이신 김영우 님의 깃허브에서 엑셀파일을 제공해주셨다. 

 

 

엑셀파일의 표를 그대로 R로 가져오는 것이 되나 궁금했는데.. ㅋㅋㅋ

 

오호랏 되더라!!!! 이것이 배움의 기쁨 

 

 

먼저 엑셀파일을 읽기 위해서는 패키지를 설치해야한다. 

 

 

 

 

install.packages("readxl")
library(readxl)

-> 패키지 중에서 readxl을 불러온다. 

 

 

 

 

df_exam <- read_excel("excel_exam.xlsx")

df_exam 

-> "" 안에 정확한 파일의 이름을 입력해주어야 불러오기가 가능하다. 

 

 

그럼 이렇게 R에 똑같이 불러와진다!! 

신기방기 

항상 파일 불러올때 너무,, 뭐랄까 어렵진 않은데 꼬여있어서 에러나는 경우가 많았는데 해결해서 수월했다~!

 

 

 

*** 첫째줄은 자동으로 변수명으로 파악하는 R ***

 

만약 첫째줄부터 정보가 입력되어있다면? 

 

 

 

# R studio 변수없는 엑셀 불러오기 

 

-> col_names = F

그럴 땐 

df_exam <- read_excel("excel_exam.xlsx", col_names=F)

 

 

+ 만약 지정한 폴더가 아니고 다른 곳에 있는 파일을 불러오고 싶다면 그 경로를 지정해주면 된단다! 

 

 

 

------------------------------------------------

 

 

 

그렇담 가져온 정보로 분석을 해볼까?

 

방대한 정보는 아니기 때문에 간단한 평균정도만 알아보도록 하겠다! 

 

이전 데이터 프레임에서 $를 사용하여 변수를 지정한 방법을 가지고 평균을 구해보려고 한다. 

 

 

mean(df_exam$english)
mean(df_exam$math)

 

실행하면 아래 결과 창에 각각 바로 결과가 보여진다. 

 

 

 

 

 

 

*** 엑셀에 3번째 시트를 가져올래! ***

 

 

위에서 첫째줄에 변수명이 없을 경우와 마찬가지로 read_excel 코드에 한 문장만 추가해주면 된다. 

 

 

 

# R studio 엑셀 시트 지정 코드

 

df_exam <- read_excel("excel_exam.xlsx", sheet=3)

 

 

 

 

*** csv 파일 불러오기 디테일 ***

 

 

엑셀 파일이 아닌 csv 파일을 불러올 때에는 무엇을 주의해야 하는가? 

 

 

기본적으로는 read_csv 를 사용한다. 

 

read_excel과 마찬가지로 만약에 첫째 행에 변수명이 없다면?? 

 

 

read.csv("csv_exam.csv", header=F)

 

* excel -> col_names = F

* csv -> header = F

 

 

 

* 그럼 문자가 들어있는 파일은? *

 

-> stringsAsFactors = F

 

read.csv("csv_exam.csv", stringsAsFactors = F)

 

 

 

 

 

 

*** R studio 에서 만든 데이터 프레임 저장하기 ***

 

-> write.csv()

 

아까 만들었던 df_midterm으로 실행해보자! 

 

 

write.csv(df_midterm, file="df_midterm.csv") 

코드를 실행하면! 

 

 

 

R studio의 4개의 창에서 파일을 보여주는 창에 파일이 저장되었음을 보여준다! 

 

 

 

 

 

 

*** 데이터 프레임을 RData로 저장하기 ***

-> save()

 

데이터 프레임 뒤에 csv 대신 rda를 붙여준다. 

 

 

save(df_midterm, file = "df_midterm.rda")

코드를 실행하면 아까 저장되었던 csv 파일 아래에 rda 파일이 저장되었음을 알 수 있다. 

( 앗차차 midterm이라고 써야하는걸 midter라고 썼어..................................갠차나!)

 

 

 

 

* rm() -> 데이터 삭제 

ex. 

 

rm(df_midterm) 

R studio 내에 있던 df_midterm을 삭제하는 코드 

 

 

실행 후에 다시 df_midterm을 실행시키면 에러가 뜬다. 

Error: object 'df_midterm' not found

- df_midterm이 존재하지 않아! 

 

 

 

 

*** RData 불러오기 ***

-> load()

 

내가 만들어서 저장해놓았거나, 다운받은 RData 파일을 불러오고싶다면?? 

 

 

load("df_midterm.rda")
df_midterm 

-> df_midterm.rda 파일을 불러오고 df_midterm을 실행시켜 제대로 불러와졌는지 확인한다. 

제대로 불러와졌다! 

 

* 생각정리

-  RData 저장할 때 df_midter로 저장하고 깨달은건데 RData 저장할 때 df_midterm으로 저장했기 때문에

    다시 불러와서도 df_midterm으로 입력하여 불러옴 

 

load로 불러오면 자동으로 데이터 프레임이 생기기 때문에 새 변수에 할당할 필요가 없다.

 

 

 

*** csv, excel 불러오기 ***

 

-> read.csv / read.excel

 

불러올 때에는 새로운 변수에 할당해야함. 

 

 

 

df_exam <- read_excel("excel_exam.xlsx") 

df_exam  # 제대로 불러와졌는가? 확인! 

 

 

 

 

 

 

 

df_csv_exam <- read.csv("df_midterm.csv")

-> # 새 변수 할당하여 csv파일 불러오기 

df_csv_exam # 잘 불러와졌는지 확인하기! 

 

** load()는 무조건 Rda파일을 불러올 때만 써야하는 것인가,, 보다,,! 

 

'데이터분석 > R' 카테고리의 다른 글

R # 파생변수  (0) 2021.01.22
R # 변수명 바꾸기  (0) 2021.01.21
R #데이터 파악하기  (0) 2021.01.20
R #data frame  (0) 2021.01.19
R #packages, 그래프 그리기, data frame  (0) 2021.01.17