일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ionehotencoding
- Udemy
- Okt
- pandas
- 시각화
- konlpy
- Python
- 형태소분석기
- 태블로
- iNT
- 머신러닝
- Word Cloud
- pyspark
- input
- Tableau
- 데이터
- scikit-learn
- 인공지능
- selenium
- 데이터 분석
- numpy
- 데이터분석
- 파이썬
- SQL
- 크롤링
- Today
- Total
반전공자
R # 데이터 불러오기 본문
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다. (일개 대학생입니다.)
엑셀을 과연 R로 어떻게 불. 러. 올. 것. 인. 가. !
파일이 정말,,, 중구난방이 되어있기에,,, 다시 파일 지정을 다시 해줬다ㅠㅠㅠㅠ
R에서 getwd()을 실행시키면 현재 어떤 파일로 지정되어있는가를 보여준다.
setwd()로도 파일지정이 가능하다고 하지만 나는 tools로 들어가서 직접 지정해주었다!
겨우겨우,, 파일 지정을 해주고 그 안에 엑셀파일을 넣었다.
github.com/youngwoos/Doit_R/blob/master/Data/excel_exam.xlsx
youngwoos/Doit_R
저장소. Contribute to youngwoos/Doit_R development by creating an account on GitHub.
github.com
'쉽게배우는 R 데이터 분석'의 저자이신 김영우 님의 깃허브에서 엑셀파일을 제공해주셨다.
엑셀파일의 표를 그대로 R로 가져오는 것이 되나 궁금했는데.. ㅋㅋㅋ
오호랏 되더라!!!! 이것이 배움의 기쁨
먼저 엑셀파일을 읽기 위해서는 패키지를 설치해야한다.
install.packages("readxl")
library(readxl)
-> 패키지 중에서 readxl을 불러온다.
df_exam <- read_excel("excel_exam.xlsx")
df_exam
-> "" 안에 정확한 파일의 이름을 입력해주어야 불러오기가 가능하다.
그럼 이렇게 R에 똑같이 불러와진다!!
신기방기
항상 파일 불러올때 너무,, 뭐랄까 어렵진 않은데 꼬여있어서 에러나는 경우가 많았는데 해결해서 수월했다~!
*** 첫째줄은 자동으로 변수명으로 파악하는 R ***
만약 첫째줄부터 정보가 입력되어있다면?
# R studio 변수없는 엑셀 불러오기
-> col_names = F
그럴 땐
df_exam <- read_excel("excel_exam.xlsx", col_names=F)
+ 만약 지정한 폴더가 아니고 다른 곳에 있는 파일을 불러오고 싶다면 그 경로를 지정해주면 된단다!
------------------------------------------------
그렇담 가져온 정보로 분석을 해볼까?
방대한 정보는 아니기 때문에 간단한 평균정도만 알아보도록 하겠다!
이전 데이터 프레임에서 $를 사용하여 변수를 지정한 방법을 가지고 평균을 구해보려고 한다.
mean(df_exam$english)
mean(df_exam$math)
실행하면 아래 결과 창에 각각 바로 결과가 보여진다.
*** 엑셀에 3번째 시트를 가져올래! ***
위에서 첫째줄에 변수명이 없을 경우와 마찬가지로 read_excel 코드에 한 문장만 추가해주면 된다.
# R studio 엑셀 시트 지정 코드
df_exam <- read_excel("excel_exam.xlsx", sheet=3)
*** csv 파일 불러오기 디테일 ***
엑셀 파일이 아닌 csv 파일을 불러올 때에는 무엇을 주의해야 하는가?
기본적으로는 read_csv 를 사용한다.
read_excel과 마찬가지로 만약에 첫째 행에 변수명이 없다면??
read.csv("csv_exam.csv", header=F)
* excel -> col_names = F
* csv -> header = F
* 그럼 문자가 들어있는 파일은? *
-> stringsAsFactors = F
read.csv("csv_exam.csv", stringsAsFactors = F)
*** R studio 에서 만든 데이터 프레임 저장하기 ***
-> write.csv()
아까 만들었던 df_midterm으로 실행해보자!
write.csv(df_midterm, file="df_midterm.csv")
코드를 실행하면!
R studio의 4개의 창에서 파일을 보여주는 창에 파일이 저장되었음을 보여준다!
*** 데이터 프레임을 RData로 저장하기 ***
-> save()
데이터 프레임 뒤에 csv 대신 rda를 붙여준다.
save(df_midterm, file = "df_midterm.rda")
코드를 실행하면 아까 저장되었던 csv 파일 아래에 rda 파일이 저장되었음을 알 수 있다.
( 앗차차 midterm이라고 써야하는걸 midter라고 썼어..................................갠차나!)
* rm() -> 데이터 삭제
ex.
rm(df_midterm)
R studio 내에 있던 df_midterm을 삭제하는 코드
실행 후에 다시 df_midterm을 실행시키면 에러가 뜬다.
Error: object 'df_midterm' not found
- df_midterm이 존재하지 않아!
*** RData 불러오기 ***
-> load()
내가 만들어서 저장해놓았거나, 다운받은 RData 파일을 불러오고싶다면??
load("df_midterm.rda")
df_midterm
-> df_midterm.rda 파일을 불러오고 df_midterm을 실행시켜 제대로 불러와졌는지 확인한다.
제대로 불러와졌다!
* 생각정리 *
- RData 저장할 때 df_midter로 저장하고 깨달은건데 RData 저장할 때 df_midterm으로 저장했기 때문에
다시 불러와서도 df_midterm으로 입력하여 불러옴
load로 불러오면 자동으로 데이터 프레임이 생기기 때문에 새 변수에 할당할 필요가 없다.
*** csv, excel 불러오기 ***
-> read.csv / read.excel
불러올 때에는 새로운 변수에 할당해야함.
df_exam <- read_excel("excel_exam.xlsx")
df_exam # 제대로 불러와졌는가? 확인!
df_csv_exam <- read.csv("df_midterm.csv")
-> # 새 변수 할당하여 csv파일 불러오기
df_csv_exam # 잘 불러와졌는지 확인하기!
** load()는 무조건 Rda파일을 불러올 때만 써야하는 것인가,, 보다,,!
'데이터분석 > R' 카테고리의 다른 글
R # 파생변수 (0) | 2021.01.22 |
---|---|
R # 변수명 바꾸기 (0) | 2021.01.21 |
R #데이터 파악하기 (0) | 2021.01.20 |
R #data frame (0) | 2021.01.19 |
R #packages, 그래프 그리기, data frame (0) | 2021.01.17 |