반전공자

R #data frame 본문

데이터분석/R

R #data frame

하연01 2021. 1. 19. 23:10

데이터 프레임을 배워보는 시간을 가져보도록 하게쒀용..! 

 

" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다. (일개 대학생입니다.)

 

# data frame

 

 

먼저 데이터의 형식을 알아보자! 

 

 

우리가 흔히 보는 엑셀을 생각하면 될 것 같다. 

행(가로)과 열(세로)로 이루어진 데이터 형태를 데이터 프레임이라고 한다.

열 - 컬럼, 변수 

행 - 로, 케이스 

 

 

보통 행은 주체 (개인, 도시, ...)이고 열은 그 주체 별 특징 (나이, 성별, 면적, 인구밀도)이 되겠다. 

 

 

 

Q. 행이 많은게 중요해? 열이 많은게 중요해?

-> 열이 많은 게 중요해! (행이 많은건 메모리, CPU로 커버쳐야하지만, 열이 많은 건 고급 분석 방법을 써야하니까..!)

 

 

 

 

실제로 R에서 데이터 프레임을 쓸 경우엔?

 

ex. 영어점수와 수학점수를 가지고 표를 만들래! 

 

 

 

english <- c(90, 80, 60, 70)
english
# 내가 넣은 점수를 확인하기 위한 코드 

math <- c(50, 60, 100, 20)
math
# 위 english와 마찬가지 

 

 

 

그렇담 위 영어점수와 수학점수를 가지고 표는 어떻게 만들어?!

 

 

 

df_midterm <- data.frame(english, math)

 

df_midterm
# 만들어진 표를 보여줘!

 

data frame

 

 

코드를 각각 실행한 결과를 보여준다. 

가장 아래의 표는 df_midterm을 보여준 결과이다!

여기서 정보를 점점 추가해보도록 하겠다!

 

 

 

 

 

 

별로,, 달라진 것은 없다. 

그냥 단지 하나의 변수를 더 추가해서 data.frame의 괄호 안에 추가하는 것 뿐. 

 

 

 

 

 

코드도 다를 것이 없다! 

새로 넣을 정보는 '반'에 대한 정보이다. 

 

 

 

class<-(1,1,2,2)

class #클래스 변수에 뭐 들어있는지 알려줘! 

df_midterm<-data.frame(english,math,class)

df_midterm #클래스 추가한 표 보여줘!

class<-(1,1,2,2)
class
#클래스 변수에 뭐 들어있는지 알려줘! 

df_midterm<-data.frame(english,math,class)
df_midterm
#클래스 추가한 표 보여줘!

 

 

 

클래스가 포함된 표는 어떻게 바뀌었을까? 

 

이미 알다시피 

 

class 포함된 data frame

 

오른쪽에 열만 추가된 결과가 보인다!

* 정보는 열 기준으로 추가된다~!

 

 

 

 

 

 

흠.. 정보는 모두 넣은 것 같으니 정보를 가지고 뭘 할 수 있을까 생각해보자. 

 

 

 

 

 

어차피,, 정보가 많은 것이 아니기 때문에 단순한 평균을 내볼까? 

여러가지의 수가 들어있는 표에서 과목별로 평균을 내고싶다면 어떻게 하면 될까? 

 

 

 

 

 

바로바로 

 

 

 

평균을 의미하는 mean을 사용하게 된다. 

 

 

 

mean(df_midterm$english)

 

# df_midterm(표)에서 영어점수만 뽑아서 평균 알려줘! 

위 코드를 실행하면 바로 평균이 보여진다. 

마찬가지로 수학과목에 대한 평균을 알아보려면 위의 코드에서 english를 math로 바꾸기만 하면 된다. 

 

 

mean(df_midterm$math)

 

새로 알게된 것 ! 

#

-> 변수지정의 역할

 

 

 

 

 

----------------------------------------

 

 

 

 

 

 

그런데,, 위의 코드를 그대로 친다고 생각하면 매 변수마다 수를 넣어주고 또 다시 그 변수를 데이터 프레임에 넣어줘야해,,, 귀차나,, 

그렇다면,,, 더 간편한 방법이 없을까??

 

 

이 코드가 한번에 변수를 지정하고 표까지 만들 수 있는 코드다! 

 

 

 

 

 

그런데 궁금한것 

 

1. 왜 변수에 수를 넣을 때 english<-c(90,80,60,70) 으로 쓰지 않고 =을 쓰는 것인가?? 

   -> 아무래도,,, df_midterm에 data.frame을 지정할 때 <-를 사용했기 때문이지 않을까..? 한다. 

 

 

 

 

 

그렇담 교재에 나와있는 예제로 혼자 해볼까? 

 

 

 

Q. 제품, 가격, 판매량에 대한 표를 그리라고 한다! 

예제 답

한번에 변수를 지정하고 표까지 만들 수 있는 코드를 썼다! 

 

 

 

 

 

 

아직,, 재밌어.! 할만해! 

다 할때까지 그랬으면,,, 좋겠둥,, ㅎㅡㅎ

'데이터분석 > R' 카테고리의 다른 글

R # 파생변수  (0) 2021.01.22
R # 변수명 바꾸기  (0) 2021.01.21
R #데이터 파악하기  (0) 2021.01.20
R # 데이터 불러오기  (0) 2021.01.20
R #packages, 그래프 그리기, data frame  (0) 2021.01.17