일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- ionehotencoding
- konlpy
- Udemy
- 데이터 분석
- Word Cloud
- 데이터분석
- selenium
- 파이썬
- numpy
- 크롤링
- 형태소분석기
- 데이터
- pyspark
- SQL
- iNT
- Python
- 태블로
- 인공지능
- input
- scikit-learn
- 시각화
- Tableau
- Okt
- pandas
- Today
- Total
반전공자
R #data frame 본문
데이터 프레임을 배워보는 시간을 가져보도록 하게쒀용..!
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다. (일개 대학생입니다.)
# data frame
먼저 데이터의 형식을 알아보자!
우리가 흔히 보는 엑셀을 생각하면 될 것 같다.
행(가로)과 열(세로)로 이루어진 데이터 형태를 데이터 프레임이라고 한다.
열 - 컬럼, 변수
행 - 로, 케이스
보통 행은 주체 (개인, 도시, ...)이고 열은 그 주체 별 특징 (나이, 성별, 면적, 인구밀도)이 되겠다.
Q. 행이 많은게 중요해? 열이 많은게 중요해?
-> 열이 많은 게 중요해! (행이 많은건 메모리, CPU로 커버쳐야하지만, 열이 많은 건 고급 분석 방법을 써야하니까..!)
실제로 R에서 데이터 프레임을 쓸 경우엔?
ex. 영어점수와 수학점수를 가지고 표를 만들래!
english <- c(90, 80, 60, 70)
english
# 내가 넣은 점수를 확인하기 위한 코드
math <- c(50, 60, 100, 20)
math
# 위 english와 마찬가지
그렇담 위 영어점수와 수학점수를 가지고 표는 어떻게 만들어?!
df_midterm <- data.frame(english, math)
df_midterm
# 만들어진 표를 보여줘!
코드를 각각 실행한 결과를 보여준다.
가장 아래의 표는 df_midterm을 보여준 결과이다!
여기서 정보를 점점 추가해보도록 하겠다!
별로,, 달라진 것은 없다.
그냥 단지 하나의 변수를 더 추가해서 data.frame의 괄호 안에 추가하는 것 뿐.
코드도 다를 것이 없다!
새로 넣을 정보는 '반'에 대한 정보이다.
class<-(1,1,2,2)
class #클래스 변수에 뭐 들어있는지 알려줘!
df_midterm<-data.frame(english,math,class)
df_midterm #클래스 추가한 표 보여줘!
class<-(1,1,2,2)
class
#클래스 변수에 뭐 들어있는지 알려줘!
df_midterm<-data.frame(english,math,class)
df_midterm
#클래스 추가한 표 보여줘!
클래스가 포함된 표는 어떻게 바뀌었을까?
이미 알다시피
오른쪽에 열만 추가된 결과가 보인다!
* 정보는 열 기준으로 추가된다~!
흠.. 정보는 모두 넣은 것 같으니 정보를 가지고 뭘 할 수 있을까 생각해보자.
어차피,, 정보가 많은 것이 아니기 때문에 단순한 평균을 내볼까?
여러가지의 수가 들어있는 표에서 과목별로 평균을 내고싶다면 어떻게 하면 될까?
바로바로
평균을 의미하는 mean을 사용하게 된다.
mean(df_midterm$english)
# df_midterm(표)에서 영어점수만 뽑아서 평균 알려줘!
위 코드를 실행하면 바로 평균이 보여진다.
마찬가지로 수학과목에 대한 평균을 알아보려면 위의 코드에서 english를 math로 바꾸기만 하면 된다.
mean(df_midterm$math)
새로 알게된 것 !
# $
-> 변수지정의 역할
----------------------------------------
그런데,, 위의 코드를 그대로 친다고 생각하면 매 변수마다 수를 넣어주고 또 다시 그 변수를 데이터 프레임에 넣어줘야해,,, 귀차나,,
그렇다면,,, 더 간편한 방법이 없을까??
이 코드가 한번에 변수를 지정하고 표까지 만들 수 있는 코드다!
그런데 궁금한것
1. 왜 변수에 수를 넣을 때 english<-c(90,80,60,70) 으로 쓰지 않고 =을 쓰는 것인가??
-> 아무래도,,, df_midterm에 data.frame을 지정할 때 <-를 사용했기 때문이지 않을까..? 한다.
그렇담 교재에 나와있는 예제로 혼자 해볼까?
Q. 제품, 가격, 판매량에 대한 표를 그리라고 한다!
한번에 변수를 지정하고 표까지 만들 수 있는 코드를 썼다!
아직,, 재밌어.! 할만해!
다 할때까지 그랬으면,,, 좋겠둥,, ㅎㅡㅎ
'데이터분석 > R' 카테고리의 다른 글
R # 파생변수 (0) | 2021.01.22 |
---|---|
R # 변수명 바꾸기 (0) | 2021.01.21 |
R #데이터 파악하기 (0) | 2021.01.20 |
R # 데이터 불러오기 (0) | 2021.01.20 |
R #packages, 그래프 그리기, data frame (0) | 2021.01.17 |