일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터
- 크롤링
- 데이터 분석
- Python
- numpy
- konlpy
- 머신러닝
- Tableau
- pandas
- iNT
- scikit-learn
- 인공지능
- input
- 데이터분석
- selenium
- Udemy
- ionehotencoding
- Word Cloud
- pyspark
- 태블로
- SQL
- 시각화
- 파이썬
- Okt
- 형태소분석기
- Today
- Total
목록데이터분석/R (36)
반전공자
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 쓰는 글 입니다. 이제 ,,,, 대망의 그래프 ! ! ! 지금까지 데이터를 다루고 분석하는 과정을 배웠는데 이제는 정말 시각적으로 딱 ! 표현하는 방법을 배우려 한다 ~ 데이터를 분석한 결과를 다른 사람들에게 보여주고 설명하기 위해선 그래프가 필수적이라고 생각한다. 또한 분석하는 사람이 보기에도 한눈에 보기 편하고 데이터의 특징이 한눈에 보여지기 때문에 분석할 때에도 큰 도움이 되리라 생각한다! # ggplot2 패키지를 배울 때 살펴보고 이전 장에서 상자 그림을 그릴 때 사용했던 패키지이다. 가장 기본적이고 간단하게 그래프를 그릴 수 있는 방법! 처음 배울 때에는 그릴 수 있고 색도 바꿀 수 있다 ! 에서만 끝났지만, 그걸 교재에서는 그래프를 그리는 ..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 배우는 과정을 기록하는 글입니다. (일개 대학생입니다!) 이번에는 보통 값들보다 크게 벗어나는 값인 이상치를 처리하는 방법에 대해서 배워보자. 결측치는 아예 비어있는 없는 값이었지만, 이상치는 값이 들어있지만 논리적으로 이상하던가, 크게 차이가 나는 값이다. # 이상치 ex. 성별을 숫자로 나타내는 열에서 3이 입력된 경우 / 점수의 만점이 5점인데 6점이 입력된 경우 outlier table(outlier$sex) 1 2 3 3 2 1 > table(outlier$score) 2 3 4 5 6 1 1 2 1 1 아차차? 성별은 값이 1, 2 두가지 밖에 없는데 3이 존재하네? -> 이상치 발견 점수는 5점 만점인데 6점이 존재하네? -> 이상치 발견 ..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 배우는 과정을 기록하는 글입니다. (일개 대학생입니다!) 오늘은 데이터를 정제하는 과정에 대해서 배워보려 한다. 우리가 정제해야 할 데이터의 정체는? -> 이상치? 결측치? 오늘은 결측치를 제거하는 방법을 알아보도록 하자! # 결측치 작은 데이터를 가지고 실습할 것이기 때문에 데이터를 만들어보자 df 이전에 배웠던 table() 사용하자~! table(is.na(df)) FALSE TRUE 8 2 아하! 우리가 제거해야 하는 값은 총 두개! 지금 해보는 실습에서는 간단해보이고 과연 쓸모가 있는 것일까? 하는 의심이 들지만,,,, 곧 하게 될 프로젝트 따라하기에서 실제로 사용하는지 살펴보자! 그리고 성별과 스코어 열에서 각각 결측치가 몇 개 있는지 따로 ..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) # 데이터 합치기 내가 가지고 있는 데이터 중 합쳐서 하나의 데이터로 저장해놓아야 분석에 용이할 경우가 분명 존재할텐데, 그렇다면 두개의 자료를 합치는 방법은 무엇이 있을까? - 가로로 합치기 : 열이 많아진다고 생각하면 된다. 만약 중간고사 점수 자료와 기말고사 점수 자료를 하나의 데이터로 합치려면? ⇒ test1
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 이전 " 데이터 가공 (3) " 에서는 필요한 데이터를 열 기준으로 추출하는 방법을 select를 통해서 배웠다. 앞에 배웠던 것들을 다시 한번 복습하는 시간을 가져야 할 것 같다는 생각이 드는 한때 ! 더 배워야 할 것들이 많이 남지는 않았기 때문에 꾸준히 진도를 나가보도록 하겠다! # 값 정렬하기 ⇒ arrange() 아무렇게나 쓰여져 있는 데이터들을 큰 값 혹은 작은 값부터 정리해서 편하게 보고싶다면? 오름차순, 내림차순으로 값을 정렬하자! exam %>% arrange(math) ⇒ id, class, 시험점수가 들어있는 데이터에서 수학점수를 기준으로 오름차순 정렬하자 흠, 난 높은 점수..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 지금까진 배운 것과 더불어 지난 시간에 배웠던 데이터 추출하는 방법을 추가로 배웠다! 그렇다면 지금까지 배운 것을 가지고 분석문제를 해결해볼까? # 분석실습 Q1. mpg 데이터 중 class(자동차 종류), cty(도시 연비) 변수 추출하려 새로운 데이터 만들고 일부 출력하여 두 변수로만 구성되어있는지 확인하기 (* 원래 도시연비의 변수명이 cty 인데 실습하는 과정에서 변수명을 city로 변경하였다.) p138 % select(class, city) mpg 데이터의 자동차 종류와 도시 연비를 p138에 추가하였다. Q2. 자동차 종류에 따라 도시연비가 다를까? class..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 이전에 행을 추출하는 filter() 함수에 대해서 배웠다면, 이번에는 변수(열)를 추출하는 select() 함수를 이어서 배우도록 하겠다. 간단하지만 데이터 가공에 많은 도움이 되는 기능들을 배울 예정이다. # 변수 추출 ⇒ select(변수명) 실습에 쓸 데이터는 아이디, 반, 시험점수(영어, 수학, 과학)에 대한 것이다. " exam " 만약에 난 이 데이터에서 " 수학 " 점수만 뽑아보고 싶어~! 그렇다면 변수인 math의 열을 추출해야한다. 그리고 이 해당 기능이 select인데 실제로 어떻게 써야 추출이 되는지 해보도록 하자. exam %>% select(math) 아래 실행창에 바로..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 분석과정을 혼자 해보긴 했지만 배운지 얼마 안됐기 때문에 금방 까먹을 것 같아서 처음부터 다시 다 해보기로 했다! (+ 일요일이기도 하고!) 처음부터 다시 하려니 기억이 잘 나지 않기도 하고 헷갈려서 어려웠는데 찾아가며 푸는 과정도 도움이 되었다. 내가 생각하는 분석 단계는 1, 데이터 불러오기 2. 데이터 전처리 3. 유의미한 값 추출하기 4. 그래프 그려보기 이며 이대로 분석해보려 한다. # 데이터 전처리에 필요한 dplyr 불러오기 # 데이터 시각화에 필요한 ggplot2 불러오기 library(dplyr) library(ggplot2) # mpg 데이터 불러오기 # mpg 데이터 표로 한..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 진짜.. 정말 mpg 데이터와 midwest 데이터를 다루면서 원했던 것이 이거야! 많은 행과 열로 이루어진 데이터에서 내가 필요한 것만 보고싶은데,,, 너무 많으니까 찾기가 너무 힘들단 생각이 들었는데 여기에 딱 필요한 " 데이터 가공 " 에 대해서 오늘 배워보려한다! # 데이터 전처리 1. dplyr 함수 데이터 전처리를 위해서는 패키지가 필요하다. 이전에 변수명 변경을 위해 썼던 rename() 함수가 포함되어있던 dplyr이 바로 데이터 전처리 패키지다!! 먼저 어떤 함수들이 필요한지 배워보겠다. 기본적으로 먼저 필요한 행과 열을 추출하는 함수? - filter() 행 추출 ⇒ 간단하게 ..
" 쉽게 배우는 R 데이터 분석 " 을 교재로 하여 공부하는 과정을 작성한 글입니다." (일개 대학생입니다.) 교재 123p에 있는 분석 실습 문제를 혼자 풀어보도록 하겠다! 데이터를 불러오고 분석에 용이하도록 정보를 추가한 다음에 분석을 진행해보려 한다! # 실습 1. ggplot2 패키지 안에 있는 midwest 데이터 불러오기 먼저 데이터가 어떻게 생겼고 어떤 정보가 들어있는지 보기 위해 head()를 이용해 6번째 줄을 뽑아보았다. mid 다음 단계인 " 변수명 변경 " 역할인 rename() 함수를 쓰기 위해서는 dplyr 패키지를 다운로드 받아야 한다. library(dplyr) 그 다음 단계에서 그래프를 그려야하기 때문에 ggplot2도 불러온다. library(ggplot2..