일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- iNT
- scikit-learn
- SQL
- Python
- 파이썬
- ionehotencoding
- Udemy
- selenium
- 데이터
- input
- pandas
- numpy
- 크롤링
- 태블로
- Tableau
- 데이터 분석
- Okt
- konlpy
- 머신러닝
- 데이터분석
- 인공지능
- 형태소분석기
- 시각화
- Word Cloud
- pyspark
- Today
- Total
목록데이터분석/R (36)
반전공자
감기이 피로도에 미치는 영향 분석 library(dplyr) library(ggplot2) drug=read.csv("drug.csv") drug str(drug) drug$fatigue=ordered(drug$fatigue, levels=c("low","med","high")) boxplot(dose~fatigue, data=drug,xlab="fatigue", ylab="dose", col=c("blue","red","yellow")) 파생변수 fatigue : levels가 낮고 높은 범주 지정해준다. low, med, high로 설정하여 3 범주로 설정하였다. 박스그래프로 분포 정도를 한눈에 살펴본다. low : 분포가 낮은 수치에 위치하며 매우 좁다. 중앙값이 최댓값과 같다. 이상치 없음 med..
①. 데이터 특성 파악 : 산점도, boxplot .. ②. 키와 몸무게 사이의 상관관계 확인 : cor.test() ③. 선형회귀모델 생성 : lm() ④. 검증 : summary(), plot() ⑤. 예측 : predict() dataset: regression.csv ① 데이터 불러오기, 특성 파악 reg = read.csv("regression.csv") head(reg) plot(reg$weight, reg$height) 우상향하는 경향을 보인다. ②. 상관관계 확인 cor(reg$height, reg$weight) cor.test(reg$height, reg$weight) → cor, cor.test 둘 중 아무거나 써도 상관 없음. cor()은 상관계수만 보여준다. cor..
Cars : 자동차의 주행속도 (speed)와 제동거리 (dist) 관계 THINK! → 아마도 주행속도가 빠르다면 제동거리가 길어질 것이다. speed, dist가 관련이 있는가? → cor.test cor.test(cars$speed, cars$dist, method="pearson") p - value < 0.05 : 대립가설 채택 ▶ speed와 dist는 관련이 있다. 95 percent confidence interval = 0.6816 ~ 0.8862 ▶ 상관계수가 이 범위 사이에 존재한다. cor = 0.8068 ▶ 강한 양적 상관관계를 가진다. plot(cars$speed, cars$dist) 우상향하는 경향을 보인다. ※ 회귀분석은 독립변수(원인)의 값에 대응하는 종속변수(결과)의 값을..
예제) 멀리뛰기 뛴 지점(마지노선에서 얼마나 떨어져 있는가/ avg_takgeoff) 이 짧아질수록 뛴 거리(best_jump)가 길 것이라고 기대한다. best_jump = c(5.30, 5.55, 5.47, 5.45, 5.07, 5.32, 6.15, 4.70, 5.22, 5.77, 5.12, 5.77, 6.22, 5.82, 5.15, 4.92, 5.20, 5.42) avg_takeoff = c(.09, .17, .19, .24, .16, .22, .09, .12, .09, .09, .13, .16, .03, .50, .13, .04, .07, .04) 임의의 값을 집어넣어 준다. plot(avg_takeoff, best_jump) jump_model = lm(best_jump~avg_takeoff) ..

R에서 기본적으로 제공하는 데이터는 결측치를 처리하는 등 전처리 과정이 길기 때문에 교수님께서 제공해주신 어느정도 전처리가 되어 있는 데이터로 실습을 진행하도록 한다. titanic = read.csv("titanic_clean.csv", header = TRUE, sep = ",") str(titanic) → 데이터 형식이 맞지 않는 것들을 다시 정비해준다. pclass : 1, 2, 3등석 → factor survived : 생존 / 사망 → factor sex : 여성 / 남성 → factor # data cleaning titanic$pclass=as.factor(titanic$pclass) titanic$survived=factor(titanic$survived, level..
오존, 일조량, 바람의 세기, 온도, 월, 일에 대한 정보를 담고 있는 데이터인 airquality에 대해서 다시한번 다뤄보려 한다. 오존의 양에 무슨 변수가 영향을 끼치는지 알아보기 위해 선형회귀모델을 제작해보도록 하자. [ 데이터 전처리 ] - 데이터에 결측치가 존재할까? → 존재한다면 주변 값들의 평균으로 대체하도록 한다. - 데이터의 값들의 범위, 크기가 제각기인데 가장 큰 값이 많이 반영되는 결과를 초래하지 않을까? → 모든 변수 값들을 정규화시켜 값 크기를 맞춰줘서 같은 영향력을 갖도록 해준다. ◎ 데이터 불러오기, 확인, 결측치 유무 확인 data("airquality") str(airquality) head(airquality) col1 = mapply(anyNA, airquality) *..
# 분산 분석 (Analysis Of Variance, 변량 분석) - 두개 이상 다수의 집단을 비교 ** 집단의 평균들이 멀리 떨어져 분산이 크면 클수록 집단간의 평균들은 서로 다르다. *** 집단 간 평균의 차이 *** 집단 내 평균의 차이 → 둘 모두를 고려해야 한다. 그 이유는 아래 - 경영학과 : 모든 분포 그래프가 겹치지 않기 때문에 차이가 있다고 말할 수 있다. ( + 그래프들이 모두 분포가 작다.) - 행정학과 : 그래프들이 겹치기 때문에 차이가 있다고 단정지을 수 없다. - 경제학과 : 그래프들이 겹치기 때문에 차이가 있다고 단정지을 수 없다. ** 고려대상 - 집단 간 평균의 차이 - 집단 내 평균의 차이 ** 집단 평균들 간의 분산이 크면 클수록, 집단 내 분산은 작으면 작을수록 → ..
[ 비율검정 - prop.test(), binom.test() ] # 모집단에서 표본을 추출하여 그 표본에서 계산한 비율로부터 모집단의 비율을 추정 및 가설 검정하는 기법 ex. 투표 출구조사 # Bernoulli Trial (베르누이 시행) # N번 수행하여 X번 성공한 경우 [ 실습: 일표본 이항 검정 (Binomal Test) ] # 두개의 데이터 사이에 차이가 있는지 검정한다. ex. 식사를 하기 전과 후 자사의 음료수 맛에 대한 평가가 같은지 조사. # 식사와 음료수 맛에 대한 평가의 관계 5점 만점, 높을수록 긍정적인 평가 A B C D E F G H I J 4 1 1 4 3 3 2 5 3 3 1 1 3 2 5 1 4 4 3 1 - 0 + - + - + 0 0 - 2행 : 식사 전 만족도 / ..
# 최면성 약물을 10명의 환자에게 투여했을 때 수면 시간의 증가를 기록한 데이터 # Extra : 수면시간 증가량 # Group : 그룹 ID # ID : 환자 ID Q1. 두개의 수면제는 다른 효과를 나타내는가? sleep2 = sleep[, -3] sleep2 tapply(sleep2$extra, sleep2$group, mean) # tapply : 그룹에 따라 평균 구하도록 함 var.test(extra~group, sleep2) 분산이 같은가? >> p-value가 0.05보다 크기 때문에 귀무가설을 채택한다. [ 분산이 같다. ] ** 데이터의 개수가 30개를 넘기 때문에 정규성 검증은 진행하지 않고 바로 t-test를 수행한다. t.test(extra~group, sleep2, paired..
[ 카이제곱 검정 - chisq.test() ] # 독립성 검정 : 두 명목 변수 사이에 관계가 있는지 확인 # 적합도 검정 : 관측 결과가 특정한 분포로부터의 관측값인지 검정 ex. 실험 결과가 이론과 일치하는가, 어긋나는가? # 동질성 검정 : 두 집단의 분포가 동일한지 검정 ex. 남, 여학생의 국,영,수 선호도가 같은가 다른가? - H0(귀무가설) : 두 명목변수는 독립이다. ( p > 0.05 ) - H1(대립가설) : 두 명목변수는 독립이 아니다. ( p < 0.05 ) library(MASS) data("survey") str(survey) SexExer = xtabs(~Sex+Exer, data=survey) chisq.test(SexExer) * df(자유도) : (2-1)*(3-1) =..