일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Udemy
- input
- iNT
- pandas
- 데이터 분석
- Word Cloud
- pyspark
- ionehotencoding
- Okt
- scikit-learn
- 파이썬
- 태블로
- numpy
- 형태소분석기
- 데이터분석
- selenium
- 데이터
- 인공지능
- SQL
- Python
- 머신러닝
- konlpy
- 크롤링
- Tableau
- 시각화
- Today
- Total
목록전체 글 (134)
반전공자
Object의 타입 확인 - class() class(0.8) ans = double class(1) ans = double class(true) ans = logical class("a") ans = char 옥타브에서는 배열이 아닌, 행렬(matrix) 개념을 사용한다. 인덱스는 1부터 시작함. a = [1 2 3 4 5 6 7 8 9 10] a = 1 2 3 4 5 6 7 8 9 10 >> a(1) ans = 1 >> a(10) ans = 10 2차원 행렬 만들기 >> b = [1 2 3 ; 4 5 6] b = 1 2 3 4 5 6 >> a(1,2) ans = 2 >> b(2,3) ans = 6 >> b(:,3) ans = 3 6 0, 1로 초기화 되어있는 행렬 생성 >> ones(3:3) ans ..
오존, 일조량, 바람의 세기, 온도, 월, 일에 대한 정보를 담고 있는 데이터인 airquality에 대해서 다시한번 다뤄보려 한다. 오존의 양에 무슨 변수가 영향을 끼치는지 알아보기 위해 선형회귀모델을 제작해보도록 하자. [ 데이터 전처리 ] - 데이터에 결측치가 존재할까? → 존재한다면 주변 값들의 평균으로 대체하도록 한다. - 데이터의 값들의 범위, 크기가 제각기인데 가장 큰 값이 많이 반영되는 결과를 초래하지 않을까? → 모든 변수 값들을 정규화시켜 값 크기를 맞춰줘서 같은 영향력을 갖도록 해준다. ◎ 데이터 불러오기, 확인, 결측치 유무 확인 data("airquality") str(airquality) head(airquality) col1 = mapply(anyNA, airquality) *..
# 분산 분석 (Analysis Of Variance, 변량 분석) - 두개 이상 다수의 집단을 비교 ** 집단의 평균들이 멀리 떨어져 분산이 크면 클수록 집단간의 평균들은 서로 다르다. *** 집단 간 평균의 차이 *** 집단 내 평균의 차이 → 둘 모두를 고려해야 한다. 그 이유는 아래 - 경영학과 : 모든 분포 그래프가 겹치지 않기 때문에 차이가 있다고 말할 수 있다. ( + 그래프들이 모두 분포가 작다.) - 행정학과 : 그래프들이 겹치기 때문에 차이가 있다고 단정지을 수 없다. - 경제학과 : 그래프들이 겹치기 때문에 차이가 있다고 단정지을 수 없다. ** 고려대상 - 집단 간 평균의 차이 - 집단 내 평균의 차이 ** 집단 평균들 간의 분산이 크면 클수록, 집단 내 분산은 작으면 작을수록 → ..
[ 비율검정 - prop.test(), binom.test() ] # 모집단에서 표본을 추출하여 그 표본에서 계산한 비율로부터 모집단의 비율을 추정 및 가설 검정하는 기법 ex. 투표 출구조사 # Bernoulli Trial (베르누이 시행) # N번 수행하여 X번 성공한 경우 [ 실습: 일표본 이항 검정 (Binomal Test) ] # 두개의 데이터 사이에 차이가 있는지 검정한다. ex. 식사를 하기 전과 후 자사의 음료수 맛에 대한 평가가 같은지 조사. # 식사와 음료수 맛에 대한 평가의 관계 5점 만점, 높을수록 긍정적인 평가 A B C D E F G H I J 4 1 1 4 3 3 2 5 3 3 1 1 3 2 5 1 4 4 3 1 - 0 + - + - + 0 0 - 2행 : 식사 전 만족도 / ..
# 최면성 약물을 10명의 환자에게 투여했을 때 수면 시간의 증가를 기록한 데이터 # Extra : 수면시간 증가량 # Group : 그룹 ID # ID : 환자 ID Q1. 두개의 수면제는 다른 효과를 나타내는가? sleep2 = sleep[, -3] sleep2 tapply(sleep2$extra, sleep2$group, mean) # tapply : 그룹에 따라 평균 구하도록 함 var.test(extra~group, sleep2) 분산이 같은가? >> p-value가 0.05보다 크기 때문에 귀무가설을 채택한다. [ 분산이 같다. ] ** 데이터의 개수가 30개를 넘기 때문에 정규성 검증은 진행하지 않고 바로 t-test를 수행한다. t.test(extra~group, sleep2, paired..
[ 카이제곱 검정 - chisq.test() ] # 독립성 검정 : 두 명목 변수 사이에 관계가 있는지 확인 # 적합도 검정 : 관측 결과가 특정한 분포로부터의 관측값인지 검정 ex. 실험 결과가 이론과 일치하는가, 어긋나는가? # 동질성 검정 : 두 집단의 분포가 동일한지 검정 ex. 남, 여학생의 국,영,수 선호도가 같은가 다른가? - H0(귀무가설) : 두 명목변수는 독립이다. ( p > 0.05 ) - H1(대립가설) : 두 명목변수는 독립이 아니다. ( p < 0.05 ) library(MASS) data("survey") str(survey) SexExer = xtabs(~Sex+Exer, data=survey) chisq.test(SexExer) * df(자유도) : (2-1)*(3-1) =..
# 평균 0, 표준편차 10인 정규분포로부터 난수 100개를 생성 rnorm(100,0,10) # 많은 수의 난수 생성 후 밀도 그림 그리면 데이터 분포 파악 가능 plot(density(rnorm(100000,0,10))) pnorm(0) [1] 0.5 qnorm(0.5) [1] 0 [ 확률 밀도 함수 활용 ] 12세 미만인 어린이가 보통 하루에 마시는 물 양의 평균이 7.5, 표준편차가 1.5인 정규분포를 따른다 가정, (1) 어린이가 4리터 이하의 물을 마실 확률? x = seq(0,16, length=100) y = dnorm(x, mean=7.5, sd=1.5) plot(x,y,type="l", xlab="Liters per day", ylab="Density", main="Liters of w..
한글 영화평 데이터를 어근만 추출하여 기존의 데이터로 테스트 하였을 때 몇 퍼센트의 정답률을 낼 수 있는가에 대한 실습입니다. import konlpy import pandas as pd import numpy as np df_train = pd.read_csv('ratings_train.txt', delimiter = '\t', keep_default_na = False) df_test = pd.read_csv('ratings_test.txt', delimiter = '\t', keep_default_na = False) print(df_train.head(n=5), '\n') print(df_test.head(n=5)) 한글 영화평 데이터를 불러온다. text_train = df_train['docu..
welfare% summarise(mean_income=mean(income)) ggplot(dataw, aes(x=age_group, y=mean_income))+geom_col() middle(30~60) 그룹의 수입이 가장 많다. young(30 under) 그룹의 수입이 가장 적다. # 지역 코드 별 지역이름 지정하기 welfare$code_region[welfare$code_region== 1]
# 기온이 가장 높은 날 - 8/28 airquality %>% select(Temp, Month, Day) %>% arrange(desc(Temp)) %>% head(1) # 6월에 발생한 가장 강한 바람 - 20.7 airquality %>% filter(Month==6) %>% select(Wind, Month, Day) %>% arrange(desc(Wind)) %>% head(1) # 7월달의 평균 기온 - 83.9 airquality %>% filter(Month==7) %>% select(Temp, Month) %>% group_by(Month) %>% summarise(mean_temp = mean(Temp)) # 오존의 농도가 100을 넘는 날은 며칠이나 될까 - 7일 airquality..