일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 인공지능
- iNT
- 크롤링
- numpy
- Word Cloud
- Udemy
- 형태소분석기
- 데이터분석
- 시각화
- pyspark
- Okt
- 파이썬
- Python
- 태블로
- pandas
- scikit-learn
- konlpy
- 데이터 분석
- selenium
- 데이터
- 머신러닝
- Tableau
- SQL
- input
- ionehotencoding
- Today
- Total
반전공자
R - 비율검정 본문
[ 비율검정 - prop.test(), binom.test() ]
# 모집단에서 표본을 추출하여 그 표본에서 계산한 비율로부터 모집단의 비율을 추정 및 가설 검정하는 기법 ex. 투표 출구조사
# Bernoulli Trial (베르누이 시행)
# N번 수행하여 X번 성공한 경우
[ 실습: 일표본 이항 검정 (Binomal Test) ]
# 두개의 데이터 사이에 차이가 있는지 검정한다.
ex. 식사를 하기 전과 후 자사의 음료수 맛에 대한 평가가 같은지 조사.
# 식사와 음료수 맛에 대한 평가의 관계
5점 만점, 높을수록 긍정적인 평가
A | B | C | D | E | F | G | H | I | J |
4 | 1 | 1 | 4 | 3 | 3 | 2 | 5 | 3 | 3 |
1 | 1 | 3 | 2 | 5 | 1 | 4 | 4 | 3 | 1 |
- | 0 | + | - | + | - | + | 0 | 0 | - |
2행 : 식사 전 만족도 / 3행 : 식사 후 만족도 / 4행 전=후
< 분석 >
x = c(4, 1, 1, 4, 3, 3, 2, 5, 3, 3)
y = c(1, 1, 3, 2, 5, 1, 4 ,4, 3, 1)
binom.test(c(length(x[x>y]), length(x[x<y])))
# length(x[x>y] - success
# length(x[x<y] - failure
>> p-value가 0.05보다 크기 때문에 귀무가설을 채택한다.
[ 유의미한 차이가 없다. ]
= 음료수의 맛은 식사 전 후 차이가 없다.
[ 실습: 일표본 비율 검정 ]
# 동전을 100번 던졌더니 앞면이 42번 나왔다. 이때 동전의 앞면이 나오는 비율이 50%가 아니라고 할 수 있나?
prop.test(42, 100)
# 0.5는 디폴트 설정.
>> p-value가 0.05보다 크기 때문에 귀무가설을 채택한다.
[ 50%가 맞다. ]
* 신뢰구간 95%일 때, 0.32 ~ 9.52 사이에 0.5가 포함되어 있다.
[ 실습 : 이표본 비율 검정 ]
# 두 집단에서 표본을 추출해 표본의 비율을 보고 모집단에서의 비율을 비교하는 경우
ex. 남 여의 흡연율에 차이가 있는지 알아보기 위해 각 100명의 흡연율 계산 후 차이가 있는지 가설 검정
Q. 두개의 동전을 각각 100회, 90회 던졌을 때 앞면이 45회, 55회 나왔다. 두 동전의 앞면이 나올 확률이 같은가?
prop.test(c(45, 55), c(100,90))
앞면이 나온 횟수를 c(45, 55)로 묶어서 넣고, 던진 횟수를 그 뒤에 c(100,90)으로 넣는다.
>> p-value가 0.05보다 작기 때문에 대립가설을 채택한다.
[ 두 동전의 앞면이 나올 확률은 서로 다르다. ]
*** 95% 신뢰구간 -0.31 ~ -0.01 사이에 0.5가 존재하지 않기 때문에 대립가설을 채택한다.
'데이터분석 > R' 카테고리의 다른 글
R # airquality - 선형회귀모델 (0) | 2021.05.27 |
---|---|
R - ANOVA(아노바) / PlantGrowth (ANOVA, Tukey HSD) (0) | 2021.05.23 |
R - [ 실습: 수면제 효과도 분석 ]: sleep 데이터 활용 (0) | 2021.05.13 |
R - 분석방법 (카이제곱, 피셔검정, KS검정, Shapiro 검정, t-test) (0) | 2021.05.12 |
R - 난수, 분포함수 (0) | 2021.05.12 |