오늘은 뭘 올릴까..
내일이 통계수업 시험이니까 통계 해볼게요
오늘 본 유튜브 영상 요약정리
영상은 이겁니다
먼저 카이제곱검정은 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검증하는 통계검정방법이다.
주로 범주형 자료로 구성된 데이터를 분석하는데에 이용된다.
두 범주형 변수가 서로 상관이 있는지 없는지를 아는 것이 핵심이다.
한 사람이 식당을 매입하기 위해 주인에게 가서 손님의 분포가 어떻게 되냐고 물었다.
그러자 식당 주인은 다음과 같은 기록을 보여주었다.
요일 | 월 | 화 | 수 | 목 | 금 | 토 |
expected % | 10 | 10 | 15 | 20 | 30 | 15 |
(일요일은 휴무)
그러자 그 사람은 믿을 수 없다며 직접 일주일간 방문한 손님의 수를 관찰했다.
요일 | 월 | 화 | 수 | 목 | 금 | 토 |
expected % | 10 | 10 | 15 | 20 | 30 | 15 |
observed | 30 | 14 | 34 | 45 | 57 | 20 |
귀무가설은 식당 주인의 말이 옳다.
대립가설은 식당 주인의 말이 옳지 않다.
또한 유의수준은 5%를 사용하려 한다.
주인이 관찰한 손님 분포를 %가 아닌 사람수로 변환해본다면 다음과 같다
요일 | 월 | 화 | 수 | 목 | 금 | 토 |
expected % | 10 | 10 | 15 | 20 | 30 | 15 |
observed | 30 | 14 | 34 | 45 | 57 | 20 |
expected | 20 | 20 | 30 | 40 | 60 | 30 |
이제 chi-square statistic 카이제곱 통계량을 계산해보겠습니다.
계산법은 각 요일의 기댓값과 실제 변량 사이의 오차를 제곱하고 그리고 기댓값으로 나눕니다.
이것을 각각 계산한 뒤 모두 더합니다.
식 = (30-20)²/20 + (14-20)²/20 + (34-30)²/20 + (45-40)²/40 + (57-60)²/60 + (20-30)²/30 = 11.44
이 값(11.44)이 임계점의 카이제곱값보다 더 극값이면 귀무가설을 기각한다.
또한 자유도도 구해야하는데 통계학에서 자유도란 통계적 추정을 할 때 표본 자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값의 자유도는 n-1이다. 따라서 이 경우의 자유도는 6-1 = 5 이다.
유의수준 0.05 , 자유도 5 이므로 해당하는 임계값을 찾아보면 11.07이라는 것을 알 수 있다.
적어도 11.07 이상의 극값을 얻는 확률이 5%라는 의미이다.
주어진 통계량으로 구한 결과는 그것보다 훨씬 가능성이 적다.
확률이 유의수준보다 낮으므로 기각한다.
11.44는 임계점의 카이제곱값보다 더 극값이므로 이 분포가 사실일 가능성은 아주 적다
따라서 주인의 말은 기각