카테고리 없음

Pearson's Chi-Squared test

아리22 2023. 4. 21. 20:14

오늘은 뭘 올릴까.. 

내일이 통계수업 시험이니까 통계 해볼게요 

 

오늘 본 유튜브 영상 요약정리 

영상은 이겁니다 

https://youtu.be/2QeDRsxSF9M

 

먼저 카이제곱검정은 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검증하는 통계검정방법이다. 

주로 범주형 자료로 구성된 데이터를 분석하는데에 이용된다. 

두 범주형 변수가 서로 상관이 있는지 없는지를 아는 것이 핵심이다. 

 

한 사람이 식당을 매입하기 위해 주인에게 가서 손님의 분포가 어떻게 되냐고 물었다. 

그러자 식당 주인은 다음과 같은 기록을 보여주었다. 

요일
expected % 10 10 15 20 30 15

(일요일은 휴무)

 

 

그러자 그 사람은 믿을 수 없다며 직접 일주일간 방문한 손님의 수를 관찰했다. 

요일
expected % 10 10 15 20 30 15
observed  30 14 34 45 57 20

 

귀무가설은 식당 주인의 말이 옳다. 

대립가설은 식당 주인의 말이 옳지 않다. 

또한 유의수준은 5%를 사용하려 한다. 

 

 

주인이 관찰한 손님 분포를 %가 아닌 사람수로 변환해본다면 다음과 같다 

요일
expected % 10 10 15 20 30 15
observed  30 14 34 45 57 20
expected 20 20 30 40 60 30

 

이제 chi-square statistic 카이제곱 통계량을 계산해보겠습니다. 

계산법은 각 요일의 기댓값과 실제 변량 사이의 오차를 제곱하고 그리고 기댓값으로 나눕니다.

이것을 각각 계산한 뒤 모두 더합니다. 

 

식 = (30-20)²/20 + (14-20)²/20 + (34-30)²/20 + (45-40)²/40 + (57-60)²/60 + (20-30)²/30  = 11.44

 

이 값(11.44)이 임계점의 카이제곱값보다 더 극값이면 귀무가설을 기각한다. 

 

또한 자유도도 구해야하는데 통계학에서 자유도란 통계적 추정을 할 때 표본 자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값의 자유도는 n-1이다. 따라서 이 경우의 자유도는 6-1 = 5 이다. 

 

유의수준 0.05 , 자유도 5 이므로 해당하는 임계값을 찾아보면 11.07이라는 것을 알 수 있다. 

 

적어도 11.07 이상의 극값을 얻는 확률이 5%라는 의미이다. 

주어진 통계량으로 구한 결과는 그것보다 훨씬 가능성이 적다. 

확률이 유의수준보다 낮으므로 기각한다. 

 

11.44는 임계점의 카이제곱값보다 더 극값이므로 이 분포가 사실일 가능성은 아주 적다 

따라서 주인의 말은 기각