본문 바로가기

Industry 4.0/Artificial Intelligen

카이스퀘어(Chi-square) 검정방법

728x90
반응형

■ 카이스퀘어 검정이란?

모집단의 변량을 추정할때 쓴다 ( 변량 : 주어진 값에 따라 변화하는 양 )

1. 독립성 검정 : 두 변수는 서로 연관성이 있는가? 없는가?
2. 적합성 검정 : 실제 표본이 내가 생각하는 분포와 같은가? 다른가?
3. 동일성 검정 : 두 집단의 분포가 동일한가? 다른 분포인가?

위 세가지 검정은 모두 동일한 방법으로 검정합니다

일반적인 카이스퀘어 검정의 순서
   1) 각 법주에 대한 기대값을 구한다
   2) 범주별 카이스퀘어 구하기
      - 관측값과 기대값의 차이 구한다. ( 관측값 - 기대값 )
      - (관측값 - 기대값) 을 제곱하여 기대값으로 나누면 각 범주의 카이스퀘어 값이 된다
   3) 이 값을 합하여 전체의 카이스퀘어 값을 구한다
   4) 카이스퀘어의 자유도를 구한다.

카이스퀘어 분포
모집단의 변량을 추정하기 위해 쓰는 분포이다. 카이스퀘어 분포는 일반적으로 다음과 같은 특징을 보인다.

  1. y-scewed (y축에 편향된) 분포이다.
  2. square 즉, 제곱이므로 음수가 없다.
  3. 자유도가 증가할 수록 정규분포에 수렴한다.

카이스퀘어 분포

검정색 선은 자유도(df, degree of freedom)가 2일 때, 파란색 선은 df=10, 빨간선은 df=20일 때이다.

※자유도
자유도는 y=ax+b a(기울기)처럼 그래프의 형태에 영향을 미치는 수치이다.

카이제곱 분포표

확률 P에 해당하는 가로축의 눈금 x2의 수치를 기록한 표이다. 아래 사진에서 회색으로 칠해진 부분이 확률 P에 해당한다면 2는 여기에 대응하는 카이제곱 값에 해당한다.

분포표 보는 법

row는 자유도에 해당하고, column은 P 값에 해당한다. df와 p에 해당하는 카이스퀘어값과 실제로 구한 카이스퀘어 값을 비교해서, 실제 카이스퀘어 값이 분포표 값보다 더 크면 귀무가설(Null 가설)을 기각한다.

카이스퀘어 검정 종류 2가지

  1. goodness of fit (단일 변인의 경우)
  2. contingency table analysis

goodness of fit은 두 데이터의 모델을 비교할 때 사용한다. 즉, 내가 추정한 데이터의 모델과 모집단의 모델이 비슷한지 확인할 때 쓴다.

예를 들어, 동전을 던지는 100번 던지는 시행을 한다고 할 때 앞면이 나오는 빈도를 카운트한다. 이때, 우리가 기대하는 빈도(기대 빈도)는 50번이다. 실제 던졌을 때 앞면이 나온 횟수가 30번 이라면, 이 30번은 관찰 빈도가 된다.



 



다음은 흡연량과 음주량 사이에 연관성이 있는가 하는 독립성 검정 문제입니다

  1갑 이상 1갑 이하 안피움
반병 이상 23 21 63 107
반병 이하 31 48 159 238
못 마심 13 23 119 155
67 92 341 500

귀무가설은 "흡연과 주량은 연관성이 없으므로 독립적이다" 입니다
대립가설은 "흡연과 주량은 연관성이 있으므로 독립적이 아니다" 입니다.

(1) 범주별 기대값 구하기
  기대값은 어떻게 계산하는 것이 좋을까요? 빨간 23에 해당하는 범주의 기대값을 구해 봅시다.
전체 대상 500명 중 1갑 이상의 담배를 피우는 사람의 수는 67 명입니다.
또한 반병 이상의 술을 마시는 사람의 수는 107명 입니다.
이 범주는 500명 중 67명에 해당되며, 500명 중 107명에 공통으로 해당됩니다
이러한 일이 일어날 확률을 그대로 계산하면

입니다.
이것이 기대값은 아니고 총계가 1일 때의 값인 확률입니다
여기에 500을 곱해야 기대값이 나오겠죠? 그러면 기대값은 14.338 이 나옵니다

해당 범주에 해당하는 소계를 서로 곱하고 여기에 총계를 한번 나눈 것과 같습니다.
67(1갑 이상의 계) * 107(반병이상의 계) 500(총계) = 14.338

2) 범주별 카이스퀘어값 구하기
기본적인 카이스퀘어 값의 의미는 관측값이 기대값에서 얼마나 멀리 떨어져 있는가 입니다
기대값에서 떨어진 정도는 ( 관측값 - 기대값 ) 으로 구할 수 있습니다.
이것을 제곱하면 ( 관측값 - 기대값 ) ^ 2 가 됩니다
그런데 기대값이 큰 값이라면 크게 나오고 작은 값이라면 작게 나올 수 있습니다
그래서 기대값에 대해 얼마나 크게 벗어난 것인지 작게 벗어난 것인지를 파악하기 위해
기대값으로 나누어 줍니다

 이것을 식으로 표시하면 다음과 같습니다

이 식은 무조건 외워야 됩니다
위 식을 바탕으로 아래의 카이스퀘어를 범주별로 구할 수 있습니다.

  1갑 이상 1갑 이하 안피움
반병이상 23 21 63 107
기대값 14.34 19.69 72.97  
관측 - 기대 8.66 1.31 -9.97  
제곱 75.03 1.72 99.48  
카이스퀘어 5.23 0.09 1.36  
반병이하 31 48 159 238
기대값 31.89 43.79 162.32  
관측 - 기대 -0.89 4.21 -3.32  
제곱 0.80 17.71 11.00  
카이스퀘어 0.02 0.40 0.07  
못마심 13 23 119 155
기대값 20.8 28.5 105.7  
관측 - 기대 -7.8 -5.5 13.3  
제곱 60.4 30.5 176.6  
카이스퀘어 2.9 1.1 1.7  
67 92 341 500

 

3) 전체 카이스퀘어 값 합하기
 카이스퀘어 값을 합하면, 12.87 입니다
( = 5.23+0.09+1.36+0.02+0.4+0.07+2.9+1.1+1.7)

4) 카이스퀘어의 자유도 구하기
자유도는 자유롭게 움직일 수 있는 변수의 개수 입니다
예) A + B = 10 
이 식에서 A가 3이면 B는 반드시 7이어야 합니다
즉 A가 정해지면, B도 함께 정해집니다.  A가 자유를 가지면, B는 여기에서 자유롭지 못하다는 말입니다

따라서 이 식에서 자유롭게 움직일 수 있는 변수의 수는 1개 입니다

이러한 원리를 이용해서 자유도를 구하면
흡연의 자유도는 1갑 이상, 1갑 이하, 안피움이 있습니다
 이것으로 식을 만들면

1갑 이상 피우는 사람 수 + 1갑 이하 피우는 사람 수 + 안피우는 사람 수 = 500 명
따라서 자유도는 2 입니다

마찬가지 방법으로 쥬량의 자유도는 2 ( 반병이상, 반병이하, 안마심 ) 입니다

자유도는 변수에 속한 집단의 수 - 1 

카이스퀘어 검정을 위한 자유도는 이 두 자유도를 곱해서 구합니다 ( 2 * 2 = 4 )

5) 검정결과 도출
구글링 해보면 카이제곱분포표가 많이 있습니다
엑셀에도 계산해주는 함수가 있습니다

이를 기준으로 유의수준 5% 의 카이스퀘어 값은 X^2(4, 0.05) = 9.488 입니다
이 케이스에서 카이스퀘어 값은 12.87 였으므로

12.87 > 9.49 로 귀무가설을 기각 할 수 있습니다.

따라서, 음주량과 흡연량을 독립적이지 않음(연관성이 있음) 을 알 수 있습니다

 

 

 

goodness of fit 예제

맥주 브랜드와 구매량을 보자. 표본 100개 중, 맥주 4개 브랜드가 있다. 기대빈도는 각각 25가 되며(기대빈도에 대한 특별한 언급이 없는 이상), 자유도는 cell - 1이 된다. 이때 주의할 것, 카이제곱에서 자유도는 표본의 크기에서 1을 빼는 게 아니라 cell의 개수에서 1을 빼는 것이다. cell은 변인에 속하는 범주들의 개수라고 생각하면 된다. 맥주 브랜드라는 변인에 4개의 브랜드가 있으니 4-1, 즉 자유도는 3이다.



contingency table 예제

자존감이 일의 성취도에 영향을 미친다는 것을 알아본다.

 

 

 

 

 

 

728x90
반응형

'Industry 4.0 > Artificial Intelligen' 카테고리의 다른 글

인공지능의 방식  (0) 2020.08.18
Reinforcement Learning  (0) 2020.05.30
Unsupervised Learning  (0) 2020.05.30
Supervised Learning  (0) 2020.05.30