본문 바로가기

Radiant

이표본 가설검정 (Two sample hypothesis test)

일표본 가설검정에 이어서 이표본 가설검정을 보도록 하겠다.

 

두 집단의 모평균 비교 : basics -> compare means

두 집단의 모비율 비교 : basics -> compare proportions

 

1. 모평균 비교 (basics -> compare means)

모평균 비교는 단일검정과 마찬가지로 모표준편차를 알 때는 z 분포를, 모를 때는 t 분포를 사용해야 하지만, Radiant 에서는 t 분포를 가정하고 사용하니 조심하자.

 

대체로 일표본 평균비교와 비슷하지만, Sample type 의 선택사항이 추가되었다. 

 

우리는 sample type 만 보도록 하자. 표본끼리 독립인지 아닌지를 체크해주면 된다. 이 가정에 따라 표준편차를 계산하는 방법이 달라진다. 또한 독립인 경우, 표본크기(n)가 같을 필요가 없다

- sample type: independent (독립) / paired (대응비교) 선택

 

오른쪽에 결과를 보면 각 샘플에 대한 통계값이 나오고 귀무가설, 차이, p-value 등의 값이 나온다.

각 값의 의미를 알고 싶다면 단일표본 가설검정 포스팅을 확인하자.

2022.04.15 - [Radiant] - 단일표본 가설검정 (One sample hypothesis test)

 

또 'Show additional statistics' 를 선택하면 오른쪽에서 t값, 자유도와 신뢰구간을 추가적으로 볼 수 있다.

- 여기서 t.value = diff / se 로 계산된다.

- 신뢰구간이 '0'을 포함하지 않으므로 귀무가설을 기각할 수 있다.

 

이 경우에서는 p-value = 0.003 이므로 귀무가설을 기각할 수 있다.

이런 사실은 Plot 에서도 확인할 수 있다.

 

Summary 옆에 Plot 탭을 클릭하면 여러가지 그래프를 볼 수 있다.

- Scatter plot 에서 파란선은 평균을 나타낸다

이 중에서도 Bar plot 을 확인해보면, 아래와 같이 선이 그려져 있는 것을 볼 수 있다.

 

그래프에서 보이는 선의 의미는 다음과 같다.

 

형광 부분(검정선) = 신뢰구간 CI

빨강 부분(파란선) = 표준오차 se

 

여기에서 신뢰구간의 범위가 서로 겹치지 않는데, 이것으로 두 집단의 평균이 다르다고 할 수 있다.

 

p-value 로 귀무가설을 기각했던 것과 같은 결론이 나옴을 알 수 있다.

 

 

 

2. 모비율 비교 (basics -> compare proportions)

 

 

먼저 왼쪽에 나오는 옵션들부터 설명하자면, 

 

- Select a grouping variable : 변수를 어떤 그룹으로 나눌 것인지

- Variable : 내가 궁금한 변수 (검정하고자 하는 값)

- Choose level : p, 즉 비율을 어떤 수준 기준으로 계산할 것인지

- Choose combinations : 어떤 그룹을 비교, 검정할 것인지

- Alternative hypothesis : 양측검정, 단측검정 선택

- Show additional statistics : 추가 통계값 보여줌

  - 이 경우, 2.5%, 97.5% 는 diff (p1-p2) 의 95% 신뢰구간을 나타낸다고 할 수 있으며 여기서 CI 가 0을 포함하지 않으므로 귀무가설을 기각할 수 있다.

- Multiple comp.adjustment : Bonferroni 는 그룹 비교하는 경우의 수가 많을 때 선택

 

오른쪽 결과값에 나오는 값 중 모평균과 겹치지 않는 변수들을 설명하자면, 

- pclass: 각 그룹

- p: 'choose level' 에서 선택한 수준의 비율

 

모평균의 비교와 마찬가지로, Plot 을 확인해서 신뢰구간과 표준오차를 시각적으로 확인할 수 있다.