티스토리 뷰

정규성 가정과 등분산 가정을 충족하는 두 집단의 모평균 차이를 검정하는 데는 t분포를 이용한다.



이 때,  는 합동표준편차로서 합동분산(pooled variance)의 제곱근이다. 두 모집단이 등분산 가정을 충족한다면, 두 집단의 표본분산의 가중평균으로 합동분산을 구할 수 있다.

즉, 

이다. 등분산 검정에는 F검정 등이 이용되는데, 간략하게는 두 표본표준편차의 비율의 비율을 이용할 수도 있다. 즉,  가 성립하면 등분산 가정이 성립한다고 본다. 분모와 분자를 바꾼  의 경우도 같다. 왜냐하면, 좌변과 우변도 모두 역수가 되는데, 2분의1의 역수는 2, 2의 역수는 2분의 1이기 때문에 결과적으로 두 부등식은 차이가 없기 때문이다.




[예제1]

A학과 학생 30명의 영어 성적을 조사했더니 평균이 75.3점, 분산이 15.7점이고, B학과 학생 26명의 영어성적을 조사했더니 평균이 71.5점, 분산 23.2점이었다고 한다. A학과와 B학과 학생들의 영어성적에는 차이가 있는지를 유의수준 5%에서 검정하시오. (단, 두 집단은 정규분포를 따르고 등분산 가정을 만족한다)


① 가설을 설정한다. 우리는 두 학과 학생들의 영어 성적에 차이가 있는지를 알아보는 것이므로 주장하려는 가설 즉, 대립가설은 "두 학과 학생들의 영어 성적에는 차이가 존재한다"가 되고, 귀무가설(영가설)은 "두 학과 학생들의 영어 성적에는 차이가 없다"가 된다.


귀무가설

대립가설 

이 때, 

은 집단1(A학과)의 모평균이고,  는 집단2(B학과)의 모평균이다.



② 유의수준 


③ 검정통계량 


먼저, 합동표준편차를 구하면 다음과 같다.



그리고 검정통계량 

가 된다.


④ 검정통계량의 P-value를 계산한다. 이 문제의 경우에는 두 학과 성적에 차이가 존재하는지를 따져보는 것이므로 양측검정을 이용하게 된다. 이 문제의 P-value를 Excel를 이용해 구하는 식은 =(1-T.DIST(3.239,30+26-2,1))*2이므로, 약 0.002가 된다.


⑤ P-value < alpha이므로 귀무가설을 기각한다. 즉, 대립가설이 채택되어 두 학과의 영어 성적에는 차이가 존재한다고 할 수 있다.


이 문제를 R프로그램을 이용하면 다음과 같다. 이 문제에서는 표본집단의 평균과 분산만 제공될 뿐, 각 표본들의 구체적 점수는 알려져 있지 않다. 따라서 주어진 표본평균과 표본분산을 따르는 정규분포 난수를 생성시켜서 검정을 진행하므로, 우리가 앞서 얻은 결과와는 약간의 오차가 발생할 수 있다.


먼저, 각 집단을 생성시키자.


> A=rnorm(n=30,mean=75.3,sd=sqrt(15.7))

#[주] rnorm은 정규분포를 따르는 난수를 발생시키는 함수이다. rnorm(n,mean,sd)는 평균이 mean이고 표준편차가 sd인 정규분포를 따르는 난수 n개를 발생시킨다. 이때, sqrt는 제곱근을 구하는 함수인데, 문제에서 표준편차가 아니라 분산이 주어졌기 때문에 이용했다.


> B=rnorm(n=26,mean=71.5,sd=sqrt(23.2))


> A
 [1] 68.07977 74.98642 70.74024 77.25730 71.89295 75.50527 75.80927 79.85616
 [9] 69.53647 72.20985 75.66418 79.22517 77.88149 75.61858 77.60074 79.28150
[17] 78.99385 74.39338 73.84702 73.11579 72.88281 74.90493 73.37979 77.99951
[25] 76.12455 71.46169 79.85097 74.94917 70.54533 74.17197
> B
 [1] 61.69465 71.52868 69.89105 73.08859 71.09296 72.61294 66.28311 70.78759
 [9] 72.85717 73.91068 72.24928 71.95418 66.06384 72.05485 76.30777 61.44643
[17] 68.64223 73.70572 69.46021 63.28736 67.01413 69.67423 76.19429 78.70111
[25] 76.25222 67.33963


이제 정규성 검정을 해보자.


> shapiro.test(A)

        Shapiro-Wilk normality test

data:  A
W = 0.9729, p-value = 0.6212

# [주] shapiro.test는 정규성 검정을 해주는 함수이다. 보통 p-value가 0.05보다 크면 정규성 가정을 충족한다고 본다.


> shapiro.test(B)

        Shapiro-Wilk normality test

data:  B
W = 0.96649, p-value = 0.5349


두 집단 모두 정규성 가정을 충족한다. 정규분포를 따르는 난수를 발생시킨 것이므로 당연하다.

다음으로는 등분산 검정을 해보자.


> var.test(A,B)

        F test to compare two variances

data:  A and B
F = 0.50925, num df = 29, denom df = 25, p-value = 0.08186
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2325222 1.0907664
sample estimates:
ratio of variances
         0.5092543


# [주] var.test(A,B)는 A와 B가 분산이 같은지를 검정 해주는 함수이다. 보통 p-value가 0.05보다 크면 등분산 가정을 충족한다고 본다.


정규성 가정과 등분산 가정이 충족됨을 알 수 있다. 이제 두 집단의 모평균 차이가 존재하는지를 검정하자.



> t.test(A,B,alter="two.sided",var.equal=T)


        Two Sample t-test

data:  A and B
t = 4.3021, df = 54, p-value = 7.148e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 2.340630 6.426221
sample estimates:
mean of x mean of y
 74.92554  70.54211


# [주] t.test는 t검정을 수행해주는 함수이다. 집단1에는 X를, 집단2에는 Y를 배정하고, 두 집단의 모평균 차이가 존재하는지를 등분산(var.equal=T), 양측검정(alter="two.sided")으로 검정하라는 의미이다. 만약 분산이 같지 않다면 var.equal=T 옵션을 var.equal=F로 바꿔줘야 한다. 또, 좌측검정의 경우에는 alter="two.sided" 옵션을 alter="less"로 바꿔줘야 하며, 우측검정의 경우에는 alter="two.sided" 옵션을 alter="great"으로 바꿔주어야 한다. 그 밖에도 paired=T 옵션을 추가해서 쌍체검정을 진행할 수도 있으며, 한 집단의 모평균이 얼마인가를 검정하기 위해 mu 옵션을 이용할 수도 있다. 


R에서 임의 난수를 발생시킨 것이기 때문에 실제로 구한 검정통계량과 p-value와는 다소 차이가 있다. 그러나 역시 p-value가 0.05보다 작으므로 대립가설을 채택할 수 있다.


[예제2]


A 핸드폰 12대의 배터리 시간을 조사해보았더니 평균이 6.8시간이고 분산이 0.8시간이고, B 핸드폰 10대의 배터리 시간은 평균이 7.6시간이고 분산이 1.4시간이었다고 한다. B핸드폰의 배터리가 A핸드폰보다 오래간다고 할 수 있는지를 유의수준 0.01에서 검정하시오. (단, 두 집단은 정규분포를 따르고 등분산 가정을 만족한다.)


① 가설을 설정한다. 대립가설은 "B핸드폰의 배터리가 A핸드폰의 배터리보다 길다"가 되고, 귀무가설(영가설)은 "두 핸드폰의 배터리 시간에는 차이가 없다"가 된다.


귀무가설

대립가설 

이 때, 

은 집단1(A핸드폰)의 모평균이고,  는 집단2(B핸드폰)의 모평균이다.



② 유의수준 



③ 검정통계량 


먼저, 합동표준편차를 구하면 다음과 같다.



그리고 검정통계량 

가 된다.


④ 검정통계량의 P-value를 계산한다. 이 문제의 경우에는 좌측 단측검정을 이용하게 된다. 이 문제의 P-value는 간단히 Excel를 이용하면, =T.DIST(-1.806,12+10-2,1)이므로, 약 0.043이 된다.


⑤ P-value > alpha이므로 귀무가설을 채택한다. 즉, 두 제품의 배터리 시간에는 차이가 있다고 할 수 없다. 그러나 유의수준을 0.05로 조정하게 되면, P-value < alpha이므로 대립가설을 채택할 수 있다.


이 문제를 R프로그램을 이용하면 다음과 같다. 이 문제에서는 표본집단의 평균과 분산만 제공될 뿐, 각 표본들의 점수는 알려져 있지 않다. 따라서 주어진 표본평균과 표본분산을 따르는 정규분포 난수를 생성시켜서 검정을 진행하므로 약간의 오차가 발생할 수 있다.


먼저, 각 집단을 생성시키자.


> A=rnorm(n=12,mean=6.8,sd=sqrt(0.8))
> B=rnorm(n=10,mean=7.6,sd=sqrt(1.4))
> A
 [1] 6.925320 5.410574 7.208928 5.794093 6.263063 6.745795 5.201044 6.567503 7.416668
[10] 5.609889 7.207124 6.333187
> B
 [1] 8.373093 7.366657 7.165450 7.553162 8.867077 7.132942 8.818680 6.657073 7.332144
[10] 6.853865


정규성 가정과 등분산 가정은 충족되며 자세한 것은 생략한다. 이제 B집단의 모평균이 더 큰지를 검정해보자.


> t.test(A,B,alter="less",var.equal=T)

        Two Sample t-test

data:  A and B
t = -3.7052, df = 20, p-value = 7e-04
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
       -Inf -0.6530461
sample estimates:
mean of x mean of y
 6.390266  7.612015 


p-value가 7e-04로 나왔다. 컴퓨터에서 을 뜻한다. 그러니까, 7e-04는 7*(10^-4) 즉, 7*(0.0001) = 0.0007이다. 매우 작은 값이므로 유의수준 0.01에서도 귀무가설을 기각할 수 있는 수치이다. 반대로 

을 뜻한다. 예컨대, 7e+04 = 7*(10^4) = 700000을 의미한다.


[예제3]

2007~2017년 서울의 1월 평균 기온은 -2.527도, 표준편차가 4.327도이고, 인천의 1월 평균 기온은 -1.797도, 표준편차가 4.025도였다고 한다. 서울의 1월 평균 기온이 인천의 1월 평균 기온보다 낮은지를 유의수준 3%에서 검정하시오. (단, 2007~2017년 1월은 총 341일이다)


① 가설을 설정한다. 대립가설은 "서울의 1월 평균 기온은 인천의 1월 평균 기온보다 낮다"가 되고, 귀무가설(영가설) 차이가 없다는 것이 된다.


귀무가설

대립가설 

이 때,  은 서울의 1월 평균기온,  는 인천의 1월 평균기온이다.



② 유의수준 



③ 검정통계량 


먼저, 합동표준편차를 구하면 다음과 같다.



그리고 검정통계량 

가 된다.


④ 검정통계량의 P-value를 계산한다. 이 문제의 경우에는 좌측 단측검정을 이용하게 된다. 이 문제의 P-value을 구하면 약 0.01이 된다.


⑤ P-value < alpha이므로 대립가설을 채택한다. 즉, 서울의 1월 평균 기온이 인천의 1월 평균 기온보다 낮다고 할 수 있다.


'통계송신소' 카테고리의 다른 글

두 모비율의 차이 검정  (0) 2018.01.10
모비율의 추정  (0) 2017.12.29
모비율을 추정할 때 필요한 표본크기 구하기  (0) 2017.12.29
댓글
최근에 올라온 글
최근에 달린 댓글
알림
본 블로그는 해상도 1536×864와 엣지에서 최적화 되어있습니다.
Since 2008.09.15.
Total
Today
Yesterday