If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

모비율을 비교하는 가설검정

계속해서 선거 예제를 통해 모비율을 비교하는 가설검정을 해 봅시다. 만든 이: 살만 칸 선생님

동영상 대본

전에 동영상들에서 투표를 할 것으로 예상되는 남성의 비율과 여성의 비율에 의미 있는 차이가 있는지 알아보려고 했습니다 의미 있는 차이가 있는지 알아보려고 했습니다 지난 동영상에서는 95%의 신뢰구간을 사용해 남성 비율의 차이와 여성 비율의 차이를 구해 보았습니다 이 동영상에서는 질문을 좀 더 직접적으로 해보죠 이 동영상에서는 질문을 좀 더 직접적으로 해보죠 차이가 있는지 바로 가설검증을 해 보는 것입니다 차이가 있는지 바로 가설검증을 해 보는 것입니다 귀무가설을 만들어 볼 텐데요 귀무가설을 만들어 볼 텐데요 차이가 없다고 해야죠 남성과 여성이 투표하는데 차이가 없다고요 다르게 말하면 후보에게 투표 할 남성의 비율이 후보에게 투표할 여성의 비율과 같다는 것입니다 후보에게 투표할 여성의 비율과 같다는 것입니다 또 다르게는 차이가 P1 - P2 후보에게 투표할 실제 남자의 비율에서 투표할 실제 여자 모집단을 뺀 값의 비율이 0이라는 것입니다 투표할 실제 여자 모집단을 뺀 값의 비율이 0이라는 것입니다 그게 귀무가설입니다 대립가설은 차이가 있다는 것입니다 대립가설은 차이가 있다는 것입니다 P1 ≠ P2이죠 P1 - P2 투표하는 남자의 비율에서 투표하는 여자의 비율을 뺀 값인 실제 모집단 비율이 0이 아닌 것입니다 이걸로 가설검정을 해볼 텐데 5%의 신뢰구간을 사용할게요 그게 의미하는 것은 많이 해 보았을텐데 귀무가설을 가정하는 것입니다 귀무가설을 가정하는 것입니다 귀무가설이 사실이라 가정하고 표본 비율의 차를 얻는 확률을 계산할 거에요 표본 비율의 차를 얻는 확률을 계산할 거에요 남성 표본 비율과 여성 표본 비율의 실제 차이를 얻는 확률을 계산해야 합니다 실제 차이를 얻는 확률을 계산해야 합니다 귀무가설이 옳다고 가정하고서요 이 확률이 5%보다 낮다면 확률이 유의수준보다 낮다면 그러니까 이 두 표본을 얻고 그 차를 얻는 확률이 5%이하라면 귀무가설을 기각할 겁니다 귀무가설을 기각할 겁니다 그걸 어떻게 할까요? 귀무가설을 가정하면 이 통계량의 표본분포는 어떻게 될까요? 평균은 여성과 남성간 실제 모집단 비율이 같다고 가정하면 P1과 P2가 같다면 이건 0이 됩니다 0이 됩니다 다음으로 남성 비율에서 여성 비율을 빼었을 때 이건 남성의 표본 비율입니다 이 여론조사에서 후보에게 투표하겠다고 한 남성들이죠 이 여론조사에서 후보에게 투표하겠다고 한 남성들이죠 이건 후보에게 투표하겠다고 한 여성의 비율입니다 이건 후보에게 투표하겠다고 한 여성의 비율입니다 둘의 차이는 0.051이었습니다 확률이 얼마인지 구할 수 있겠네요 실제 비율이 같다고 가정했을 때 곧 이 통계량 표본분포의 평균이 0일때, 차이가 0.051일 확률은 얼마일까요? 0일때, 차이가 0.051일 확률은 얼마일까요? 이만큼 극한인 값을 가질 확률은 얼마일까요? 이건 Z-점수로 알아볼 겁니다 이건 Z-점수로 알아볼 겁니다 평균에서 표준편차의 몇 배 만큼 떨어져 있는지 알아보는 것이죠 평균에서 표준편차의 몇 배 만큼 떨어져 있는지 알아보는 것이죠 그게 Z-점수입니다 그리고 그만큼 극단적인 결과 곧 평균에서 그 정도 표준편차만큼 떨어진 결과가 나올 확률이 5% 이하인지 알아보는 것이죠 5% 이하라면 귀무가설을 기각할 겁니다 5% 이하라면 귀무가설을 기각할 겁니다 먼저 Z-점수를 구할게요 귀무가설 P1 = P2를 가정하고 Z-점수는 평균에서 실제 결과가 몇 표준편차만큼 떨어져 있는지 나타내는데 전의 동영상에서 채취한 남성과 여성의 실제 차이는 0.051이었습니다 거기서 평균이라고 가정한 수를 뺍니다 거기서 평균이라고 가정한 수를 뺍니다 이 둘이 같다고 가정했던 것 기억하시죠? 따라서 이 표본분표의 평균은 0입니다 그러면 그냥 0을 빼는게 됩니다 그리고 이걸 통계량 표본분포의 표준편차로 나누어야 합니다 그리고 이걸 통계량 표본분포의 표준편차로 나누어야 합니다 그리고 이걸 통계량 표본분포의 표준편차로 나누어야 합니다 P1 - P2 그럼 분포의 표준편차는 얼마일까요? 그럼 분포의 표준편차는 얼마일까요? 지난 동영상에서 그건 이 공식으로 구했었습니다 하지만 귀무가설을 따르면 P1과 P2는 같습니다 하지만 귀무가설을 따르면 P1과 P2는 같습니다 다시 써보죠 다시 써보죠 지난번 비디오에서 여기 있는 근사치를 구했는데 지난번 비디오에서 여기 있는 근사치를 구했는데 헷갈릴 수 있으니까 깨끗하게 다시 써볼게요 P1의 표본평균- P2의 표본평균의 통계량 표본분표의 표준편차는 P1의 표본평균- P2의 표본평균의 통계량 표본분표의 표준편차는 P1의 표본평균- P2의 표본평균의 통계량 표본분표의 표준편차는 √((P1(1-P1))/1000 + (P2(1-P2))/1000) 입니다 √(P1(1-P1))/1000 + (P2(1-P2))/1000 입니다 다른 동영상에서 여러 번 보셨죠 그런데 귀무가설에서는 P1=P2라고 가정합니다 그런데 귀무가설에서는 P1=P2라고 가정합니다 원래 그렇게 하는 거죠 귀무가설을 가정하고 확률을 구합니다 귀무가설을 가정하고 확률을 구합니다 따라서 P1=P2라면 이걸 하나의 실제 모집단 비율이라고 나타낼 수 있습니다 이걸 하나의 실제 모집단 비율이라고 나타낼 수 있습니다 그러면 이렇게 써 볼 수 있겠죠 √((1/1000)(P(1-P)+P(1-P))) √((1/1000)(P(1-P)+P(1-P))) 둘이 같은 값일 테니까요 그게 귀무가설에서 가정하는 것이죠 똑같은 것 두 개니까 √((2P(1-P))/1000)라고 쓸 수 있습니다 √((2P(1-P))/1000)라고 쓸 수 있습니다 √((2P(1-P))/1000)라고 쓸 수 있습니다 다시 말씀드리지만 이건 통계량 분포의 표준편차입니다 다시 말씀드리지만 이건 통계량 분포의 표준편차입니다 남성 표본 비율 - 여성 표본 비율이죠 남성 표본 비율 - 여성 표본 비율이죠 아직도 이건 모릅니다 아직도 실제 비율은 모르네요 아직도 실제 비율은 모르네요 하지만 표본을 이용해 추정해 볼 수 있죠 남성과 여성의 차이가 없다고 가정하고 있기 때문에 남성과 여성의 차이가 없다고 가정하고 있기 때문에 표본 크기가 2000이라고 보고 실제 비율을 계산할 수 있습니다 표본 크기가 2000이라고 보고 실제 비율을 계산할 수 있습니다 이걸 표본 비율로 대체할 수 있어요 남성 설문조사와 여성 설문조사를 하나의 큰 설문조사라고 가정할 수 있습니다 표본 비율은 총 2000명을 설문조사했고 남성 1000명, 여성 1000명이었습니다 둘이 다르지 않다고 가정합니다 그게 귀무가설이었죠 남성과 여성의 차이가 없다고 하는 것이요 그렇다고 대답한 사람이 남성은 642명 여성은 591명 이었습니다 총 642+591명이죠 이걸 2000명인 하나의 큰 표본으로 보면 642+591=1233 /2,000는 0.6165이네요 이것이 남성과 여성 모두에게 일관적으로 사실인 모집단 비율의 추정치입니다 둘이 다르지 않다고 가정하고 있으니까요 이 값을 P에 넣어 통계량 표본분포의 표준편차를 추산해 볼 수 있습니다 이 값을 P에 넣어 통계량 표본분포의 표준편차를 추산해 볼 수 있습니다 이 값을 P에 넣어 통계량 표본분포의 표준편차를 추산해 볼 수 있습니다 후보에게 투표할 남성과 여성의 비율이 같다고 가정했을 때 말이죠 후보에게 투표할 남성과 여성의 비율이 같다고 가정했을 때 말이죠 그렇게 해 봅시다 √(2*P , 곧 √(2*.6165 √(2*.6165*(1-P , 즉 √(2*.6165*(1-.6165)/1000)입니다 다시 확인 해보죠 2*.6165이고 이건 P이죠 *(1-P)/1000 그리고 모두 √안에 넣어줍니다 그리고 모두 √안에 넣어줍니다 그러면 표준편차가 0.0217이 나오네요 여기에 써 볼게요 이게 0.0217인 거에요 Z-점수를 구하려면,곧 실제로 구한 표본이 표준편차 얼마만큼 떨어졌는지 구하려면 이 통계량에서 구한 표본을 말이죠 가정한 평균에서 표준편차 얼마만큼 떨어졌는지 구하려면 가정한 평균은 차이가 없는 곳이고요 0.051을 이 표준편차로 나누면 됩니다 0.051을 이 표준편차로 나누면 됩니다 그렇게 해 보죠 0.051을 이 표준편차로 나눌 것이고요 이 위의 값이 그것이니까 /Ans를 누르면 표준편차 2.35개만큼 떨어져 있네요 Z-점수는 2.35입니다 지금 하고 있는걸 다시 되짚어보면 차이가 없다고 말하는 귀무가설을 가정했고 차이가 없다고 가정하면 이 통계량 표본분포의 평균은 0입니다 이 통계량 표본분포의 평균은 0입니다 그리고 통계량에 대해 얻은 결과로는 Z-점수가 2.34라는 것입니다 평균인 0에서 표준편차 2.34개만큼 떨어져 있다는 뜻이죠 평균인 0에서 표준편차 2.34만큼 떨어져 있다는 뜻이죠 귀무가설을 기각하려면 이것이 유의수준보다 덜 가능성 있어야 합니다 그걸 확인하려면 가설을 기각하기 위한 최소의 Z-점수가 무엇인지 알아봅시다 그것에 대해 생각해보죠 표준정규분포표로 돌아가서요 유의수준이 5%이게 해야 합니다 귀무가설을 기각하는 모든 면적이 5%란 뜻입니다 귀무가설을 기각하는 모든 면적이 5%란 뜻입니다 이건 양쪽꼬리검정입니다 평균 한참 아래의 극값과 평균 한참 위의 극값 모두 가설을 기각시킬 수 있죠 여기 면적과 여기가 중요한 곳이에요 여기에 2.5% 여기에 2.5%를 둘게요 여기에 2.5%를 둘게요 95%는 중간에 있어요 여기 임계역의 Z-점수를 찾아야 해요 임계역의 Z-값이요 그리고 아까 구한 Z-값이 임계역의 양의 Z-값보다 크다면 그건 가능성이 낮고 귀무가설을 가정하면 극값을 얻을 확률이 5% 이하니까 귀무가설을 가정하면 극값을 얻을 확률이 5% 이하니까 귀무가설을 기각할 수 있습니다 임계역의 Z-값이 무엇인지 보죠 결국 값 이하의 백분율이 97.5%이하인 Z-값을 찾아야 합니다 결국 값 이하의 백분율이 97.5%이하인 Z-값을 찾아야 합니다 그래야 여기 2.5%가 남으니까요 이건 이미 구했었어요 이곳의 면적이 97.5%인 경우는 지난 동영상에서 했었죠 이곳의 면적이 97.5%인 경우는 지난 동영상에서 했었죠 찾아보면 0.975가 나옵니다 Z-점수는 1.96이죠 여기 적어두기도 했네요 따라서 임계역의 Z-값은 1.96입니다 이게 말해주는 것은 Z-통계량이 1.96이상일 확률이 5%라는 것입니다 이게 말해주는 것은 Z-통계량이 1.96이상일 확률이 5%라는 것입니다 귀무가설이 맞다고 가정할 때요 아까 귀무가설이 맞다고 가정하고 Z-통계량을 2.34라고 구했었죠 아까 귀무가설이 맞다고 가정하고 Z-통계량을 2.34라고 구했었죠 이런 표본을 구할 확률은 귀무가설이 맞다고 가정할 때 5%이하입니다 여기 임계역 Z-값보다 더 극값이죠 그건 이쯤에 있을 겁니다 따라서 귀무가설은 기각할 수 있습니다 계속 움직여서 죄송해요 써 논게 많네요 있는걸 활용할게요 귀무가설을 가정했을 때 그런 값이 나올 확률이 5%이하이고 그게 유의수준이었으니까 귀무가설을 기각하고 차이가 있다고 말할 수 있죠 귀무가설을 기각하고 차이가 있다고 말할 수 있죠 100%확신할 순 없지만 통계적으로 후보에게 투표할 남성의 비율과 여성의 비율에 통계적으로 후보에게 투표할 남성의 비율과 여성의 비율에 차이가 있다는 발상을 지지합니다 차이가 있다는 발상을 지지합니다