If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:10:00

동영상 대본

지난 동영상에서부터 투표하는 남성의 비율과 투표하는 여성의 비율에 의미 있는 차이가 있는지 알아보고 있습니다 남성과 여성 각각 1000명을 표본으로 표본비율을 구했습니다 남성은 0.642 여성은 0.591이었죠 최종 목표는 95% 신뢰구간을 구하는 것입니다 표본만을 기반으로 표본만을 기반으로 남성의 표본비율 - 남성의 표본비율 - 남성의 표본비율 - 여성의 표본비율은 0.642 - 0.591이니까 0.051이었습니다 왼쪽에서 오른쪽을 뺐어요 신뢰구간을 구할 때는 신뢰만 할 수 있습니다 정확할 수는 없죠 정확할 수는 없죠 95%의 확률로 여기서 두 표본비율의 차를 구하는 것은 통계량의 표본분포를 표집하는 것과 같습니다 95%의 확률로 실제 평균 혹은 여기 P₁ - P₂의 실제 값에서 어떤 범위 d 안에 혹은 여기 P₁ - P₂의 실제 값에서 어떤 범위 d 안에 표본으로 얻은 차의 값이 있어야 합니다 0.051에서 d만큼이죠 이렇게 여러 번 풀어서 적었는데 이렇게 여러 번 풀어서 적었는데 책에서 보는 공식만 바로 주는 것이 아니라 책에서 보는 공식만 바로 주는 것이 아니라 외우기 쉬운 공식이지만 이렇게 하면 왜 이런 신뢰구간을 얻는지 이해하기 쉽습니다 이렇게 하면 왜 이런 신뢰구간을 얻는지 이해하기 쉽습니다 95%의 확률로 비율의 차 P₁ - P₂의 실제 값이 95%의 확률로 비율의 차 P₁ - P₂의 실제 값이 표본비율으로부터 d 안에 있다고 한다면 아까 여기에 써 놓은 것은 95%의 확률로 0.051이 실제 모수 P₁ - P₂ 곧 평균에서 d 안에 있다고 하는 것과 같습니다 곧 평균에서 d 안에 있다고 하는 것과 같습니다 따라서 구할 것은 평균으로부터의 어떤 거리인데 분포 전체에서 이것처럼 확률표본을 구했을 때 확률표본이 평균에서 어떤 거리 d 안에 있을 확률이 95%인 거리입니다 평균에서 d 안에 있다면 95% 확률로 평균이 표본에서 d 안에 있다는 뜻이기도 하고 그러면 신뢰구간을 구할 수 있습니다 신뢰구간은 이 값에서 d를 더한 값과 d를 뺀 값일 것입니다 신뢰구간은 이 값에서 d를 더한 값과 d를 뺀 값일 것입니다 그러면 거리 d는 얼마일까요? 그러면 거리 d는 얼마일까요? 정규화된 정규분포를 보면 여기 표준정규분포표가 있는데 표본분포는 정규적이라고 가정할 수 있습니다 표본분포는 정규적이라고 가정할 수 있습니다 n이 아주 크고 비율이 0이나 1에 가깝지 않기 때문이죠 중간에 가까워야 가장자리에 있는 이상한 경우에 걸리지 않습니다 그러면 어떻게 중간 95%를 포함할까요? 정규분포에선 평균에서 표준편차 몇 배나 떨어져야 정규분포에선 평균에서 표준편차 몇 배나 떨어져야 95%의 확률을 담을 수 있을까요? 여러번 보았겠지만 표준정규분포표는 누적분포를 나타냅니다 이 Z-값을 찾고 있는데 95%를 포함하려면 이쪽에 2.5%가 이쪽에도 2.5%가 있어야 합니다 그런데 표준정규분포표는 어떤 Z-값까지의 누적 확률을 나타냅니다 따라서 여기서는 97.5%를 찾아야 합니다 여기 이 모든 것을 포함하는 값이죠 여기 이 모든 것을 포함하는 값이죠 여기 이 모든 것을 포함하는 값이죠 그 Z-값을 찾아 양쪽에 적용하면 95%를 포함하는 값을 찾을 수 있습니다 그럼 97.5%를 찾아 볼까요? 97.5는 여기 있네요 표준편차의 1.96배입니다 정규화된 표준편차의 1.96배 혹은 Z-점수가 1.96입니다 밑의 분포를 살펴보면 구하려고 했던 이 거리는 1.96 x 이 분포의 표준편차입니다 구하려고 했던 이 거리는 1.96 x 이 분포의 표준편차입니다 구하려고 했던 이 거리는 1.96 x 이 분포의 표준편차입니다 구하려고 했던 이 거리는 1.96 x 이 분포의 표준편차입니다 구하려고 했던 이 거리는 1.96 x 이 분포의 표준편차입니다 이제 이것을 계산해서 1.96으로 곱해주기만 하면 됩니다 이제 이것을 계산해서 1.96으로 곱해주기만 하면 됩니다 문제가 있네요 모수 P₁과 P₂의 실제 값을 알지 못합니다 실제 모수는 알지 못하죠 P₁과 P₂를 모릅니다 그게 문제의 일부이기도 하죠 P₁과 P₂에 의미있는 차이가 있는지 알아보고 있습니다 P₁과 P₂에 의미있는 차이가 있는지 알아보고 있습니다 하지만 여러 번 보았듯이 이 경우 표본 크기가 크기 때문에 P₁과 P₂는 표본비율로서 추정할 수 있습니다 P₁과 P₂는 표본비율로서 추정할 수 있습니다 이것을 근사치라고 바꾸면 표본비율을 사용할 수 있죠 그 값은 알고 있습니다 여기 n은 1000이고요 계산해 볼게요 계산기를 사용하겠습니다 긴 계산이 되겠네요 그러면 √( 남성의 표본비율은 0.642이고 (1-0.642)를 곱해 줍니다 (1-0.642)를 곱해 줍니다 1000으로 나눠 주고요 거기에 여성의 경우도 같이 더해 줍니다 거기에 여성의 경우도 같이 더해 줍니다 표본비율 0.591 * (1 - 0.591) 지금 이 항을 쓰고 있는 것이고요 1000으로 나누어 줍니다 지금 이 항을 쓰고 있는 것이고요 1000으로 나누어 줍니다 지금 이 항을 쓰고 있는 것이고요 1000으로 나누어 줍니다 마지막으로 제곱근을 구하니까 괄호를 닫아 줍니다 마지막으로 제곱근을 구하니까 괄호를 닫아 줍니다 마지막으로 제곱근을 구하니까 괄호를 닫아 줍니다 마지막으로 제곱근을 구하니까 괄호를 닫아 줍니다 0.021이네요 0.022라고 하죠 따라서 이 값은 약 0.022입니다 구하려던 거리로 돌아가보면 이 값의 가장 가까운 추정치는 0.022입니다 곱해 보면 0.022 * 1.96은 반올림해서 0.043이네요 0.022 * 1.96은 반올림해서 0.043이네요 구한 값은 0.043이고 이렇게 신뢰구간을 구했습니다 95%의 확률로 실제 비율의 차는 표본비율의 차에서 0.043 안에 있습니다 표본비율의 차에서 0.043 안에 있습니다 구간을 얻으려면 오른쪽 이 값에서 0.043을 빼면 됩니다 해 보죠 0.051 - 0.043은 0.008이고 값을 더하면 0.051 + 0.043은 0.094입니다 특정 후보에게 투표할 남성의 비율과 여성의 비율의 95% 신뢰구간 곧 P₁ - P₂의 95% 신뢰구간은 0.008에서 0.094입니다 계산기에서 가져온 값이죠 끝났습니다 95%의 확률로 남성이 이 후보에게 여성보다 더 많이 투표할 것이라고 신뢰할 수 있어 보입니다 더 많이 투표할 것이라고 신뢰할 수 있어 보입니다