If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:6:35

p에 대한 신뢰구간 만들고 해석하기 예제

동영상 대본

델라의 휴대폰에는 노래가 500곡 있습니다 델라의 휴대폰에는 노래가 500곡 있습니다 델라는 그 중에서 여성 가수의 노래 비율을 추정해 보려고 합니다 델라는 그 중에서 여성 가수의 노래 비율을 추정해 보려고 합니다 델라는 휴대폰에 있는 50곡에 SRS, 단순확률표본을 사용해 델라는 휴대폰에 있는 50곡에 SRS, 단순확률표본을 사용해 그 곡들 중 20개의 곡이 여성 가수의 노래임을 알아냈습니다 그 곡들 중 20개의 곡이 여성 가수의 노래임을 알아냈습니다 이 표본을 기반으로 다음 보기들 중 어떤 것이 핸드폰에 있는 노래들 중 여성 가수 노래의 비율에 대한 99% 신뢰구간을 나타낼까요? 여성 가수 노래의 비율에 대한 99% 신뢰구간을 나타낼까요? 늘 그랬듯 잠시 동영상을 멈추고 스스로 계산해보세요 늘 그랬듯 잠시 동영상을 멈추고 스스로 계산해보세요 델라의 휴대폰에는 노래가 500곡 있습니다 여성 가수의 노래 비율을 찾으려고 합니다 여성 가수의 노래 비율을 찾으려고 합니다 500곡의 노래를 모두 조사할 시간은 없습니다 실제 모비율 p를 직접 알아볼 수는 없는 것이죠 대신 50곡의 노래를 추출했습니다 즉 n은 50입니다 그리고 그로부터 표본비율을 계산합니다 이는 이렇게 나타냅니다 델라는 50곡 중 20곡이 여성 가수의 노래임을 알아냈습니다 델라는 50곡 중 20곡이 여성 가수의 노래임을 알아냈습니다 20/50은 0.4입니다 그런 다음 99% 신뢰구간을 찾으려고 합니다 신뢰구간을 구하기 전에 신뢰구간을 구하기 전에 먼저 몇 가지 조건들이 유효한지 확인할 필요가 있습니다 먼저 몇 가지 조건들이 유효한지 확인할 필요가 있습니다 신뢰구간을 계산하기 전에 표본비율들의 분포가 왜곡되어 있지는 않은지 확인해 봅시다 표본비율들의 분포가 왜곡되어 있지는 않은지 확인해 봅시다 즉 신뢰구간이 충분히 신뢰성이 있는지 확인하는 것입니다 즉 신뢰구간이 충분히 신뢰성이 있는지 확인하는 것입니다 첫 번째로 확인해야 할 조건은 표본이 임의의 표본인지 확인하는 것입니다 문제에서 단순확률표본이라고 했으니 이 조건은 만족합니다 문제에서 단순확률표본이라고 했으니 이 조건은 만족합니다 다음 조건은 표본비율의 분포가 정규분포를 따르는지 확인합니다 다음 조건은 표본비율의 분포가 정규분포를 따르는지 확인합니다 다음 조건은 표본비율의 분포가 정규분포를 따르는지 확인합니다 이를 확인하려면 추출한 표본 안에서 최소 10개 이상의 성공과 최소 10개 이상의 실패가 있는지 확인해야 합니다 이 경우에는 20번의 성공이 있으므로 50에서 20을 빼면 30번의 실패가 있습니다 이들은 모두 10보다 크므로 이 조건이 만족됩니다 마지막 조건은 독립 조건이라고 불리는 것으로 혹은 10% 규칙이라고도 불립니다. 복원추출을 했다면 즉 노래 한 개를 살펴본 후 그것이 여성 가수의 노래인지 아닌지를 살펴보고 다시 파일에 넣은 후 다른 노래를 고른다면 그러면 각각의 관찰은 서로 독립적입니다 하지만 그 사실을 알 수 없습니다 비복원추출을 했다고 가정하면 비복원추출을 했을 때 추출한 표본의 크기가 모집단의 10%보다 작은 경우에 각각 관찰한 노래가 어느정도 독립적이라고 할 수 있습니다 각각 관찰한 노래가 어느정도 독립적이라고 할 수 있습니다 이 경우에는 정확히 모집단의 10%를 추출했네요 그러므로 델라는 이 독립 조건을 아슬아슬하게 통과합니다 그러므로 델라는 이 독립 조건을 아슬아슬하게 통과합니다 그러면 신뢰구간이 어떻게 되는지 한 번 계산해 봅시다 신뢰구간은 표본비율에서 어떤 임계값을 더하거나 뺀 값에 어떤 임계값을 더하거나 뺀 값에 이 임계값은 신뢰구간에 따라 결정됩니다 이 임계값은 신뢰구간에 따라 결정됩니다 그런 다음 임계값에 표본비율 표본분포의 표준편차를 곱해야 하는데 이는 알지 못하니 그 대신 표본비율의 표준오차를 이용합니다 그 대신 표본비율의 표준오차를 이용합니다 이 경우에는 표본비율을 1- 표본비율과 곱하고 이 경우에는 표본비율을 1- 표본비율과 곱하고 그 값을 표본 크기 n, 50으로 나눈 값의 제곱근입니다 그 값을 표본 크기 n, 50으로 나눈 값의 제곱근입니다 그러면 어떻게 될까요? 표본비율 0.4에 표본비율 0.4에 임계값 z^*는 나중에 표준정규분포표를 이용해 구하고 임계값 z^*는 나중에 표준정규분포표를 이용해 구하고 임계값 z^*는 나중에 표준정규분포표를 이용해 구하고 여기에는 0.4 1- 0.4 = 0.6을 곱한 후 50으로 나눕니다 그러면 보기 중 흥미로운 것들이 몇 개 보이죠 이 보기와 이 보기 두 개가 흥미로워 보이네요 그리고 이제 어떤 것이 알맞은 임계값인지 확인해야 합니다 그리고 이제 어떤 것이 알맞은 임계값인지 확인해야 합니다 표본비율에서 표준오차 1.96배를 더하고 뺀 범위를 사용해야 할까요? 표본비율에서 표준오차 1.96배를 더하고 뺀 범위를 사용해야 할까요? 혹은 표본비율에서 표준오차 1.96배를 더하고 뺀 범위를 사용해야 할까요? 혹은 표본비율에서 표준오차 1.96배를 더하고 뺀 범위를 사용해야 할까요? 여기서 주목할 것은 99% 신뢰구간이라는 것입니다 99% 신뢰구간을 구하기 위해 99% 신뢰구간을 구하기 위해 일단 정규분포를 그려보겠습니다 일단 정규분포를 그려보겠습니다 99% 신뢰구간은 곡선 아래 중앙 99%를 포함하는 영역을 의미합니다 곡선 아래 중앙 99%를 포함하는 영역을 의미합니다 이것이 99%에 해당한다면 그러면 여기 이 영역은 0.5%가 될 것이고 여기 이 영역이 0.5%가 되겠죠 여기에 0.5%가 남도록 하는 z-값을 찾아보겠습니다 그러면 표에서 99.5%를 찾아야 하겠죠 그러면 표에서 99.5%를 찾아야 하겠죠 많은 표준정규분포표가 여러분이 AP 통계학 시험에서 보는 것을 포함해서 여러분이 AP 통계학 시험에서 보는 것을 포함해서 특정 값까지의 영역 전체를 제시합니다 특정 값까지의 영역 전체를 제시합니다 그러므로 여기 이 영역을 비워두지 않습니다 그러면 표준정규분포표에서 99.5%를 찾아보죠 이 아래쪽을 한 번 봅시다 이게 표준정규분포표입니다 0.99 즈음의 값은 여기 있네요 바로 여기에 가로줄은 2.5 세로줄까지 보면 2.57 또는 2.58 정도 되겠네요 그러면 이 값은 약 2.57 정도 정확히는 2.57과 2.58 사이의 값이 되겠네요 이 값을 이용하면 질문에 대한 답을 찾을 수 있습니다 그러면 이것은 답이 될 수 없겠네요 2.57 사이와 2.58 사이의 값으로는 2.576이 더 적당하죠 그러면 생각해 봅시다 바로 이것이 신뢰구간을 정의합니다 바로 이것이 신뢰구간을 정의합니다 그러면 이것이 의미하는 것은 무엇인가요? 반복해서 크기가 50인 표본을 추출하고 이런 방법을 이용해 신뢰구간을 정의해 본다면 이런 방법을 이용해 신뢰구간을 정의해 본다면 이런 방식으로 계산된 구간들 중 약 99%가 이런 방식으로 계산된 구간들 중 약 99%가 실제 모비율을 포함하고 있다는 뜻입니다