If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:18:36

동영상 대본

지방의 교육 현장에서는 선생님들에게 네 대의 컴퓨터를 설치할 수 있는 기술 보조금이 지급됩니다 6250명의 선생님 중에서 무작위로 선정된 250명의 선생님에게 컴퓨터는 수업에서 꼭 필요한 도구인지 물어봤습니다 선택된 선생님들 중에서 142명의 선생님들은 컴퓨터가 꼭 필요하다고 답변했습니다 그리고 문제에서는 컴퓨터가 꼭 필요하다고 생각하는 선생님들 비율의 99% 신뢰구간을 구하라고 했습니다 전체 집단에 대해 생각해보겠습니다 모두를 조사할 수는 없지만 전체 중 일부는 조사 집단에 포함됐고 이 사람들을 1의 값으로 생각하겠습니다 컴퓨터가 좋은 수업도구라고 생각하는 사람들입니다 그리고 안 좋다고 생각하는 선생님들을 0의 값으로 생각하겠습니다 그리고 전체 선생님 중에서 좋다고 생각하는 선생님들의 비율이 있을 건데요 그 비율을 p라고 생각하겠습니다 안 좋다고 생각하는 나머지는 1-p로 생각할 수 있을 겁니다 여기에는 베르누이 분포가 적용될거고 이 분표의 평균값은 곧 이 분포의 기댓값인 p가 될겁니다 실제로 지표의 값은 0 아니면 1입니다 이 값들은 선생님들에게 직접 물어봐서는 얻을 수 없는 값입니다 선생님들은 '좋다'와 '좋지 않다' 사이의 답변을 할 수 없습니다 분포의 기댓값인 p가 그 사이의 값이겠죠 우리는 선생님들 중 250명의 표본을 취했고 142명이 컴퓨터가 도움이 되는 도구라고 답변했다는 것을 압니다 우리 통계에서 표본은 250명이고 좋다고 한 사람이 142명 이 값을 1이라고 하겠습니다 그래서 '1'이 142번 있습니다 이 분포에서 1이 142회 나왔습니다 남는 값은 어떻게 될까요 좋지 않다고 답변한 108명이 있습니다 108명이 좋지 않다고 답변했고 이 사람들은 0으로 생각할 수 있을 겁니다 108 + 142는 250입니다 여기서 표본평균은 얼마일까요? 1이 142번 0이 108번 있고 표본 수인 250으로 나누면 됩니다 140/250 이죠 컴퓨터가 좋은 도구라고 생각하는 선생님들의 표본 비율이라고 생각해도 됩니다 계산기를 꺼내서 계산해 보겠습니다 142 ÷ 250은 0.568이네요 표본 비율은 0.568입니다 56.8%라고도 표현할 수 있습니다 네 0.568입니다 신뢰구간을 구할 때 쓰일 표본 분산도 구해봅시다 이 분포에서 표본 분산은 평균과 변량의 차이인 편차의 제곱의 합을 표본 수 - 1로 나눈 값입니다 이렇게 하면 실제 분산의 가장 정확한 추정값을 얻을 수 있습니다 142개의 표본이 표본 평균과 1 - 0.568만큼 떨어져 있고 이 거리를 제곱할게요 거기에 108번은 0의 값을 가져서 표본평균과 0 - 0.568 멀어져 있습니다 우리는 이 값을 표본의 수 - 1로 나눌 겁니다 1을 빼는 것은 추정값을 낮게 추정하지 않게 하는 보정값입니다 그래서 250 - 1입니다 다시 계산기를 꺼낼게요 모든 값에 괄호를 치겠습니다 142 ×(1 - 0.568)² + 108 × (0-0.568)² 여기에 전체를 250-1인 249로 나누겠습니다 표본분산은 0.246이네요 표본분산은 0.246이고 여기에 제곱근을 취해 주면 포본표준편차는 방금 구한 값에서 제곱근을 취해주면 0.496이 나옵니다 반올림해서 0.50으로 하겠습니다 이 값이 표본표준편차입니다 이제 구간에 대해서는 다음의 방법으로 생각해 보죠 우리는 어떤 표본 분포에서 표본의 평균을 구하는 겁니다 여기 보이는 것처럼 이렇게 생길 겁니다 평균이 존재하고 표본의 평균은 실제로 전체 분포의 평균값과 같고 곧 인구 비율과도 같습니다 우리는 이러한 분포를 여러 번 다뤘습니다 그리고 표본의 표준편차는 그리고 표본의 표준편차는 표본의 표준편차는 역시 여러 번 다뤘지만 모표준편차에서 표본 수의 제곱근으로 나눈 값입니다 √ 250으로 나뉘게 되는거죠 우리는 실제 표준편차를 정확하게 모릅니다 정확한 표준편차 값을 알지 못합니다 그러나 평균의 최적의 예상 값은 우리가 '신뢰'라는 말을 쓰는 만큼 이 구간에 있을 겁니다 확실하지만 100% 정확하지 않은 이유는 모표준편차를 예측하기 때문이고 곧 포본표준편차를 이용해 예측하기 때분입니다 그래서 모표준편차가 표본표준편차에 의해 예측될 수 있다면 정말 이상하고 정말 편향된 표본이 아니라면 (애초에 이상한 표본을 잡았더라면 근사를 할 수도 없었겠지만요) 우리는 표준편차를 우리는 표준편차를 (모표준편차를 이용하는 대신 여기 이 표본표준편차를 이용하겠습니다) 0.05 ÷ √250은 여기 이 값에 ÷ √250을 하면 0.031이 나옵니다 그래서 이 값은 0.031이 됩니다 이게 우리가 구한 하나의 표준편차입니다 이제 99% 신뢰 구간을 구해봅시다 이는 곧 제가 표본 분포에서 랜덤한 값을 뽑는다면 99%의 확률로 아니 이렇게 생각해보죠 평균에서 얼마의 표준편차만큼이 멀어져야 그 구간 안에서 표본 분포가 99%의 확률로 존재할까요? 다른 방법으로 설명하자면 평균으로부터 얼마의 표준편차만큼 떨어져야 하는지죠 평균으로부터 떨어진 어떤 값을 잡았을 때 이 분포의 표본들은 99%의 확률로 평균값에서부터 그 표준편차만큼 떨어져 있다는 것입니다 아마 여기부터 저기까지겠죠 이게 우리가 구하고 싶은 값입니다 이 분포에서 표본을 뽑을 때 99%의 확률로 평균에서부터 이 표준편차들만큼 떨어져 있을 것입니다 해결하기 위해 표준정규분포포를 확인해봅시다 99% 신뢰도를 구하고 싶습니다 다르게 생각하자면 99% 신뢰구간을 구할 때 여기 절반만 생각한다면 (실수) (실수) (실수) (실수) 99% 신뢰도일 때 절반의 값은 0.475입니다 여기 이 면적은 0.495이고 반대쪽 면적 역시 0.495가 될 것입니다 이 둘의 합은 전체 면적의 99%입니다 면적이 0.495라면 x축의 이 값을 구할 때 왼쪽의 전체 면적을 고려하면 0.5를 포함할 것입니다 즉 구할 면적은 0.5 + 0.495가 되겠죠 0.995입니다 다시 확인해볼게요 0.995가 맞습니다 이제 표준정규분포표를 보겠습니다 0.995를 표의 어디에서 찾을 수 있을까요? 0.995는 여기 이 0.9951과 약간의 오차로 매우 가깝네요 99%에 대해 생각하는 다른 방법은 여기 그래프에서 전체 면적을 생각하는 것입니다 전체 분포를 보았을 때 평균은 여기쯤 있습니다. 이 표를 통해 평균 위로 2.5표준편차만큼을 그릴 수 있습니다 2.5 × 표본표준편차 입니다 여기 전체 면적을 보면 표에서 0.9951임을 확인할 수 있고 이는 곧 여기 이 부분은 0.4951이 됨을 알 수 있습니다. 평균아래의 이 면적만큼을 다시 고려하고 이 둘을 합쳐 0.4951 × 2는 0.9902임을 알 수 있습니다 여기 이 전체 면적은 0.9902입니다 평균 위아래로 2.5표준편차만큼을 보았을 때, 단순히 2.5가 아니라 소수점의 정확도를 높여야겠습니다 2.5에서 다음 소수 자리는 이 행을 따라가면 나올 겁니다 뒤에서 두 번째 행을 따라 올라가면 뒤에 8의 소수자리를 붙여야 함을 알 수 있습니다 따라서 2.58표준편차입니다 2.5를 열에서 구했고 그 다음 자리 8을 행에서 구했습니다 평균에서 2.58표준편차 위아래의 면적은 99%의 확률을 약간 초과합니다 즉 99%보다 약간 큰 확률로 표본에서 선택한 값은 이 만큼의 표준편차 안에 들어갈 것입니다 계산을 해 보자면 이 값에 2를 곱하면 0.9902이므로 간단히 해서 99% 확률은 곧 표본평균 주변으로 2.58 표준편차만큼이 떨어져 있다는 것을 의미합니다 표본평균은 곧 모평균과 같고 확률분표 역시 같다는 것도 알 수 있습니다 p에 관한 값입니다 여기 이 값이 무엇진지 알 수 있습니다 적어도 최적의 추정치는 알 수 있습니다 정확하게는 모르지만 이 값에 대한 가장 최적의 값을 알 수 있습니다 이 값에 대해 다시 써보자면 여기 이 값에 대한 추정치를 쓰기 때문에 우리는 이 값을 신뢰할 수 있습니다 99%의 확률로 확률변수 X가 --계산기로 계산해보도록 하겠습니다 2.58 × 최적 추정치인 0.031을 곱하면 반올림해서 0.08 모집단의 0.08 안에 포함되어 있습니다 아니면 모집단 비율이 표본평균의 0.08 안에 있다고 해도 될 것입니다 둘이 같은 말입니다 신뢰구간을 구하고 싶다면 우리가 구한 실제 표본평균은 0.58이었습니다 이 값을 식에 대입할 수 있습니다 실제로 표본을 취했기 때문에 이 값을 0.568로 대체할 수 있습니다 99%의 확률로 0.568이 모집단 비율의 0.08에 포함된다는 것을 신뢰할 수 있습니다 모집단 평균과도 같고 표본분포의 평균과도 같은 값입니다 실제로 이 두 값을 바꾸더라도 그 의미를 바꾸지는 않을 것입니다 이게 저것의 0.08 안에 든다면 그 역도 성립하는 것입니다 그래서 이 두 말을 바꿔보겠습니다 P가 0.568의 0.08 안에 있게 되는 겁니다 언어적으로 조금 더 신뢰구간과 비슷한 꼴이 되었습니다 99%확률로 확률변수 P는 0.568에서 0.08만큼 떨어진 데에 존재합니다 신뢰구간은 어떻게 될까요? 0.568 ± 0.08입니다 값으로는 어떻게 표현될까요? 0.568에 0.08을 더하면 상한값은 0.648이 됩니다 범위의 하한값은 0.488이 됩니다 99%의 신뢰도로 두 값 사이에 실제 모집단 비율이 존재합니다 혹은 다른 방식으로 표현하자면 99%의 신뢰도로 컴퓨터를 좋아하는 선생님 비율의 참값이 48.8%와 64.8% 사이라는 것을 알 수 있습니다 이제 문제의 첫 질문에 답했습니다 두 번째 질문은 99% 신뢰구간을 유지하면서 신뢰구간을 좁힐 수 있는 방법에 대해 묻고 있습니다 답은 표본을 더 취하면 될 겁니다 표본을 더 취하게 된다면 분모가 커지기 때문에 표본표준편차가 작아질 것입니다 분모가 커지면 전체 값은 작아지게 되는 것입니다 여기서 표준편차가 작아지면 신뢰구간을 정할 때 여기 이 값이 낮아질 것이고 결국 범위가 좁아질 것입니다 그래서 단순히 표본을 더 취하면 되는 겁니다