If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

신뢰구간과 오차범위

신뢰구간과 오차범위.

동영상 대본

요즘 선거철이죠 그리고 후보자 A와 후보자 B 사이에 결선 투표가 진행되고 있습니다 여러분은 여론 조사 요원들입니다 후보자 A가 이 투표에서 당선될 확률을 알아내 보고자 합니다 후보자 A가 이 투표에서 당선될 확률을 알아내 보고자 합니다 이상적으로는, 여기에 있는 전체 유권자들을 조사해봐야겠죠 여기 10만 명의 유권자들이 있다고 생각해 봅시다 그리고 누구를 지지하는지 한 명씩 모두 물어본다고 생각해 봅시다 그러면 그 결과로부터 모비율을 계산할 수 있습니다 이 모비율은 후보자 A의 지지율입니다 이 모비율은 후보자 A의 지지율입니다 이 모비율은 후보자 A의 지지율입니다 이 모비율은 후보자 A의 지지율입니다 하지만 별로 현실적인 방법은 아닙니다 사실, 10만명의 사람들을 모두 조사한다는 것은 명백히 현실적이지 않습니다 따라서 대신 통계학에서 사용하는 방법을 써 봅시다 따라서 대신 통계학에서 사용하는 방법을 써 봅시다 전체 모집단 중 일부 표본을 추출하여 추출된 표본으로부터 통계량을 계산하고 이를 이용해 후보자 A의 지지율을 계산하는 것입니다 이 표본을 추출한다고 생각해 봅시다 추출된 이 표본의 크기, n은 100입니다 추출된 이 표본의 크기, n은 100입니다 그런 다음 후보자 A를 지지하는 표본비율을 계산합니다 100명 중에 54명이 후보자 A를 지지한다고 가정합시다 그러면 표본비율은 0.54가 됩니다 물론 표본비율은 항상 0.54가 아닐 수도 있습니다 예를 들어 보면 아까와는 다른 100명을 추출했을 때 표본비율이 아까와 달라질 수 있죠 이것은 표본비율이 0.58이라고 해 봅시다 통계학에는 얻을 수 있는 모든 가능한 표본비율들의 분포를 통계학에는 얻을 수 있는 모든 가능한 표본비율들의 분포를 알아보는 방법들이 이미 마련되어 있습니다 알아보는 방법들이 이미 마련되어 있습니다 표본분포를 다룰 때 이것에 대해 이미 언급한 바 있습니다 표본분포를 다룰 때 이것에 대해 이미 언급한 바 있습니다 표본비율의 표본분표입니다 표본비율의 표본분표입니다 표본비율의 표본분표입니다 표본비율의 표본분표입니다 표본비율의 표본분표입니다 이 분포는 정한 표본의 크기 즉 n = 100인 경우에 대한 것입니다 그리고 얻을 수 있는 표본비율들과 그리고 얻을 수 있는 표본비율들과 이 표본분포에 대한 그것들의 확률을 설명할 수 있습니다 한 번 설명해 보도록 하겠습니다 일단 이렇게 나타내 봅시다 이 표본의 크기는 모집단의 크기보다 훨씬 작습니다 이 표본의 크기는 모집단의 크기보다 훨씬 작습니다 모집단 크기의 10%도 채 되지 않죠 따라서 조사하는 사람 각각은 모두 서로 독립적입니다 따라서 조사하는 사람 각각은 모두 서로 독립적입니다 또한 실제 비율이 너무 0이나 1에 가깝지 않다고 가정하면 다음과 같이 말할 수 있습니다 이 표본분포는 대략적으로 정규분포를 따른다고요 그러므로 이와 같이 종 모양으로 생긴 정규 분포 곡선을 그릴 수 있습니다 표본비율의 표본분포에 대해 많은 것을 알 수 있습니다 표본비율의 표본분포에 대해 많은 것을 알 수 있습니다 만약 잘 모르겠다면 칸아카데미의 동영상들을 볼 것을 추천드립니다 칸아카데미의 동영상들을 볼 것을 추천드립니다 이 표본분포의 평균이 실제 모비율이 된다는 것을 알고 있습니다 또한 표본분포의 표준편차가 어떻게 되는지도 알고 있죠 자 이 값이 표준편차라고 해 봅시다 여기가 표준편차 두 배 여기가 평균에서 표준편차 3배 위이고 표준편차에 -1, -2, -3을 곱한 값은 각각 이렇게 되죠 따라서 이 거리 여기 있는 이 표준편차는 표본비율들로 이루어진 표본분포의 표준편차로 이렇게 나타냅니다 이미 이 공식을 알고 있죠 이것은 p 값에 1-p를 곱하고 참고로 p는 모비율입니다 그런 다음 표본 크기로 나눈 값의 제곱근입니다 그래서 이렇게 n = 100이라고 명시한 것입니다 첫 번째 경우 이 경우에 대해서만 생각해 봅시다 n = 100인 표본을 추출했을 때 그리고 0.54의 표본비율을 얻었을 때 여기는 수많은 결과가 있을 수 있습니다 0.54가 이쯤에 있을 수도 있고 이쯤에 있을 수도 있습니다 이것을 확실하게 말할 수 없는 이유는 실제 모수인 모비율을 정확히 알 수 없기 때문입니다 실제 모수인 모비율을 정확히 알 수 없기 때문입니다 실제 모수인 모비율을 정확히 알 수 없기 때문입니다 좀 더 쉬운 질문을 해 보죠 0.54라는 표본비율이 0.54라는 표본비율이 0.54라는 표본비율이 0.54라는 표본비율이 0.54라는 표본비율이 0.54라는 표본비율이 0.54라는 표본비율이 p 위 아래로 표준편차 두 배 내에 있을 확률은 어떻게 될까요? p 위 아래로 표준편차 두 배 내에 있을 확률은 어떻게 될까요? p 위 아래로 표준편차 두 배 내에 있을 확률은 어떻게 될까요? 잠깐 동영상을 멈추고 생각해 보세요 이 표본집단을 추출해서 여기 있는 표본비율을 계산한다고 하면 그 표본비율이 평균에 대해서 표준편차 두 배 내에 위치할 확률은 어떻게 될까요? 그것은 바로 여기의 면적과 같겠죠 그리고 여러분은 정규분포 곡선을 이미 배웠기 때문에 약 95%의 면적이 표준편차에 두 배 내에 위치한다는 것을 알고 있습니다 따라서 이 확률은 대략 95%가 될 것입니다 크기가 100인 표본 집단을 추출해서 표본비율을 계산하면 95%의 경우에 그 표본비율은 표준편차 두 배 내에 위치하겠죠 그런데 이 문장을 한 번 봅시다 이 문장을 가지고 더 추론적인 문장을 만들 수 있습니다 더 추론적인 문장을 만들 수 있습니다 다음과 같이 말할 수 있습니다 모비율 p가 모비율 p가 모비율 p가 모비율 p가 표본비율에서 표준편차에 두 배 내에 위치할 확률이 95%이라고요 표본비율에서 표준편차에 두 배 내에 위치할 확률이 95%이라고요 표본비율에서 표준편차에 두 배 내에 위치할 확률이 95%이라고요 표본비율에서 표준편차에 두 배 내에 위치할 확률이 95%이라고요 표본비율에서 표준편차에 두 배 내에 위치할 확률이 95%이라고요 동영상을 잠깐 멈추고 이 두 문장이 같은 의미인지 생각해 보세요 구한 표본비율이 실제 비율에서 표준편차 두 배 내에 있을 확률이 95%라는 것은 실제 비율이 구한 표본비율에서 표준편차 두 배 내에 있을 확률이 95%라는 것과 같은 말입니다 표준편차 두 배 내에 있을 확률이 95%라는 것과 같은 말입니다 그리고 이것은 참으로 흥미로운 사실입니다 이 값이 무엇인지 알아낼 수 있기만 하다면 신뢰구간을 알아내는 것이 가능하기 때문입니다 여기에서 한 가지 문제가 발생합니다 여기 있는 이 분포의 표준편차를 계산하려면 이 모수를 알야아 합니다 동영상을 잠깐 멈춘 후 어떻게 해야할지 생각해 보세요 이 p 값이 무엇인지 모른다면 즉 모비율을 모른다면 p 대신 사용할 추정치가 존재할까요? 있습니다 이미 이것, 표본비율을 계산했습니다 있습니다 이미 이것, 표본비율을 계산했습니다 그러면 표준오차라는 새로운 통계량을 정의해 봅시다 그러면 표준오차라는 새로운 통계량을 정의해 봅시다 표본비율의 표준오차이죠 이 값을 다음과 같이 나타낼 수 있습니다 모비율을 모르기 때문에 표본비율을 사용합니다 표본비율에 1- 표본비율의 값을 곱한 후 그 값을 n으로 나눕니다 이 경우에는 n이 100이죠 이 경우에는 n이 100이죠 따라서 이 영상에서 증명하지는 않겠지만 이것은 불편추정량입니다 바로 여기에 대해서 말이죠 따라서 이 값은 0.54에 1 - 0.54를 곱한 후 그러니까 0.46을 곱하고 그런 다음 그 값을 100으로 나눕니다 그러면 0.54에 0.46을 곱한 후 100으로 나누고 괄호를 닫고 제곱근을 취해 봅시다 소수 셋째 자리에서 반올림하여 나타내보면 사실 넷째 자리에서 반올림하여도 계산 결과는 약 0.05가 됩니다 따라서 이 값은 약 0.05입니다 지금까지의 내용을 종합해보면 이 값은 정확히 알 수 없지만 그 대신 사용할 추정치는 계산할 수 있습니다 따라서 이제 95%의 신뢰도로 95% 유의수준이라고도 하는데 95% 유의수준이라고도 하는데 이 95% 유의수준으로 이 95% 유의수준으로 방금 계산한 표본비율에서 표준오차 두 배 내려가야 하니까 방금 계산한 표본비율에서 표준오차 두 배 내려가야 하니까 방금 계산한 표본비율에서 표준오차 두 배 내려가야 하니까 0.54 - 2 x 0.05를 해보면 0.54 - 2 x 0.05를 해보면 0.44가 되겠죠 그리고 표본비율에서 표준오차 두 배 올라가면 그리고 표본비율에서 표준오차 두 배 올라가면 표본비율에 0.1을 더한 것과 같으므로 0.64가 되죠 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그러면 95%의 확률로 0.44에서 0.64의 모집단이 후보자 A를 지지합니다 그래서 바로 이 구간 0.44에서 0.64까지의 구간 이 구간이 신뢰구간이 됩니다 이 구간이 신뢰구간이 됩니다 이 구간이 신뢰구간이 됩니다 그리고 이 구간은 변할 수 있습니다 시작 지점과 끝 지점 뿐만 아니라 신뢰구간의 길이 또한 변할 수 있습니다 100명의 표본 중에서 표본 비율이 얼마인지에 따라서 달라집니다 표본 비율이 얼마인지에 따라서 달라집니다 신뢰구간과 관련된 또다른 개념은 오차범위입니다 오차범위입니다 오차범위입니다 이 경우에는 이 표본에 대해서는 오차범위를 계산해 보면 95% 유의수준을 생각해 보면 표준오차의 두 배입니다 그러므로 이 경우 오차 범위는 표준오차에 2를 곱한 값입니다 이 값은 0.1 또는 0.10입니다 따라서 신뢰구간은 표본비율에서 오차범위만큼을 더한 값과 오차범위만큼을 뺀 값 사이의 구간입니다 오차범위만큼을 뺀 값 사이의 구간입니다 그렇게 신뢰구간을 정의할 수 있습니다 언급했듯이, 오차범위는 표본을 추출할 때마다 계속 바뀝니다 표본비율에 따라서 오차 범위는 계속 바뀝니다 외냐하면 오차 범위를 계산하는 식 안에 표준오차가 포함되어 있기 때문이죠 이것을 다른 식으로 해석해보면 바로 이 구간을 얻기 위해 사용했던 방법 바로 이 구간을 얻기 위해 사용했던 방법 이 신뢰구간을 얻기 위해서 사용했던 방법을 계속 여러 번 사용하면 각각의 경우마다 신뢰구간을 구할 수 있습니다 그리고 그 구간들은 항상 일정하지는 않습니다 그것은 표본비율에 따라 달라질 것입니다 하지만 구간은 실제 비율을 포함하기는 할 것입니다 하지만 구간은 실제 비율을 포함하기는 할 것입니다 모비율의 값을 실제로 구하기는 어렵지만 말입니다 95%의 확률로 신뢰구간은 모비율을 포함합니다 이에 대해서는 추후의 동영상에서 더 다루도록 하겠습니다 구간과 오차범위가 어떻게 달라지는지 알아보겠습니다 구간과 오차범위가 어떻게 달라지는지 알아보겠습니다 이 계산을 여러 번 반복적으로 하면 95%의 경우에 실제 비율은 계산한 그 구간안에 있습니다 실제 비율은 계산한 그 구간안에 있습니다 또다른 흥미로운 질문 하나를 던져 보겠습니다 구간을 평균적으로 줄이고 싶다면 어떻게 해야 할까요? 어떻게 하면 될까요? 오차범위를 줄이기 위해서 가장 좋은 방법은 바로 분모를 증가시키는 것입니다 분모를 증가시킨다는 것은 표본의 크기를 증가시키는 것을 의미합니다 사람들이 선거 보도에 대해 얘기할 때 이 내용을 자주 보게 될 것입니다 오차범위를 줄이기 위해서는 더 많은 사람들을 대상으로 표본조사를 해야 한다는 것 말입니다 오늘은 여기서 마치고 다음 동영상에서 찾아뵙도록 하겠습니다