If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

표본평균 차의 분포

표본평균 차의 분포에 대하여 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

저번 시간에 배웠던 것을 토대로 공부해봅시다 두 확률변수가 있습니다 확률변수 X의 확률분포를 그려 봅시다 확률변수 X의 확률분포를 그려 봅시다 반드시 정규분포일 필요는 없지만 정규분포로 그려보겠습니다 이것은 확률변수 X의 분포이고 여기가 평균입니다 확률변수 X의 모평균입니다 확률변수 X는 특정 형태의 표준편차를 갖고 있습니다 분산에 대해 생각해 봅시다 여기 확률변수 X의 분산이 있습니다 이것이 X이고 X의 분포입니다 또다른 확률변수 Y를 생각해 봅시다 똑같은 과정을 반복해 봅시다 분포를 그립니다 분포를 그립니다 이 분포의 모수를 살펴보면 특정의 모평균 값을 갖고 있습니다 바로 여기 특정 분산을 갖고 있습니다 바로 여기 특정 분산을 갖고 있습니다 대략 정규분포의 모양으로 그렸습니다 반드시 정규분포를 가정할 필요는 없습니다 왜냐하면 여기서 더 나아가 충분히 큰 표본을 취한다면 이때 중심극한정리가 성립합니다 이제 표본 추출에 대해 생각해봅시다 X의 표본 평균의 표본분포를 생각해봅시다 X의 표본 평균의 표본분포를 생각해봅시다 표본의 크기는 n으로 일정합니다 표본의 크기는 n으로 일정합니다 표본의 크기는 n으로 일정합니다 표본의 크기는 n으로 일정합니다 그것은 어떤 모양일까요? 어쨌든 특정 분포를 이룰 것입니다 여기서 n이 충분히 큰 수라고 가정합시다 그러면 이 분포는 정규분포가 되거나 혹은 정규분포로 근사될 수 있습니다 혹은 정규분포로 근사될 수 있습니다 분포를 살짝 이동시켜 봅시다 살짝 뾰족하게 그려보겠습니다 살짝 뾰족하게 그려보겠습니다 평균을 표시합니다 그러면 표본분포의 모평균은 X바로 표시되고 표본의 크기가 n일때 평균의 분포를 뜻합니다 이는 확률변수 Y에서도 똑같이 적용됩니다 이는 확률변수 Y에서도 똑같이 적용됩니다 중심극한정리로부터 표본분포의 분산은 표준오차라 불리는데 모분산을 n으로 나눈 값과 같습니다 모분산을 n으로 나눈 값과 같습니다 모분산을 n으로 나눈 값과 같습니다 표준편차를 구하려면 양변에 제곱근을 취하면 됩니다 확률변수 Y에 대해서도 반복해 봅시다 표본 평균의 표본분포를 그립니다 표본 평균의 표본분포를 그립니다 이제 확률변수 Y에 대해서 이야기 하고 있습니다 이번에는 표본의 크기가 전과 다르다고 합시다 반드시 달라야 할 필요는 없지만 꼭 같아야 할 필요도 없습니다 표본의 크기가 m이라 합시다 여기에 분포를 그립니다 모분포보다는 좁아질 것입니다 모분포보다는 좁아질 것입니다 표본의 크기가 충분히 크다면 정규분포에 근사할 수 있습니다 (표본 평균의) 표본분포의 평균은 모평균과 같습니다 이 결과는 이미 몇 번 본 적이 있습니다 이 결과는 이미 몇 번 본 적이 있습니다 표본 평균의 분산 또는 표준오차는 표본 평균의 분산 또는 표준오차는 사실 이것은 표준오차가 아닙니다 표준오차는 분산의 제곱근입니다 따라서 분산을 표준오차라고 하는 것은 옳지 않습니다 평균의 표준오차는 분산의 제곱근입니다 즉 표준편차인 것입니다 이것은 평균의 분산입니다 혼란을 피하기 위해 여기 평균의 분산도 마찬가지입니다 여기 평균의 분산도 마찬가지입니다 모분산을 표본의 크기로 나눈 것입니다 모분산을 표본의 크기로 나눈 것입니다 모분산을 표본의 크기로 나눈 것입니다 여기까지가 지난 번에 한 것에 대한 완벽한 복습입니다 조금 다른 것은 두 개의 서로 다른 확률변수를 다루었다는 것입니다 조금 다른 것은 두 개의 서로 다른 확률변수를 다루었다는 것입니다 두 개의 서로 다른 확률변수를 다룬데에는 이유가 있습니다 두 개의 서로 다른 확률변수를 다룬데에는 이유가 있습니다 이제 새로운 확률변수 하나를 정의하고 이제 새로운 확률변수 하나를 정의하고 이를 Z라고 합시다 그런데 Z는 두 표본 평균들의 차이와 같습니다 그런데 Z는 두 표본 평균들의 차이와 같습니다 그런데 Z는 두 표본 평균들의 차이와 같습니다 즉 X의 표본 평균과 Y의 표본 평균의 차이와 같습니다 무슨 뜻일까요? 적어도 이 분포에 대해 표본 평균을 구하기 위해서는 모집단으로부터 n개의 표본을 추출해야 합니다 모집단으로부터 n개의 표본을 추출해야 합니다 n은 10이라 합시다 표본 평균을 구하기 위해 10개의 표본을 추출합니다 그렇게 계산된 표본평균은 확률변수입니다 10개의 표본을 추출해 계산한 평균이 9.2라고 합시다 10개의 표본을 추출해 계산한 평균이 9.2라고 합시다 이 9.2는 바로 이 분포로부터 추출한 하나의 표본이 됩니다 이 9.2는 바로 이 분포로부터 추출한 하나의 표본이 됩니다 표본 크기가 m이어도 마찬가지입니다 m이 12라면 12개의 표본을 추출해 평균을 계산합니다 그 표본 평균이 15.2라고 한다면 이는 이 분포로부터 추출한 하나의 표본이 됩니다 표본분포의 하나의 표본이 됩니다 확률변수 Z의 정체는 바로 이 모분포에서 n개의 표본을 추출해 계산한 평균인 것입니다 그 다음 이 모분포에서 m개의 표본을 추출해 평균을 계산합니다 그리고 나서 평균들의 차이를 계산합니다 그리고 나서 평균들의 차이를 계산합니다 이는 또 다른 확률변수가 됩니다 그런데 Z의 분포는 어떤 모양일까요? 그런데 Z의 분포는 어떤 모양일까요? 한 번 그려 봅시다 당장 Z에 대해 두 가지 사실을 알 수 있습니다 당장 Z에 대해 두 가지 사실을 알 수 있습니다 사실 지난번 동영상에서 설명한 적이 있습니다 사실 지난번 동영상에서 설명한 적이 있습니다 Z 대신에 X바의 평균이자 X의 표본 분포에서 추출한 하나의 표본인 X의 표본 평균에서 Y의 표본 평균을 뺀 것으로 표기하겠습니다 X의 표본 평균에서 Y의 표본 평균을 뺀 것으로 표기하겠습니다 이는 지난 번 동영상에서 본 적이 있습니다 이 윗쪽에서 정리한 것이 있는 것 같습니다 여기 있네요 차이의 평균은 평균의 차이와 같습니다 차이의 평균은 평균의 차이와 같습니다 차이의 평균은 평균의 차이와 같습니다 차이의 평균은 평균의 차이와 같습니다 따라서 여기 이 새로운 분포의 평균은 X의 표본 평균에서 Y의 표본 평균을 뺀 것과 같습니다 X의 표본 평균에서 Y의 표본 평균을 뺀 것과 같습니다 X의 표본 평균에서 Y의 표본 평균을 뺀 것과 같습니다 이번 동영상에서는 약간 추상적으로 보일 지 모르지만 다음 동영상에서는 구체적인 숫자를 갖고 설명하도록 하겠습니다 다음 동영상에서는 구체적인 숫자를 갖고 설명하도록 하겠습니다 그렇게 하면 좀 더 쉽게 이해할 수 있으리라 기대하며 이로써 앞으로 무엇을 하고자 하는지 알게되고 결국 이 모든 것의 핵심은 평균 차이에 대한 통계적 추론에 있습니다 두 표본 평균의 차이가 우연인가 아닌가? 두 표본 평균의 차이가 우연인가 아닌가? 즉 평균 차이에 대한 신뢰구간은 얼마인가? 즉 평균 차이에 대한 신뢰구간은 얼마인가? 이것이 바로 우리가 알고자 하는 것입니다 어쨌든 여기 이 분포의 평균은 알고 있습니다 어쨌든 여기 이 분포의 평균은 알고 있습니다 그렇다면 이 분포의 분산은 무엇일까요? 그것에 대한 해답은 지난 동영상에서 본 바 있습니다 두 확률변수의 차이에 대한 분산은 두 확률변수의 각 분산의 합과 같습니다 두 확률변수의 각 분산의 합과 같습니다 그 동영상에서 보여주고자 했던 핵심은 두 분산의 차이가 아니라 두 분산의 합이라는 것입니다 아직 분포를 그리지는 않았지만 이 새로운 분포의 분산은 아직 분포를 그리지는 않았지만 이 새로운 분포의 분산은 그냥 X바 - Y바로 표기한다면 이 두 분포의 각각의 분산의 합과 같습니다 이 두 분포의 각각의 분산의 합과 같습니다 X바의 분산에 Y바의 분산을 더한 것입니다 여기에 이를 그려보겠습니다 이렇게 또 다른 분포를 그려볼 수 있습니다 결국 또 하나의 정규분포를 그리게 됩니다 결국 또 하나의 정규분포를 그리게 됩니다 여기가 평균이고 조금 아래로 내려가 봅시다 X바의 평균에서 Y바의 평균을 뺀 것은 여기 이 두 평균의 차이와 같습니다 여기 이 두 평균의 차이와 같습니다 다시 쓰지는 않겠습니다 다시 쓰지는 않겠습니다 분포곡선을 그려 봅시다 두 개의 분포보다 평평한 곡선을 그리고 있다는 것에 주목해 보세요 왜 그렇게 그렸을까요? 이 분산은 여기 두개의 분산들의 합이 되기 때문입니다 따라서 더 평평한 곡선을 갖게 되는 것입니다 이 두개 보다 더 큰 분산과 더 큰 표준편차를 갖게 됩니다 이 두개 보다 더 큰 분산과 더 큰 표준편차를 갖게 됩니다 특정 분산 즉 X바 - Y바의 분산이 됩니다 특정 분산 즉 X바 - Y바의 분산이 됩니다 원래의 모분포를 생각해 볼 때 이들의 실체는 무엇일까요? 원래의 모분포를 생각해 볼 때 이들의 실체는 무엇일까요? 여기에 그 답이 있습니다 표준편차가 무엇인지는 이미 알고 있습니다 이것이 모분포의 분산을 n으로 나눈 것과 같다는 것도 알고 있습니다 이것이 모분포의 분산을 n으로 나눈 것과 같다는 것도 알고 있습니다 이미 여러 번 보았던 것입니다 이것은 무엇과 같을까요? 이것은 무엇과 같을까요? 바로 모분포의 분산과 같습니다 바로 모분포의 분산과 같습니다 바로 모분포의 분산과 같습니다 X는 확률변수 X를 의미합니다 그러나 그 위에 바는 없습니다 이는 모분포 자체를 말하는 것이지 결코 표본 평균의 표본분포를 의미하는 것이 아닙니다 그래서 n으로 나눕니다 Y에 대한 표본분포의 분산을 위해 파란 색으로 표기하겠습니다 왜냐하면 확률변수 Y를 표기할 때 사용한 색이기 때문입니다 왜냐하면 확률변수 Y를 표기할 때 사용한 색이기 때문입니다 그것은 여기 이것과 같습니다 이미 여러번 본 적이 있습니다 정확히 이것과 같은 논리로 Y 모분포의 분산을 m으로 나눕니다 Y 모분포의 분산을 m으로 나눕니다 다시 한 번 이것을 앞에 쓰도록 하겠습니다 이것이 표본 평균의 차이에 대한 분산입니다 이것이 표본 평균의 차이에 대한 분산입니다 이것이 표본 평균의 차이에 대한 분산입니다 두 표본 평균 차이의 표준편차를 구하고 싶다면 양변에 제곱근을 취하면 됩니다 양변에 제곱근을 취하면 됩니다 이것에 제곱근을 취하게 되면 표본 평균 차이의 표준편차가 X의 모분포의 제곱근과 같다는 결과를 얻게 될 것입니다 즉 X 모분포의 분산을 n으로 나눈 것과 Y 모분포 분산을 m으로 나눈 것을 합한 것과 같습니다 Y 모분포 분산을 m으로 나눈 것을 합한 것과 같습니다 깔끔해 보이죠 마치 거리 공식과도 비슷하게 보입니다 마치 거리 공식과도 비슷하게 보입니다 여러분이 통계학에 더 익숙해질 때까지 기다리면서 이 모든 유형의 것들이 보다 심화된 주제에서 무엇을 의미하는지를 보여주도록 노력하겠습니다 그러나 이 모든 것의 핵심은 이제 우리가 평균 차이에 대한 추론을 할 수 있다는 것입니다 두 개의 표본을 추출해 각각의 표본 평균을 계산해 그 차이를 구하면 그 차이가 우연에 의한 것인지 아닌지에 대한 그 차이가 우연에 의한 것인지 아닌지에 대한 결론을 내릴 수 있습니다 다음 동영상에서 이 주제를 다룰 것입니다