이 메시지는 외부 자료를 칸아카데미에 로딩하는 데 문제가 있는 경우에 표시됩니다.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

주요 내용

표본분산

자료의 표본을 통해 모집단의 평균을 어떻게 예측할 수 있는지에 대해 생각해 봅시다. 만든 이: 살만 칸 선생님

동영상 대본

예를 들어 여러분이 사람의 시청습관을 알고 싶다고 합시다 예를 들어 여러분이 사람의 시청습관을 알고 싶다고 합시다 그리고 국가에서 몇 명이 TV를 시청하는지도 알고 싶어 합니다 그래서 여러분이 보아야 하는 것은, 전체 나라를 상상해야 한다는 것이고, 우리는 이미 미국같은 나라를 상상하겠지만, 인구가 아주 많은 나라가 있다고 가정해 봅시다 미국이라면 3억명을 조사해야 합니다 미국이라면 3억명을 조사해야 합니다 그래서, 비현실적인 방법이지만 3억명의 인구들을 한 명씩 TV 시청 시간을 조사해야 할 것입니다 TV 시청 시간을 조사해야 할 것입니다 그리고 모평균이라는 매개변수가 주어집니다 하지만 이 사건은 매우 비현실적인 사건이라는 것은 이미 알고 있습니다 아무리 시도해 보아도, 모든 조사를 끝냈을 때는 사람이 죽거나 새로운 사람이 태어나서 달라질 수 있습니다 미래의 일은 아무도 모르는 것입니다 그래서 이건 여기 있는 것이 사실입니다 거기에는 미국인 각각의 TV 시청 시간의 이론적인 평균이 주어져 있습니다 이론적인 평균이 주어져 있습니다 이 변수에는 사실이 하나 숨겨져 있는데, 정확한 값을 도출하기에는 거의 불가능하다는 것입니다 그래도 포기하지 않는다고 가정합시다 여러분은 3억명을 모두 알기 위해 모든 사람들 조사할 필요가 없다고 느낍니다 대신, 이 곳에 있는 사람들만 표본 조사할 것입니다 대신, 이 곳에 있는 사람들만 표본 조사할 것입니다 그리고 간단한 계산을 위해서 6개의 샘플을 조사할 계획입니다 왜 6인지는 나중에 설명하겠습니다 여러분이 좋아하는 크기의 샘플을 조사하면 되겠습니다 이제 여러분은 사람들이 시청하는 TV 시간을 조사하고 1.5시간을 시청하는 사람을 조사했습니다 다른 사람은 2.5시간을 시청했습니다 또 다른 사람은 4시간을 시청했습니다 그 다음에 2시간을 시청하는 사람을 만났고 1시간을 시청하는 2명의 사람을 각각 봤습니다 그래서 이 샘플의 값들에서 나올 수 있는 평균은 무엇입니까? 사실, 이 샘플 값 x는, 물론 소문자 위에 막대기를 그린 값은, 모든 값을 더한 다음 도수만큼 나눈 값입니다 그래서 1.5+2.5+4+2+1+1 이 값을 6으로 나누어야 합니다 이 값은 봅시다, 1.5+2.5는 4이고, 4를 더하면 8이고, 2를 더하면 10이고, 2롤 더하면 12입니다 그래서 12÷6이 되는 것입니다 따라서 2시간이 나오게 됩니다 그래서 이 최소한의 샘플을 가지고 여러분은 2시간이 평균이라고 할 것입니다 이 값은 추정에 불과합니다 단지 이 변수를 알기 위한 통계적 추정입니다 이건 구하기 매우 어려운 숫자입니다만, 이게 우리의 최선입니다 아마도 더 많은 값들이 모이면 더 좋은 답이 나올지도 모릅니다 하지만 지금은 이게 모든 값입니다 이제 여러분이 질문해야할 부분은 사실 저는 이 평균을 추정하고만 싶지는 않습니다 저는 또 다른 변수를 구하고 싶습니다 저는 인구의 변화에 대해서도 추정해 보고 싶습니다 그래서, 모든 인구를 조사하는 것은 불가능에 가까운 일이지만 불가능에 가까운 일이지만 우리는 이 변수를 추정해 보도록 노력할 것입니다 우리는 평균을 구하는 것을 시도해 보았습니다 이제 우리는 변화량에 대한 변수를 추정해 보고자 합니다 그럼 무엇을 해야 됩니까? 합리적인 논리로 설명하자면, 우리는 방금 한 것과 같이 샘플을 조사해야 할 것입니다 방금 한 것과 같이 샘플을 조사해야 할 것입니다 인구에 대한 변화량을 구할 거면 각 지점에 있는 인구를 구한 뒤 인구 평균과 뺀 다음 제곱을 하여서 모두 더합니다 제곱을 하여서 모두 더합니다 그 다음 도수로 나누면 됩니다 이 과정을 여기 대입해 보겠습니다 이제 각 지점별로 값을 구한 뒤 변화를 구해봅시다-- 다른 색깔을 사용하겠습니다-- 각각의 지점 사이 값의 변화량과 사용하겠습니다-- 각각의 지점 사이 값의 변화량과 인구 평균이 아닌, 우리의 표본 평균이 필요합니다 우린 인구 평균에 대해서는 잘 모릅니다, 표본 평균만 있을 뿐입니다 그래서 첫 번째 지점과 두번째 지점이고, 이 값은 4의 제곱 - 2의 제곱입니다 그리고 이 값은 여러분이 인구 변화량을 구할 때 해야 하는 솨정입니다 만약 이 값이 전체 인구였다면 이 과정이 인구의 평균을 구하는 과정입니다, 만약 전체 인구였을 떄 말입니다 그리고 여러분은 이 값들을 제곱 한 뒤 도수의 개수만큼 나눠야 합니다 그래서 한번 계산해 보겠습니다 1-2의 제곱과 2.5-2의 제곱을 샘플 평균으로 받습니다 2.5-2의 제곱을 샘플 평균으로 받습니다 초록색을 사용하겠습니다 2-2의 제곱, 그리고 1-2의 제곱이 주어집니다 그리고 여러분이 가지고 있는 값의 개수만큼 나눠야 합니다, 지금 여러분이 가지고 있는 값의 개수는 6개이니 6으로 나눠야 합니다 그리고 이 상황에서 무엇을 얻게 됩니까? 단순히 계산을 해보면 1.5 - 2는 -0.5입니다 이걸 제곱해보겠습니다 0.25가 나옵니다 1-2는 2가 되고, 이를 제곱하면 4가 됩니다 1-2는 -1이고, 이를 제곱하면 다시 1이 나옵니다 2.5-2는 0.5이고, 이를 제곱하면 0.25가 됩니다 2-2를 제곱하면, 0이 됩니다 그리고 1-2를 제곱하면 -1을 제곱하니 1이 됩니다 그래서 1입니다 이제 이걸 모두 더하기 위해서 천천히 더해보겠습니다 4+1은 5이고, 5+1은 6이고, 두개의 0.25는 6.5를 만들고, 잠시 색을 바꾸겠습니다 6.5를 만들고, 잠시 색을 바꾸겠습니다 그래서 이 값은 6.5가 됩니다 사실 이걸 쓸 수 있는 방법은 몇 가지가 있는데, 제 계산기를 가지고 계산해 보겠습니다 6.5를 6으로 나누면, 소수로 반올림하면 약 1.08이 나오게 됩니다 그래서 이 값은 어림잡아 계산할 때 1.08이 됩니다 이제 우리가 생각해야 할 것은, 과연 이값이 우리가 주어진 샘플에 가지고 있는 값 중의 최고의 값인지 아닌지 입니다 우린 언제나 더 많은 값이 나올 수 있다고 할 수 있습니다 하지만 우리가 부여받은 값들로 보았을 때, 과연 이 값이 변화량을 게산하는 데 가장 좋은 추정인지입니다 그리고, 저는 여러분이 잠시 생각해보길 바랍니다 사실, 우리가 가지고 있는 값들로 보았을 때, 우리가 할 수 있는 최고의 계산이 맞습니다 우리가 할 수 있는 최고의 계산이 맞습니다 그리고 가끔식 이건 표본 변화량이라고 불립니다 하지만, 이건 도수로 변량을 나눈 특별한 표본 변화량 입니다 그래서 사람들은 보통 여기에 n을 적을 것입니다 이 방법은 인구의 변화량을 재기 위한 추정에서 샘플의 변화량을 나타내는 방법입니다 하지만 이건-- 다음 동영상에서 알려주는 내용인데, 제가 왜 이렇게 결과가 나오는지 이해하기 쉽게 설명드리겠습니다 그리고 저는 여러분이 기운 낼 수 있도록 컴퓨터 시물레이션에 대해서도 쓸 것입니다 결국 이 변수는-- 여러분은 더 좋은 값을 가지겠지만, 처음에는 이상한 결과가 나옵니다 여러분이 처음 생각했을 때는, 인구 변화량에 대해서 더 좋은 결과가 나오는데, 만약 6으로 나누기 않고, 즉 도수만큼 나누지 않고 도수에서 1을 뺀 값을 나눈다면 과연 어떤 값이 나오게 됩니까? 과연 어떤 값이 나오게 됩니까? 그리고 우린 이걸 샘플 변화량이라고 할 수 있습니다 많은 사람들이 말하기를 샘플 변화량을 6으로 나누는 것이라고 말하지 않고 5로 나누는 것이라고 보통 말합니다 5로 나누는 것이라고 보통 말합니다 여러분도 5로 나눌 것입니다 결론적으로 그들은 n-1이라고 칭합니다 그래서 이 상황에서 우리는 무얼 받게 됩니까? 사실, 분자는 똑같은 값을 얻게 됩니다 우린 6.5를 얻게 됩니다 하지만 이제 우리의 분모는, n이 6일때 우린 6개의 도수를 가지고 있으니까 n이 6인 것입니다 우리는 1이 더 작은 5로 나누게 됩니다 우리는 1이 더 작은 5로 나누게 됩니다 그리고 6.5를 5로 나누면 1.3이 됩니다 그래서 우리가 이 방법으로 샘플 변화량을 구하게 된다면 더욱 복잡해 보이고 이상해 보일 것입니다 더욱 복잡해 보이고 이상해 보일 것입니다 여러분은 '왜 우리는 n으로 나누기 않고, n-1로 나누는 것입니까?' 라는 질문을 품을 것입니다 하지만, 우리는 인구 변화량을 추정한다는 것을 기억해야 합니다 결국에는 이게 더욱 좋은 방법인 것을 알게 될 것입니다 왜냐하면 이 계산은 인구 변화량을 더욱 적게 잡는 것이기 때문에 더 좋은 추정입니다 우리는 이 값이 무엇인지 잘 모릅니다 두 방법 모두 틀린 값일 수도 있습니다 이건 그저 샘플 안에서 일어나는 우연일 수도 있습니다 하지만 만약 우리가 더 많은 샘플을 생각하게 된다면, 이 계산법이 더 좋은 계산법이 될 것입니다 이 값이 우리에게 더 좋은 값을 불러들입니다 그렇다면 이걸 어떻게 적으면 됩니까? 이걸 수학적으로 어떻게 표현합니까? 먼저 우리가 합을 구한다는 것을 기억하시고, 각 지점을 더한다는 것을 생각하셔야 합니다 그래서 우리는 처음의 지점부터 n번째 지점까지 구할 것입니다 이 소문자 n은 우리가 표본을 구한다는 말이고, 만약 대문자 N일 시에는 모든 값을 더해 올린다는 것을 의미합니다 여기 우리는 샘플 크기의 n을 보고 있습니다 그래고 우리는 i항의 x를 더할 것입니다 이 값은 샘플 평균을 빼는 값입니다 이 값은 샘플 평균을 빼는 값입니다 그 다음 우리는 이걸 제곱할 것입니다 지금 우리는 거리들의 합을 제곱한 뒤, 가지고 있는 도수 값에서 1을 뺀 값으로 나눌 것입니다 그래서 이 계산법은 제가 모두 더했지만, 6이 아닌 5로 나뉩니다 *이 식은 표본 변화량의 계산법입니다 그래서 이 곳에 놔두겠습니다 다음 동영상에서, 저는 왜 n이 아닌 n-1로 나누는지 설명드리겠습니다