주요 내용
확률과 통계
코스: 확률과 통계 > 단원 3
단원 6: 표준편차 더 알아보기편향된 표본분산에 대한 시뮬레이션
피터 콜링리지(Peter Collingridge)의 시뮬레이션은 편향되지 않은 표본분산을 계산할 때, 왜 (n-1)로 나누는지에 대해 더 나은 이해를 제공합니다. 시뮬레이션 : http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428
. 만든 이: 살만 칸 선생님
동영상 대본
여기 있는 시뮬레이션은 Peter Collingridge가 칸 아카데미의 컴퓨터 연습장을 이용하여서 왜 공정한 표본 변화량을 계산할 때 도수 n이 아닌 n-1로 나누는지 알기 위해 만들었습니다 우리가 만약 인구에 대한 변화량을 공평한 방법으로 구하고 싶을 때 이 시뮬레이션은 무작위의 인구 분포를 설계하고, 우리가 이걸 사용할 때 마다 우리가 이걸 사용할 때 마다 인구 분포도가 다르게 나올 것입니다 이건 383명의 인구가 있고, 인구를 이용해서 바로 변수를 구합니다 인구를 이용해서 바로 변수를 구합니다 여기서 평균은 10.9이고, 변수는 25.5입니다 그리고 이 인구를 이용하여서 표본화 시키는데, 여기 크기가 2, 3, 4, 5부터 10까지 있고, 계속 표본화시켜서 통계적으로 샘플들을 계산합니다 샘플 평균과 변화량, 그리고 공평한 조건의 변화량을 구한다는 말입니다 이때부터 우리에게 약간의 직감을 주기 시작하는 것 같습니다 여러분도 한 번 클릭해 보면 그래프의 자세한 내용들을 보실 수 있습니다 저는 이미 다 캡처하여서 제 조그마한 낙서 패드에 넣었습니다 그래서 여러분도 이것이 무엇을 뜻하는지 파고들 수 있을 것입니다 여기 제가 캡처를 하였고, 여러분이 보시는 이 사건에서는 인구가 529명입니다 인구 평균은 10.6입니다 아래에 있는 표를 보면, 그가 여기 표에서 인구 평균을 10.6으로 만들었습니다 그리고 여기를 보면 인구 변화량이 36.8이 되는 것 같고, 이 표에서도 36.8이라고 쓰여 있습니다 첫 번째 표는 아래 왼쪽에 있고 몇 가지 사실에 대해 알려줍니다 더욱 자세히 알기 위해, 이건 그가 계산하고 있는 공정한 샘플 변화량입니다 여기 변화량이 있습니다 그래서 그가 게산하고 있는 것입니다 이건 각 데이터 지점들마다 계산되는 것입니다 그래서 각 샘플의 첫 지점부터 시작해서 n번째의 데이터 지점까지 할 것입니다 당신은 데이타 지점을 가져간 뒤 평균을 빼고 제곱하여서 n-1로 나누지 않고 소문자 n으로 나눕니다 이건 여러 가지 신기한 사실들을 줍니다 첫 번째로 보여지는 것은 우리가 변화량을 낮게 평가하는 그 사건에서 변화량은 0으로 가까워 집니다 그 사건에서 변화량은 0으로 가까워 집니다 여기 있는 사건들도 모두 사건이고, 이 표본 사건에서 나오는 평균들은 참된 평균값과 많이 떨어져 있거나, 바깥 방향으로 많이 돌려서 할 수 있습니다 평균이 많이 떨어져 있는 표본 평균의 사건들은 이 상황에서 여러분이 많이 이 사건의 변화량을 과소평가하는 듯 합니다 이제 우리 앞에서 새로 나타난 것은 더 분홍색 계열의 색인 것이 더 작은 표본의 크기이고, 파란색 계열쪽인 색으로 갈수록 크기가 커집니다 그리고 여러분이 보시는 이 작은 두 개의 꼬리 아니면 혹같은 곳에서 더 빨간색인 점들이 많아 보입니다 보라색이나 파란색의 빛들은 모두 중심에 모여 있습니다 즉, 더 좋은 결과를 추정하게 됩니다 여기 빨간 색이 조금 있고, 이건 보라색의 색들도 만듭니다 하지만 이 끝에서는 보라색이 아니라 빨간색을 만듭니다 가끔씩 우연에 의해서 파란색이 잠시 보이는 듯 하지만, 전체적으로는 여러분에게 빨간색의 느낌을 주고, 이는 곧 작은 표본의 크기를 주고, 이는 더 나쁜 추정의 결과라는 것을 알려줍니다 즉, 인구 평균에서부터 거리가 멀다는 것입니다 그리고 여러분은 더욱 더 표본 변화량을 더욱 과소평가할 것입니다 다음 표는 화제의 본론으로 옮겨가게 되는데, 그 이유는 여기서 우리에게 알려주는 것은 각 샘플 사이즈, 즉 여기 있는 샘플 크기 2에서, 만약 우리가 계속 크기가 2인 것을 가지고 계속 공정한 샘플 변화량을 모든 것의 평균을 구하여서 인구 변화량으로 나눈다면 우리는 아주 많은 크기가 2인 시도들을 인구 변화량으로 나눈 표본 변화량이 인구 참 변화량의 반으로 가까워지는 듯합니다 샘플 크기가 2일 때는 2/3에 가까워지고 있고, 이는 즉 66.6%입니다 크기가 4일 때는 인구 변화량 참값의 3/4에 가까워지고 있고 우리는 여기서 일반적인 것을 생각해낼 수 있습니다 우리가 공정한 추정을 사용할 때, 우리는 인구 변화량에 가까워지고 있습니다 우리는 n-1÷(n과 인구 변화량의 곱)의 값에 가까워지고 있는 것입니다 n이 2였을 때, 1/2에 가까워지고 있습니다 n이 3일 때는 2/3입니다 n이 4일 때는 3/4입니다 그래서 이건 공정한 추정을 주는 것입니다 그럼 이걸 어떻게 해결해야 할 것입니까? 만약 우리가 인구 변화량의 참값을 좋은 결과를 얻고 싶다면, n-1/(n × 인구 변화량) 대신 우리는, 새로운 색을 사용하겠습니다 우리는 n÷(n-1)을 곱해야 할 것입니다 여기, 이 값들은 사라지고 인구 변화량과 함께 이것만 남습니다 이건 우리가 원하는 추정입니다 여기 있는 식에서는 우리는 공정한 표본 변화량만 압니다 그 값은 즉, 그리고 이건 통계 책을 볼 때, 헷갈리겠지만, 운 좋게도 Peter의 시뮬레이션이 좋은 생각을 줍니다 그 주제는 이 사건을 더욱 쉽게 해결하게 도와줄 것입니다 그래서 저는 n-1을 나누라고 하고 싶습니다