If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

왜 분산을 n-1로 나눌까요?

다음은 n-1로 나누는 과정이 모분산에 대해 불편추정량을 내놓는다는 또 다른 시각적 증거 자료입니다. 시뮬레이션: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. 만든 이: 살만 칸 선생님

동영상 대본

여기 Khan Academy의 사용자 Justin이 간단한 분산을 계산할 때 표본 모수에 대한 추정을 왜 n-1로 나누는지 보여주기 위해 만든 시뮬레이션이 있습니다 그의 시뮬레이션은 균일한 분포가 있는 모수 값을 가지고 있습니다 그리고 그는 0부터 100까지의 인구를 확률적인 분포로 가지고 있다고 합니다 그리고 우리는 모수를 표본화시킬 것입니다 우린 크기가 50인 표본을 쓸 것입니다 그리고 각 표본에 대해서 도수 n으로 나누는 방법과 n-1, n-2로 나누는 방법의 분산 계산법을 이용할 겁니다 그리고 더 많은 표본들을 가져감으로서 다른 방법으로 계산되는 분산의 평균들을 받게 될 것입니다 여기서 우리는 이 평균들이 어디로 집중되는지 알 겁니다 여기 표본이 있고 다른 표본도 있습니다 다른 표본도 있습니다 만약 이 곳을 표본화 시킨다면 지금 무한히 표본화시켰을 것입니다 그리고 매우 신기한 것이 발생합니다 만약 값을 n으로 나누게 된다면 아주 많은 양의 분산들을 넣어도 저는 그저 참값보다 적은 분산값을 도출해낼 것입니다 만약 n-1로 변량을 나눈다면 표본 분산의 평균이 참된 분산값과 매우 비슷하게 도출되게 됩니다 제가 만약 변량을 n-2로 나누게 된다면 표본 분산의 평균이 참된 변화량의 값을 넘게 된다는 사실을 알 수 있습니다, 즉 참 분산보다 큰 값이 나옵니다 그래서 n-1로 변량이 잘 나오게 된다는 사실을 알 수 있습니다 이제 다른 방법은 이 값들을 그려보는 것입니다 그래프의 세로 부분은 표본의 값들의 각각 참된 값들로부터의 거리를 나타내는 부분입니다 그렇다면 만약 이 값이 왼쪽으로 기울면 표본 평균이 참된 평균값보다 얼마나 적게 됩니까? 예를 들어 여기 있는 표본은 오른쪽으로 매우 치우쳐 있습니다 이 표본의 평균은 참된 평균값 보다 많은 평균입니다 여기 있는 표본 평균은 참된 평균값보다 많이 작습니다 이 표본의 평균은 참된 평균보다 조금 컸을 것입니다 가로의 축에서는 도수 n을 분모로 하여서 두 개의 다른 분산을 계산합니다 첫 번째 분산은 표본 평균을 이용하는 것이고 다른 분산은 인구 평균을 이용하는 것입니다 그리고 세로축에서는 표본 평균으로 계산되는 평균과 모수 평균으로 계산되는 평균의 차이를 측정하는 역할을 하게 됩니다 예를 들어서 여기 있는 표본에서 일반적인 방법인 표본 평균을 이용해서 평균을 계산하면 일반적인 방법인 표본 평균을 이용해서 평균을 계산하면 누군가가 모수 평균을 알고 그것을 이용하여서 계산하는 값보다는 낮았을 것입니다 그리고 매우 신비한 도형이 나오게 됩니다 생각해봐야 할 내용입니다 이제 Justin은 왜 이런 모양이 나오게 되는지 알게 하고 싶습니다 또 다른 신기한 사실은 이 방면으로 보았을 때 그래프 전체가 가로축 아래에 있는 것으로 보입니다 그래프 전체가 가로축 아래에 있는 것으로 보입니다 우리는 표본 분산을 계산할 때 보통 표본 평균을 사용하지만 우린 보통 모수 평균을 사용하는 것보다 적은 값들을 내보내게 됩니다 n-1을 나누는 부분에서는 값이 늘 작게 나오지는 않습니다 가끔씩은 더 크게 값이 나옵니다 그리고 모든 분산의 평균을 계산하면 값이 맞아떨어지게 됩니다 그리고 여기서는 값이 조금 더 크게 나옵니다 다르게 설명하자면 우리는 이 세 개의 그래프에서 더욱 깊게 설명할 수 있습니다 여기 있는 빨간 그래프는 (제가 하겠습니다) 빨간색과 비슷한 색입니다 그래서 이 주황색에서는, 각 편차들을 우리는 모수 분산을 계산하기 때문에 표본 평균을 사용하겠습니다 그리고 이 상황에서 우리는 n을 분모로 사용할 것입니다 여기 있는 상황을 말입니다 만약 우리가 모수평균을 안다면 여기에서 표본 분산 혹은 가짜 표본 분산을 뺍니다 이건 통계에서 많이 볼 수 있는 것이 아닙니다 하지만 이건 우리가 분포에서 참된 모수 평균을 가지지 않을 때 얼마나 표본 분산이 낮게 측정되었는지를 나타내는 수치입니다 그래서 이게 거리입니다 우리가 계산해야 할 거리입니다 그리고 여기 있는 값도 적게 나타납니다 여기서는 약간 넘게 됩니다 그리고 적게 나오기도 합니다 하지만 이 모든 값들의 평균을 매기면 실제 값과 비슷해집니다 그래서 우리는 n-1로 나누고 여기서는 n-2로 나누는 것입니다 여기서는 n-2로 나누는 것입니다