주요 내용
현재 시간:0:00전체 재생 길이:9:44

편향되지 않은 표본분산에 대해 왜 n-1로 나누는지에 대한 복습과 직관

동영상 대본

이번 영상에서는 표본분산을 구하는 공식에서 모분산에 대한 불편 추정치를 알고 싶을 때 n-1을 나누어주는 이유에 대한 직관적 접근을 다시 복습해 볼 것입니다 한 모집단에 대해 생각해봅시다 이것이 그 모집단이라고 해 봅시다 크기가 N이라고 하고 이 집합에서 이 만큼이 표본이라고 해봅시다 이만큼이 표본이라고 하고 크기는 n입니다 이만큼이 표본이라고 하고 크기는 n입니다 그러면 알고 있는 모든 개념들을 다시 생각해 봅시다 우선 평균에 대해 생각해 봅시다 이 모집단에서 평균을 구하려고 한다면 그것은 모수일까요 통계량일까요? 모집단에 대해 계산을 하게 된다면 구한 값은 모수가 될 것입니다 구한 값은 모수가 될 것입니다 이것을 적어봅시다 모집단에 대해서 구하게 되면 구한 값은 모수가 될 것입니다 구한 값은 모수가 될 것입니다 그리고 만약 모집단이 아닌 표본에 대해 값을 구하면 그것을 통계량이라고 합니다 그러면 모집단의 평균의 경우는 어떤가요? 우선 이것을 그리스 문자 μ로 나타냅시다 모집단의 모든 변수들을 넣고 모든 변수들의 합을 구하고 즉 첫 변수로부터 시작하여 대문자 N개 까지의 변수를 다 더해줍니다 모든 변수를 다 더해줍니다 이것은 i번째 자료라는 뜻이고 이것은 곧 x1에서 xN까지의 합을 뜻합니다 그 다음 가지고 있는 자료의 개수로 이것을 나눕니다 그러면 이에 반해 표본평균은 어떻게 구할까요 표본평균의 경우도 앞선 방법과 매우 비슷합니다 표본평균의 경우도 앞선 방법과 매우 비슷합니다 이 때는 x위에 막대기를 그려 표현하는데 표본의 모든 자료를 가지고 첫 번째부터 n 번째까지 차례로 더해줍니다 즉, 이 또한 표본 내의 모든 자료의 합을 표본의 데이터 개수로 즉, 이 또한 표본 내의 모든 자료의 합을 표본의 데이터 개수로 나누어주는 것입니다 모집단에 대해 계산했던 모수를 표본에 대해서도 계산을 해보고 모집단에서 대해서 추정을 해 볼 또 다른 값은 바로 분산입니다 분산이란 데이터들이 평균으로부터 얼마나 떨어져 있는지를 나타낸 값입니다 여기에 분산을 써봅시다 모집단에 대해 분산을 어떻게 나타내고 또 계산할까요 모집단에 대한 분산은 그리스 문자 시그마 제곱을 사용하고 이는 평균으로부터 점들의 거리의 제곱의 평균으로 나타내집니다 이는 평균으로부터 점들의 거리의 제곱의 평균으로 나타내집니다 이것을 수식으로 표현하면 i를 1에서 n까지 자료와 모평균의 차이를 구합니다 따라서 일단 이것을 계산하기 위해서는 이것을 알아야 합니다 이것은 첫 번째 방법이고 차차 이 두가지를 동시에 계산하는 방법 또한 배울 것입니다 하지만 가장 쉽고 직관적인 방법은 이것을 먼저 계산하고 그 값과 평균과의 차이를 구하고 그 값과 평균과의 차이를 구하고 제곱한 후에 자료의 개수만큼 나누어주는 것입니다 이제는 좀 더 재미있는 표본분산에 대해 알아봅시다 표본분산에 대해 이야기할 때에는 사람들이 사용하는 몇가지 방법들 혹은 계산할 수 있는 몇 가지 방법들이 있습니다 첫 번째 방법은 편향 표본 분산입니다 모분산의 편향된 추정량입니다 그리고 이것은 주로 s 아래첨자 n으로 표현됩니다 그리고 이것은 주로 s 아래첨자 n으로 표현됩니다 그러면 편향 추정량은 무엇이고 어떻게 계산할까요 계산하는 방법은 여기서 분산을 구한 방식과 비슷합니다 하지만 여기서는 모집단이 아닌 표본에 대해서 구할 것입니다 따라서 n개의 자료에 대해 따라서 n개의 자료에 대해 각 각을 표본평균에서 빼줍니다 빼주고 그것을 제곱한 후 가진 자료의 개수로 나누어줍니다 저번 영상에서 이것에 대해 이야기하였었습니다 가장 편향되지 않은 모분산 추정량을 찾는 방법에 대해서요 가장 편향되지 않은 모분산 추정량을 찾는 방법에 대해서요 이것이 주로 구하게 될 문제일 것입니다 주로 편향되지 않는 모분산 추정량을 구하게 될 것입니다 주로 편향되지 않는 모분산 추정량을 구하게 될 것입니다 저번 영상에서는 만약 우리가 편향되지 않은 추정량을 구하는 것에 대해 알아보았고 이번 영상에서는 그 이유에 대한 직관적 접근을 다룰 것입니다 일단 합을 구할 것입니다 즉 표본 안의 모든 자료를 보고 각 자료를 선택해 표본평균에서 뺀 후 제곱할 것입니다 하지만 n으로 나누는 대신 n-1로 나누어줄 것입니다 좀 더 작은 숫자로 나누어줄 것입니다 좀 더 작은 숫자로 나누어줄 것입니다 더 작은 값으로 나누어주기 때문에 값은 더 커질 것입니다 즉 크기가 더 커질 것입니다 이것은 상대적으로 값이 작을 것입니다 그리고 이것을 우리는 불편추정량이라 부릅니다 그리고 이것을 우리는 불편추정량이라 부릅니다 그리고 이것을 우리는 편향추정량이라 부릅니다 만약 이렇게만 써있다면 표본 분산을 뜻합니다 둘 중 무엇을 의미하는지는 알아야 합니다 둘 중 무엇을 의미하는지는 알아야 합니다 하지만, 만약 추가적인 정보 없이 추해야 한다면 아마 불편추정량에 대해 이야기 하고 있는 것일 겁니다 따라서 n-1로 나누어주겠죠 하지만, 왜 이 추정량이 편향되어 있는지 왜 이렇게 더 큰 값의 추정량을 원하는지에 대해 생각해봅시다 어쩌면 먼 미래에 n-1로 나누는 것이 실제 모분산에 대한 더 정확한 추정을 할 수 있다는 것을 보여주는 컴퓨터 프로그램이 등장할지도 모르겠습니다 일단 모집단 안의 모든 자료에 대해 생각해 봅시다 이 자료를 선 위에 점으로 찍어 볼 것입니다 그럼 이것이 수직선이라고 해봅시다 이것이 바로 수직선입니다 모집단의 모든 점들을 여기에 찍어볼 것입니다 이렇게 말입니다 이렇게 말입니다 여기에도 데이터들이 있고 저기에도 데이터들이 조금 있습니다 이런 방식으로 원하는 만큼 점을 찍을 수 있습니다 이것은 수직선 위에 점입니다 이것들에서 임의의 표본을 추출할 것입니다 이것이 제 전체 모집단일 것입니다 몇 개가 있는지 봅시다 총 14개 있네요 그럼 이 경우 대문자 N은 얼마일까요? 대문자 N은 14가 될 것입니다 대문자 N은 14가 될 것입니다 여기서 크기 n의 표본을 추출하겠습니다 표본의 크기는 3입니다 우선 먼저 이 자료의 평균이 어디즈음 있을지 생각해봅시다 이 자료의 평균이 어디즈음 있을지 생각해봅시다 제가 그린 것을 토대로 보면 물론 정확하게 계산하지는 않을 것입니다 아마 여기 즈음 평균이 위치할 것입니다 따라서 실제 평균 모평균은 모수는 여기 즈음에 위치할 것입니다 자 이제 표본을 추출하였을 때 어떻게 되는지 봅시다 직관적으로 다가오게 하기에 표본을 작게 할 것이지만 이는 표본 크기와 관계없이 성립합니다 그러면 표본 크기가 3이라고 해봅시다 따라서 표본크기가 3인 표본을 추출할 때 모평균에 가깝게 추출하는 경우에 수가 있을수도 있습니다 경우에 수가 있을수도 있습니다 예를 들면 저 점과 저 점 그리고 이 점을 표본으로 추출하면 표본평균과 모평균이 꽤나 가까울 수 있습니다 표본평균과 모평균이 꽤나 가까울 수 있습니다 하지만 이와 반대되게 표본을 다음과 같이 저것과 저것 그리고 저것을 추출하면 여기서 중요한 점은 표본을 추출할 때에 표본평균은 언제나 표본 내부에 위치해야 합니다 따라서 표본을 추출하였을 때 모평균이 표본 밖에 위치하는 상황이 있을 수 있습니다 따라서 이 경우 그리고 이 경우는 직관을 주기 위해 만든 경우입니다 이 경우는 표본 평균이 이 즈음에 위치할 것입니다 이 경우는 표본 평균이 이 즈음에 위치할 것입니다 따라서 이 점들과 표본 평균 사이의 거리를 구하고 나서 그 거리를 제곱하고 표본의 크기로 나누어주면 실제 분산보다 훨씬 더 작은 추정 분산이 나오게 될 것입니다 여기서 실제 분산은 모평균을 사용하여 구한 값입니다 여기서 실제 분산은 모평균을 사용하여 구한 값입니다 물론 언제나 표본 범위 밖에 실제 평균이 위치하는 것은 아니지만 충분히 가능성이 있습니다 따라서 일반적으로 표본을 추출하여 표본의 자료와 실제 평균이 표본 끝자락에 있던 표본 밖에 있던 항상 표본 내부에 있을 표본 평균 사이의 거리의 제곱을 구하게 되면 이것을 생각해보면 모분산보다 과소평가할 가능성이 있습니다 모분산보다 과소평가할 가능성이 있습니다 모분산보다 과소평가할 가능성이 있습니다 따라서 지금 이 식은 모분산을 과소평가한 것입니다 따라서 만약 n으로 나누는 대신 n-1로 나누게 된다면 표본분산이 약간 더 크게 구해질 것입니다 따라서 이것이 불편추정량입니다 다음 영상에서는 컴퓨터 프로그램을 사용하여 왜 n-1로 나누는 것이 n으로 나누는 것보다 더 좋은 추정치인지에 대해 설명할 것입니다