If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

표본평균의 표본분포

중심극한정리와 표본평균의 표본분포. 만든 이: 살만 칸 선생님

동영상 대본

우리는 저번 영상에서 아마도 통계에서 가장 심오한 개념인 중심 극한 정리에 대해 배웠습니다 이 정리가 이렇게 중요한 이유는 확실한 평균과 분산을 가진 모든 분포에서 사용할 수 있기 때문입니다 저번 영상에서 여기에 표준편차를 적었고 이 부분이 평균이 됩니다 그리고 분산이 있다고 합시다 σ^2 로 표기할 수도 있고 표준편차를 적어줄 수도 있습니다 하지만 확실한 평균과 표준편차가 있다면 분포의 모양은 중요하지 않습니다 우리가 할 수 있는 것은 표본을 구하는 것입니다 저번 영상에서 말한 크기가 4인 표본을 구하는 것은 말 그대로 이 집단에서 무작위로 4개의 변수를 추출하는 것입니다 이것이 그 예입니다 평균을 구할건데 이것이 첫번째 시도의 평균입니다 또는 첫번째 추출이라고 할 수 있습니다 여러분이 헷갈린다는 것을 압니다 이것이 표본인지 한세트가 표본인지 각각의 변수가 표본인지 헷갈릴 겁니다 여기서 약간 헷갈릴 수 있습니다 하지만 첫번째 표본의 평균을 구했고 이를 계속 반복해야 합니다 두번째 표본의 크기도 4입니다 이 집단에서 무작의로 4개의 변수를 구하고 평균을 내어 다른 평균을 구했습니다 이때 중심극한정리의 멋진 점은 평균의 도수분포를 구하다 보면 정규분포와 유사한 값으로 점점 가까워진다는 것입니다 이런 수렴은 집단의 크기 n이 커질 수록 더 정확해 집니다 이것을 용어로 정의하자면 여기서 추출한 도수분포든 이곳이나 처음 시작한 위에서 추출한 정규분포 모두 이렇게 부릅니다 표본이란 용어가 너무 많이 나와 헷갈릴 수 있는데 표본평균의 표본분포를 구한다고 합니다 이 문장을 잠시 분석해 봅시다 문장이 꽤나 길지만 약간의 센스를 발휘해 봅시다 표본분포를 구한다고 할때는 이것이 어떤 통계값으로부터 파생된 것이라고 할 수 있습니다 이 경우에는 표본 평균이 기존의 분포로부터 파생되었습니다 그렇기 때문에 이것이 크기가 4인 첫번째 표본이고 평균이라는 확률값을 사용합니다 사실 다른 값으로도 할 수 있습니다 최빈값이나 범위등의 통계값을 사용할 수도 있습니다 하지만 표본의 평균을 구하는 것이 가장 일반적인 것 입니다 제가 생각하기에는 아마도 중심극한정리를 공부하기 시작하기에 가장 좋은 때입니다 표본분포를 공부할때도 마찬가지입니다 표본분포에 대해 정의해 보았습니다 기초적인 밑바탕으로 실험적으로 증명해보도록 하겠습니다 통계에서는 수학적인것 보단 실험적인 것들이 더 편할 때가 있습니다 이 값이 여러분의 기존 분포의 평균값과 동일한 값을 가집니다 여기있는 기존의 분포에서 같은 평균을 가지고 있습니다 다음 영상에서 보겠지만 이 부분은 정규분포로 따르게 됩니다 비록 정규분포를 따르지 않는 우리의 기존 분포에서 만들어졌지만 말입니다 이제 이 어플을 사용해 보도록 합시다 저작권 문제에 유의합시다 Rice대학에서 만든것으로 기억합니다 onlinestatbook.com 에 있습니다 이 어플은 상당히 깔끔하다고 생각합니다 왜냐하면 여러분에게 표본 평균의 표분추출을 추출하는 것을 시각화하는데 도움을 주기 때문입니다 여기 저만의 분포를 만들었습니다 살짝 재미있는 일을 해보려 합니다 방법만 알면 이산 확률 분포나 연속 확률 분포 를 사용하여 여러분도 해볼 수 있습니다 우리는 32개의 값 중 하나를 조작할 겁니다 32개의 값에 대해서 서로 다른 확률을 부여해 줄겁니다 오른쪽 이부분은 정규분포를 따르지 않습니다 두개의 꼭짓점을 가지는 듯해 보입니다 이제 처음으로 할 것은 시물레이션을 사용해서 표본분포가 무엇인지에 대해 더 나은 이해를 도울 것입니다 제가 할 것은 5번을 기준으로 합시다 즉 표본의 크기는 5입니다 에니메이션이 보이게 하면 이 확률분포중 5개의 확률값을 가져와서 에니메이션을 누르면 볼 수 있겠지만 5개의 표본을 가져와서 평균을 내어 아래부분에 나열할 것입니다 다시클릭하면 또 반복합니다 정리하면 여기서 5개의 표본을 가져오고 평균을 내어 표시합니다 제가 뭘 한거죠? 클릭했군요. 이걸 지우고 싶은데요 아래의 값을 삭제해봅시다 이제 다시 해봅시다 한번에 5개씩 구합니다 이 위에서 5개의 표본을 구해서 이 밑에 평균을 나열합니다 이 밑에 평균을 나열합니다 다시한번 해볼께요 확률분포의 5개 값을 이곳에 나열합니다 계속 할 수 있습니다 시간이 좀 걸릴겁니다 여러분도 볼 수 있듯이 이곳에 나열했습니다 이를 영원히 반복할 수 있습니다 하지만 1000번만 한다고 가정합시다 명확히 하기 위해서 이 프로그램은 랜덤한 숫자를 생성하고 있습니다 조작된 프로그램이 아닙니다 즉 확률분포의 값에 따라서 랜덤한 숫자를 생성하고 있습니다 한번에 5개씩 골라서 평균을 구합니다 결국 10000을 클릭하면 10000번 반복하게 됩니다 즉 이곳에서 10000번 5개의 수를 고르고 수들의 평균을10000번 구하고 10000 개의 값을 나열합니다 이제 시작해 봅시다 결과가 나욌습니다 알아차렸겠지만 이미 정규분포와 닮았습니다 제가 말했듯이 기존의 분포의 평균은 14.45였습니다 그리고 10000번의 반복결과 평균은 14.42가 나왔습니다 결국 원래의 평균에 상당히 근접했습니다 하지만 우리의 정규분포의 값은 조금 작습니다 이 문제에 대해서는 다음 영상에서 다룰 것입니다 또한 이런 왜곡과 차이는 분포의 정규성을 파악하는데 도움이 됩니다 이 점에 대해서는 전에 언급한 적이 있습니다 이것이 상당히 흥미롭기 때문에 주제에서 잠깐 벗어나 보도록 하겠습니다 게다가 이것은 그닥 복잡하지 않습니다 오차는 말 그대로 알려줍니다 다른 색으로 해봅시다 만약 이것이 완벽히 정규분포를 따르면 제 그림실력은 완벽과 거리가 있지만 만약 이것이 완벽한 정규분포라면 이곳의 오차는 0 일것입니다 만약 여러분이 양성 차이를 가진다면 그래프는 상대적으로 오른쪽이 긴 모양이 될 겁니다 즉 이런 형태가 될 것입니다 오른쪽으로 긴 꼬리가 나와있죠 이것이 양성 오차였습니다 이상적인 정규분포에 비하면 조금 작습니다 그리고 음성 오차는 이렇게 생겼습니다 왼쪽에 긴 꼬리를 가졌습니다 이렇게 생겼습니다 이것이 음성 오차입니다 기억하는데 어려움이 있다면 꼬리가 어느 방향을 향하는 지 기억하세요 이 꼬리는 음의 방향으로 뻗었고 이 꼬리는 양의 방향으로 뻗었습니다 그러므로 차이가 없는 것이 있다면 평균 주위로 대칭적이라는 의미입니다 그닥 와 닫지 않는 첨도라는 것에 대해서는 개념을 이해하면 간단합니다 다시한번 완벽한 정규분포를 그린다고 한다면 정규분포는 한가지만 있는 것이 아니므로 여러분은 다른 평군값과 다른 표준편차를 가질 수 있습니다 이것이 완벽하게 정규분포를 따른다고 하면 양성 첨도를 가질때 어떤일이 일어날지 알아봅시다 그래프는 더 굵은 꼬리를 가지게 될겁니다 다시 그려보겠습니다 이렇게 굵은 꼬리를 가지지만 더 뾰족한 꼭짓점을 가집니다 이렇게 까지 그릴 필요는 없습니다 이렇게 그려봅시다 굵은 꼬리를 가지고 정규분포보다 뾰족한 꼭짓점을 가집니다 즉 이것이 양성 첨도입니다 결국 양성 첨도를 가진다는 것은 정규분포보다 얼마나 더 뾰족한지에 달려있습니다 그리고 음성 첨도는 작은 꼬리를 가지고 있지만 중간부분은 더 부드럽습니다 이렇게 생겼습니다 즉 이런 형태를 나타내는 것이 음성 첨도를 가집니다 아마 우리는 나중 영상에서 더 구체적인 것을 탐구할 겁니다 아까의 시뮬레이션 결과는 이 분포의 정규성을 보여줍니다 우리의 표본크기 n=5 일때 10000번 반복한다면 정규분포에 상당히 가까워집니다 어떤일이 일어나는지 보기 위해 10000번 더 해봅시다 정규분포에 더 가까워졌습니다 우리의 평균은 이제 정확해졌습니다 하지만 우리는 아직 작은 오차와 작은 첨도 차이가 있습니다 이제 표본의 크기를 키웠을때 어떤 차이가 있는지 보도록 합시다 이건 즉시 할 수 있습니다 이것은 n=일때 입니다 여기에는 n=25일때를 해봅시다 잠시 지우도록 하겠습니다 지금부터 표본평균의 표본분표를 구해보도록 하겠습니다 10000번 반복할 겁니다 우리가 뭘 하고 있는지 알기 위해 에니메이션을 한 번만 해보겠습니다 이곳에서 처음 5개의 표본을 가져옵니다 평균을 구합니다 이제 25개의 표본을 가져와서 평균을 구합니다 그리고 이 밑에 나열합니다 크기 5와 25가 이렇게 나뉩니다 한번 더 해보도록 합시다 5개를 가져와서, 평균을 구하고 나열합니다 25개를 가져와서, 평균을 구하고 아래에 나열합니다 표본의 크기가 커졌습니다 방금 한 것을 10000번 반복합니다 기억해야 할 것은 우리의 처음 분포가 뒤죽박죽에 정규분포를 따르지 않았다는 것입니다 하지만 실행시켜 봤을때 켜져버렸네요 스크롤을 조금 올려줍시다 이제 무엇이 흥미롭습니까? 제 말은 둘다 정규적이지만 오차와 첨도를 확안해보면 표본의 크기가 클때, 더 정규적입니다 표본의 크기가 5일때 보다 오차가 작고 음성 첨도의 정도 또한 표본의 크기가 5일때보다 작습니다 즉 정규분포에 더 가깝다고 할 수 있습니다 또한 우리가 나중 영상에서 찾아낼 것이지만 단순히 모양만 정규분표애 가까운 것이 아닙니다 평균값에 더 묶여있습니다 이것이 왜 성립하는지 알아볼 필요가 있습니다 표본의 크기가 커지면 값들이 평균에서 멀리 벗어나지 않습니다 확률이 낮기 때문입니다 25개나 100개의 표본을 잡으면 여러분은 이곳에서 상당한 양의 값을 빼냈거나 이곳에서 빼낸 것이 됩니다 이 결과 여러분은 의미있는 분포를 구할 가능성이 높아집니다 결국 여러분의 평균 즉 표분평균이 기존의 평균과 차이나지 않는다고 할 수 있습니다 이것에 대해선 나중에 더 이야기해 봅시다 하지만 이 사실은 여러분을 안심시킬 겁니다 최소한 실험적으로는 제가 아직 수학적으로는 증명해보이지 않있지만 앞으로 하게되길 바랍니다 여러분을 안심시킬 사실은 최소한 실험적으로는 중심극한정리가 그 어떤 분포에 대하서도 다 만족한다는 것입니다 이것은 정말 엉망진창인 분포입니다 저는 여러분이 이 어플을 사용하기를 권장합니다 다른 뒤죽박죽인 분포에 대해서도 실험해 보시기 바랍니다 여러분 스스로 믿을 수 있도록 말입니다 결론적으로 인상깊은 것은 우리가 정규분포에 다가가고 있지만 표본의 크기가 커짐에 따라서 정규분포에 더 근접해 진다는 것입니다