If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

표본평균의 표본분포 2

중심극한정리와 표본평균의 표본분포에 대해 더 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

이제 저희에게는 꽤 괜찮은 지식이 있습니다 표본평균의 표본분포에 대한 그리고 제가 이 영상에서 하고 싶은 것은 조금 더 탐험하는 것입니다 표본크기 n이 바뀌면서 분포가 어떻게 바뀌는지에 대해 여기에 n을 쓰겠습니다 우리 표본의 크기는 n입니다 약간의 복습으로 저희는 전에 봤습니다 임의의 이상한 분포로 시작해봅시다 이렇게 생겼을 수 있습니다 이산형 분포에 대해 하겠습니다 어떤 점에서 모델하기 위해서 여러분은 이산형으로 만들어야 합니다 오돌토돌한 이산형 분포가 될 수 있지만 이렇게 이상하게 생겼다고 해봅시다 이것은 분명히 정규분포가 아닙니다 하지만 첫번째 영상에서 봤듯이 표본의 크기가 4라고 합시다 이 분포에서 4개의 숫자를 택하면 4개의 임의의 숫자입니다 이것이 1, 2, 3, 4, 5, 6, 7, 8, 9의 확률이라고 해봅시다 여러분이 한 번에 4개의 숫자를 택하고 평균을 계산하면 여기에 합시다 여러분이 4개의 숫자를 한 번에 택하고 이 분포를 사용한다고 가정합시다 4개의 임의의 숫자를 만들기 위해 맞습니까? 9를 택할 것 같습니다 7이나 8은 선택하지 않을 것 같습니다 4도 선택하지 않을 것 같습니다 1이나 2를 선택할 것 같습니다 3도 가능성이 충분합니다 5도 마찬가지 입니다 저희는 이 함수를 사용합니다 임의의 수를 선택하기 위해서 4개의 표본을 선택한 다음에 평균을 냅니다 우리의 첫 번째 평균을 구해봅시다 9,5,9 그리고 1이라고 해봅시다 무엇인가요? 14+10은 24고 4로 나누면 첫 시도의 평균은 4개의 표본의 평균은 6입니다 다 더하면 24이고 4로 나누면 됩니다 여기에 그릴 수 있습니다 평균은 6 이었습니다 방금 한 것 처럼 계속 해보겠습니다 앞에서 한 것 처럼 계속 해보면 이런 식으로 보일 것입니다 정규 분포처럼 말이죠 다시 했을 때 평균이 6이고 그 다음은 5이고 그 다음 평균은 7이고 그 다음은 6이고 이것을 엄청나게 많이 반복하면 분포가 정규 분포처럼 보일 것입니다 이 네모들은 매우 작습니다 여러번 시도합니다 어떤 순간에 그것은 정규분포처럼 보일 수 있습니다 명백하게 몇 가지 평균 값이 있습니다 완벽한 정규분포는 아닐 것입니다 왜냐하면 여러분은 0보다 작은 평균을 얻을 수 없기 때문입니다 혹은 1보다 작은 평균을 얻을 수 없을 것입니다 0을 평균으로 가질 수는 없습니다 9보다 큰 평균 역시 가질 수 없습니다 때문에 무한히 긴 꼬리가 없을 것입니다 하지만 적어도 중간 부분은 정규분포로 근사할 수 있을 것입니다 이 영상에서 제가 생각해보고 싶은 것은 n을 바꾸면 어떤 일이 일어나는지 입니다 이 경우에 n은 4였습니다 n은 우리 표본의 크기입니다 시도마다 4개를 택했습니다 그리고 그들의 평균을 구해서 그렸습니다 저희는 n을 10으로 정할 수 있었습니다 저희는 이 모집단에서 10개의 표본을 택할 수 있었습니다 혹은 여러분은 이 임의의 변수에서 평균을 구하고 그릴 수 있었습니다 저번 영상에서 저희는 시물레이션을 했었습니다 바로 그 시물레이션으로 돌아가 보겠습니다 저희는 몇 가지 것들을 봤습니다 이번에는 더 깊게 보여주겠습니다 n이 꽤 작을 때 정규분포에 그렇게 잘 맞지는 않습니다 n이 작을 때 극한 상황에 대해 생각해 봅시다 n이 1일 때는 어떻게 되나요? 이것은 말 그대로 의미합니다 이 임의의 변수들 중 하나를 택해서 평균을 낸다는 것을 그것은 그냥 그 자신의 값이 될 것입니다 그래서 여러 번 시도를 하면 그리고 그리면 어떻게 생겼을까요? 그것은 분명히 정규분포처럼 생기지는 않았을 것입니다 여러 개의 1들이 있을 것이고 2도 여러 개 있을 것이고 3은 더 많을 것이고 4는 없을 것입니다 여러 개의 5가 있을 것이고 약간의 6들도 있을 것입니다 9도 여러 개 있을 것입니다 n이 1일 때 표본 평균의 표본분포는 보일 것입니다 저는 여러분이 얼마나 많은 시도를 했는지는 관심 없습니다 그것은 정규분포처럼 생기지 않았을 것입니다 중심극한 정리에서 여러 번의 시도를 했을지라도 정규분포처럼 보이는 것은 성립하지 않습니다 n이 1일 때는 하지만 n이 커지면 말이 되기 시작합니다 봅시다 n이 2면 저는 지금 암산하는 중입니다 저는 정확히 분포가 어떻게 될지는 모르겠습니다 하지만 여전히 어려울 것입니다 정확한 정규분포가 되기에는 하지만 여러분은 더 많은 예시를 들 수 있습니다 더 많은 시도를 할 수 있습니다 위에 있는 것들애서 얻을 수 있습니다 하지만 평균을 내는 통에는 2개의 숫자만 있습니다 예를 들어 여러분은 절대 7과1/2을 얻을 수 없습니다 n이 2일 때 표본평균의 표본분포에서 왜냐하면 불가능하기 때문입니다 7과 8을 얻는 것이 여러분은 절대 7과1/2을 얻을 수 없습니다 그래서 여러분이 그리면 이렇게 생겼을 것입니다 하지만 7과1/2에서 틈이 있을 것입니다 불가능하기 때문입니다 이렇게 생겼을 것입니다 그래서 여전히 정규분포는 아닙니다 n이 2일 때 여기 몇 가지 흥미로운 점들이 있습니다 첫 번째로 저는 이것을 처음 언급하는 것이 아닙니다 왜냐하면 여러분이 감각을 얻길 바라기 때문입니다 무엇이 증심극한 정리인지에 대한 중심극한정리는 말합니다 n이 무한대로 가면 여러분이 실제 정규분포를 얻을 수 있다고 하지만 실제 연습에서는 여러분은 2를 넘는 그렇게 큰 n을 잡을 필요는 없습니다 여러분이 n이 10 혹은 n이 15일 때를 잡으면 정규분포와 매우 근사해집니다 정규분포로 매우 빠르게 접근합니다 다른 한 가지는 여러분이 많은 시도를 원한다는 것입니다 이것이 표본의 크기입니다 이것이 표본의 크기입니다 통 안의 크기입니다 맨 처음 영상에서 저는 이것을 했습니다 표본의 크기를 4로 정했습니다 제가 저번 영상에서 했던 시뮬레이션에서 저희는 표본의 크기가 4일 때와 10일때 등등에 대해서 했습니다 이것은 표본의 크기가 1입니다 이것이 저희 표본의 크기입니다 표본의 크기가 무한대로 가면 여러분의 표본평균의 실제 표본분포가 정규분포에 도달합니다 실제로 그 정규분포를 보기 위해서 그리고 여러분 스스로 증명해보기 위해서 여러분은 이것을 매우 많이 해야합니다 기억하세요 정규분포는 일어납니다 이것은 일종의 모집단입니다 혹은 임의의 변수입니다 이것은 모든 가능성에 대해 말해줍니다 실생활에서 저희가 모든 가능성을 아는 경우는 드뭅니다 사실 실생활에서 저희는 순수 확률생성함수에 대해 아는 경우가 드뭅니다 저희가 그것을 쓰고 있는 경우를 제외하면 저희가 컴퓨터 프로그램을 쓰는 보통 저희는 표본을 합니다 그리고 저희는 그것들을 측정하려 합니다 보통 임의의 변수가 있습니다 그리고 아마 저희는 몇 가지 표본을 택할 것입니다 저희는 그것들의 평균을 구해서 그립니다 그러면 저희는 정규분포의 일종을 얻을 수 있습니다 저희가 100개의 표본을 택해서 평균을 낸다고 생각해봅시다 저희는 정규분포를 얻을 것입니다 이론적으로 그것들의 평균을 수백, 수천번 구해보면 저희의 데이터 세트는 더 가깝게 근사됩니다 순수한 표본평균의 표본분포로 이것은 실제 분포입니다 이것은 실제평균을 바탕으로한 실제 분포입니다 이것은 순평균을 가집니다 표본평균의 표본분포의 평균은 이렇게 쓰도록 하겠습니다 제가 그냥 x라고 쓰지 않은 것에 주목하세요 이것은 실제 모평균이라고 말하고 있습니다 이것은 실제 임의의 변수의 평균입니다 여러분이 모든 표본들에 대한 확률에 대해 봤다면 모분포에서 택할 수 있는 몇 임의의 모분포로 부터 모든 확률에 대해 고려하면 표본크기에 대해 말해봅시다 저희가 다루고 있다고 해봅시다 표본의 크기가 10인 표본 10개의 모든 조합을 택하면 몇 개의 모분포에서 그리고 그것들을 평균내면 이것은 함수를 설명해줄 것입니다 물론 실생활에서 여러분이 모분포에 대해서 알지 못하면 무한개의 표본을 택할 수 없습니다 여러분은 모든 조합에 대해 알지 못합니다 여러분이 1000번의 시도를 했다면 10개의 표본을 1000번 택했다면 그리고 1000번 평균을 구해서 그렸다면 매우 가까워질 것입니다 다음으로 제가 하고 싶은 것은 저희는 n이 무한대로 가면 정규분포가 된다는 것은 알고 있습니다 아까 말했듯이 n이 10인 것도 꽤 좋습니다 n이 20이면 더 좋습니다 하지만 저번 영상에서 저희는 봤습니다 적어도 저는 꽤 흥미로운 것을 찾았습니다 저희가 이 이상한 분포에서 시작한다고 해봅시다 정말 아무 상관 없습니다 어떤 분포에 대해 하는지는 시뮬레이션에서 봤듯이 n이 n이 5라고 해봅시다 그래프 5개의 표본을 택하고 평균내고 10000번 반복하면 그래프는 이렇게 생겼을 것입니다 이렇게 넓을 것입니다 n이 10일 때를 했다면 저희 그래프는 틈새를 비집고 들어갈 것입니다 이렇게 말입니다 더 정규분포스러워졌을 뿐 아니라 이것은 중심극한정리가 저희에게 말해주는 것입니다 더 큰 표본크기를 택하기 때문입니다 하지만 더 작은 표준편차를 가집니다 흑온 작은 차이를 가집니다 평균은 두 경우 모두 같을 것입니다 하지만 표본의 크기가 커지면 표준편차는 작아집니다 실제로 표준편차가 작아졌습니다 모집단의 분포에 비해 혹은 원래의 확률밀도함수에 비해 그것을 시뮬레이션을 통해 보여드리겠습니다 다 지우겠습니다 이 시뮬레이션은 어떠한 것보다도 좋습니다 제가 가장 먼저 보여드리고 싶은것은 이 분포가 정말 좋습니다 제가 가장 먼저 보여주고 싶은 것은 n이 2인 것이 좋지 않다는 것입니다 n이 2일 때와 16일 때를 비교해봅시다 n이 2일 때와 16일 때를 비교할 때 한 번 해봅시다 두 번의 시도를 하고 평균을 냅니다 16에 대해서 할 것입니다 여기에 그림을 그릴 것이고 여기에 평균을 쓸 것입니다 10000번 해봅시다 주의하세요 n이 2일 때 저희가 10000번 했어도 이것은 정규분포에 가까이 가지 못합니다 여러분은 실제로 왜곡도와 첨도를 통해 볼 수 있습니다 오른쪽으로 양인 왜곡도를 가지고 있습니다 이것은 왼쪽보다 오른쪽의 꼬리가 더 길다는 것을 의미합니다 그리고 음의 첨도를 가지고 있습니다 이것은 짧은 꼬리와 더 작은 피크를 가지고 있다는 것을 의미합니다 표준정규분포보다 n이 16일 때 같은 것을 해보면 이 분포함수에서 16개의 표본을 택하고 평균내면 그리고 이 각각의 점들은 평균을 나타냅니다 저희는 10001번 했습니다 평균이 같은 것에 주목하세요 하지만 갑자기 첨도는 훨씬 작아졌습니다 왜곡도 역시 훨씬 작아졌습니다 이 상황은 정규분포에 더 가깝습니다 하지만 더 흥미로운 것은 표준편차가 더 작다는 것입니다 이것이 저것보다 더 비집고 들어가있습니다 분명히 더 비집고 들어가 있습니다 원래 분포보다 이제 2개와 해봅시다 다시 다 지우겠습니다 저는 이 분포가 좋습니다 왜냐하면 비정규분포이기 때문입니다 어떤 면에서 이것은 이정곡선 같습니다 이제 가정합시다 2개의 n을 뭐로 할지 좋은 n들로 n이 16일 때를 합시다 저것은 좋고 건강한 n입니다 그리고 n이 25일 때를 합시다 그리고 그 둘을 비교합시다 첫 시도로 애니메이션 모드로 하겠습니다 이것은 항상 보기 좋습니다 먼저 이것은 16개를 평균냅니다 잘 하고 있습니다 그리곤 25에 대해 할 것입니다 그리고 평균 낼 것입니다 여기 있습니다 제가 방금 애니메이션으로 한 것을 해봅시다 10000번 해봅시다 컴퓨터는 참 대단합니다 주목하세요 이것은 10000번 입니다 이것은 모두 꽤 좋은 근사입니다 정규분포의 n이 25일 때 더 정규분포와 유사합니다 왜곡도가 작고 n이 16일 때보다 약간 더 작습니다 첨도도 조금 더 작습니다 이것은 정규분포에 더 가깝다는 것을 의미합니다 n이 16일 때보다 하지만 더 흥미로운 것은 이것이 더 가운데에 모여있다는 것입니다 이것은 더 작은 표준편차를 가집니다 여기서 표준편차는 2.1이고 여기서 표준편차는 2.64입니다 이것은 또 다른 것입니다 저는 저번 영상에서 약간 다뤘습니다 그리고 말이 됩니다 모든 표본들에 대해 평균을 구하면 표본에 더 많이 넣을수록 표준편차가 작아집니다 극한 상황에 대해 생각해보세요 분포에서 16개의 표본을 택하는 것 대신에 혹은 25개를 택하는 것 대신에 이 분포에서 백만개의 표본을 택했다고 해봅시다 이 분포에서 백만개의 표본을 택했다면 그 표본의 평균은 항상 모집단의 평균과 매우 유사합니다 제가 백만개의 표본을 택하면 백만개 표본의 평균을 구하려하면 그러면 저 평균에 대해 꽤 좋은 값을 얻을 수 있습니다 백만개의 확률은 매우 작습니다 n이 백만이라면 제 모든 표본의 평균은 그것들을 모두 평균 내보면 그 자체의 평균 근처에 모여 있을 것입니다 여러분이 이해가 되었길 바랍니다 그렇지 않다면 생각해 보세요 혹은 이 도구를 사용해 실험해보세요 이게 실제라는 것을 믿기 위해서 그것은 사실 밝혀줍니다 매우 명확한 공식이 있다는 것을 원래의 확률분포함수의 표준편차와 표본분포의 표준편차를 연관시켜주는 표본평균의 그리고 여러분이 상상할 수 있듯이 이것은 표본크기에 관한 함수입니다 그것들을 평균내기 전에 얼마나 많은 표본을 통에 넣는지에 관한 그것에 대해서는 다음 영상에서 조사하겠습니다