주요 내용
현재 시간:0:00전체 재생 길이:15:15

동영상 대본

지난 영상들에서 배운 것을 떠올려 봅시다 임의의 모양을 가진 분포를 생각해볼텐데 꼭 그럴 필요는 없고 물론 정규분포도 상관 없습니다 하지만 모든 분포에 적용된다는 것을 더 잘 보이기 위해 하지만 모든 분포에 적용된다는 것을 더 잘 보이기 위해 제멋대로 생긴 분포를 그리겠습니다 이렇게 멋대로 생긴 분포 곡선이 있습니다 이렇게 멋대로 생긴 분포 곡선이 있습니다 이렇게 멋대로 생긴 분포 곡선이 있습니다 지난 영상에서 여러 번 했듯 이제 이 분포에서 표본을 뽑을 것입니다 표본의 개수를 n이라 하고 n=10이라 합시다 즉 10개의 표본을 임의로 뽑는다는 것입니다 그리고 평균을 계산하여 그래프에 그려 봅시다 그런 것 하나는 여기있다 하고 이제 이 과정을 반복합니다 이제 이 과정을 반복합니다 다시 10개의 표본을 뽑아 평균을 계산하여 그래프에 그립니다 이론적으로 이 과정을 무한 번 반복하면 이론적으로 이 과정을 무한 번 반복하면 표본평균의 표본분포를 얻을 수 있습니다 표본평균의 표본분포를 얻을 수 있습니다 n=10 일 때는 완벽한 정규분포가 그려지지는 않겠지만 비슷한 모양이 그려질 것입니다 완벽한 정규분포는 n이 무한대일 때만 얻어집니다 어찌되었든 표본평균을 여러 번 반복하여 구하면 어찌되었든 표본평균을 여러 번 반복하여 구하면 이렇게 그래프가 쌓이겠죠 이렇게 그래프가 쌓이겠죠 결국 이런 모양의 그래프를 얻을 것입니다 결국 이런 모양의 그래프를 얻을 것입니다 지난 동영상에서 이야기했듯 n=20 으로 잡고 똑같은 과정을 반복하면 n=20 으로 잡고 똑같은 과정을 반복하면 얻을 분포는 더 정규분포에 가까워질 것입니다 이후 영상에서 첨도나 왜곡 같은 더 심화된 개념들을 다루어 보겠습니다 이후 영상에서 첨도나 왜곡 같은 더 심화된 개념들을 다루어 보겠습니다 정규분포에 더 가까워지고 짚고 넘어갈 또 다른 점 하나는 표준편차가 더 작아진다는 것입니다 표준편차가 더 작아진다는 것입니다 평균값은 어떤 경우에도 똑같습니다 평균이 5라고 해 봅시다 이 표본평균의 표본분포의 평균은 5가 됩니다 이 표본평균의 표본분포의 평균은 5가 됩니다 이 표본평균의 표본분포의 평균은 5가 됩니다 n이 어떤 값인지는 상관이 없습니다 n이 20일 때도 평균은 5입니다 하지만 표준편차는 여기 두 경우보다 작아집니다 하지만 표준편차는 여기 두 경우보다 작아집니다 해보면 알 수 있죠 해보면 알 수 있죠 더 정규분포에 가까워지는 동시에 더 작은 표준편차를 보일 것입니다 이런 모양이 되겠죠 n이 더 큰 경우를 생각해 볼까요? 다른 색깔로 그려보겠습니다 n=100인 경우를 생각해 봅시다 n=100인 경우를 생각해 봅시다 정규분포에 더 가까운 것을 얻게 됩니다 정규분포에 더 가까운 것을 얻게 됩니다 100개의 표본을 확률변수에서 추출하여 평균을 구하고 그래프를 그리고 100개의 표본을 확률변수에서 추출하여 평균을 구하고 그래프를 그리는 과정을 여러 번 반복합니다 이 때 표본분포는 이렇게 정규분포에 더 가까워집니다 하지만 정규분포에 더 가까워지는 것보다 하지만 정규분포에 더 가까워지는 것보다 우리 눈에 더 확실히 보이는 것은 바로 이 폭이 더 좁아진다는 것입니다 더 작은 표준편차를 가져서 이런 그래프가 그려집니다 더 작은 표준편차를 가져서 이런 그래프가 그려집니다 이후 동영상에서 시뮬레이션을 사용하여 더 정확히 보여드리겠습니다 정리하자면 표본평균을 구할 때 추출하는 표본의 수가 많아지면 두 가지 변화가 뒤따릅니다 곡선은 정규분포에 더 가까워지고 표준편차가 더 작아집니다 곡선은 정규분포에 더 가까워지고 표준편차가 더 작아집니다 이제 이에 관련한 공식이 있는지 궁금해질 것입니다 표준편차를 알고 있다면 이것을 기존 확률밀도함수의 표준편차라고 합시다 이것을 기존 확률밀도함수의 표준편차라고 합시다 𝞵는 확률밀도함수의 평균입니다 표준편차를 알고 있고 n이 표본평균을 구할 때 추출하는 표본의 수에 따라 바뀐다고 할 때 n이 표본평균을 구할 때 추출하는 표본의 수에 따라 바뀐다고 할 때 표준편차는 분산으로도 표현이 가능한데 분산은 표준편차의 제곱입니다 이 내용을 모른다면 관련된 영상을 참고하기를 바랍니다 원래 분포의 분산을 알고 있고 n을 알고 있다면 그러니까 표본평균의 표본분포에 그릴 평균을 구하는 데 사용할 표본의 개수를 알고 있다면 이 분포들의 평균값을 알아낼 방법이 있는가 하는 것입니다 이 분포들의 평균값을 알아낼 방법이 있는가 하는 것입니다 미안합니다 평균이 아니라 표준편차를 알고 싶은 것입니다 표준편차보다 분산을 사용하는게 편할 것 같습니다 표준편차보다 분산을 사용하는게 편할 것 같습니다 분산을 알면 표준편차도 쉽게 알 수 있습니다 분산의 제곱근 값이 표준편차입니다 분산의 제곱근 값이 표준편차입니다 이 값은 여기 최초 분포의 분산입니다 이것이 표본평균 표본분포의 분산임을 보이기 위해 여기에 적도록 하겠습니다 이것은 표본평균의 분산입니다 실제 평균은 먼저 정의한 μ임을 잊지마세요 실제 평균은 먼저 정의한 μ임을 잊지마세요 실제 평균은 먼저 정의한 μ임을 잊지마세요 그리고 이것은 표본평균을 의미합니다 그리고 이것은 표본평균을 의미합니다 그래서 이것은 표본평균의 분산임을 의미합니다 그래서 이것은 표본평균의 분산임을 의미합니다 이 분포는 정확한 실제 분포입니다 추정치가 아니라요 이 분포를 알고 있다면 실제 분산을 찾을 수 있습니다 물론 이 분포의 평균도 구할 수 있습니다 이는 우리가 구한 표집 평균 분포의 평균값을 의미합니다 이는 표본평균 표본분포의 평균을 의미합니다 이는 표본평균 표본분포의 평균을 의미합니다 평균의 평균이라고도 할 수 있겠네요 결국 같은 말입니다 이것은 표본평균의 평균입니다 이것과 같죠 시행을 더 많이 할수록 더 같아집니다 다시 요점으로 돌아와서 최초 분포의 분산과 n이 주어졌을 때 이 분산은 어떻게 구할까요? 최초 분포의 분산과 n이 주어졌을 때 이 분산은 어떻게 구할까요? 언제나 해결방법은 존재합니다 이 영상에서 증명을 하지는 않겠습니다 직관적인 것만 짚고자 합니다 벌써 눈치 챘을 수 있겠지만 각 시행에서 100개의 표본이 있으면 평균을 구했을 때가 n이 2나 5일 때보다 실제 평균에 더 가깝습니다 n이 2나 5일 때보다 실제 평균에 더 가깝습니다 5보다 100일 때 더 멀리 있을 가능성이 더 적은 것이죠 5보다 100일 때 더 멀리 있을 가능성이 더 적은 것이죠 그래서 자연스럽게 분산은 n과 역수 관계에 있음을 유추할 수 있습니다 n이 커지면 커질수록 표준편차는 작아집니다 실제 관계식은 사실 매우 간단합니다 수학이 마법처럼 느껴지는 이유 중 하나이죠 언젠가 증명을 보여주겠지만 우선은 더 실용적인 지식에 집중하려고 합니다 통계학 동영상을 만들 때마다 엄밀한 증명을 보여주어야 하는지 고민이 되는데 그보다 실용적인 것들을 먼저 알려주는 것이 더 중요하다는 결론을 내렸습니다 그리고 그 이후에 더 수학적인 증명을 다루도록 하겠습니다 그리고 그 이후에 더 수학적인 증명을 다루도록 하겠습니다 그리고 그 이후에 더 수학적인 증명을 다루도록 하겠습니다 지금은 시뮬레이션 같은 것을 이용해서 이것이 실제로 맞다는 것을 확인하는 것으로 충분할 것 같습니다 다시 돌아와서 표본평균 표본분포의 분산은 다시 돌아와서 표본평균 표본분포의 분산은 여기 최소 분포의 분산을 n으로 나눈 값과 같습니다 여기 최소 분포의 분산을 n으로 나눈 값과 같습니다 그게 다입니다 이것의 분산이 20이라 해 봅시다 이것의 분산이 20이라 해 봅시다 임의의 숫자를 대입해보는 것입니다 그리고 n도 20이라고 합시다 n이 20일 때 표본평균 포본분포의 분산은 n이 20일 때 표본평균 포본분포의 분산은 이것의 분산 20을 n인 20으로 나눈 값이 됩니다 이것의 분산 20을 n인 20으로 나눈 값이 됩니다 따라서 이것의 분산은 20/20으로 1이 됩니다 따라서 이것의 분산은 20/20으로 1이 됩니다 이것은 최초 확률분포의 분산이고 이것은 최초 확률분포의 분산이고 이것은 임의로 정한 n입니다 이제 표준편차는 어떻게 될까요? 표준편차는 분산의 제곱근이므로 1의 제곱근 값인 1이 표준편차가 될 것입니다 1의 제곱근 값인 1이 표준편차가 될 것입니다 이렇게 적을 수 있겠죠 이 식의 양변에 제곱근을 취할 수 있습니다 그러면 표본평균 표본분포의 표준편차는 평균의 표준편차라고도 하고 평균의 표준오차라고도 합니다 평균의 표준오차라고도 합니다 평균의 표준오차라고도 합니다 이것은 모두 표본평균 표본분포의 표준편차라는 뜻입니다 표본평균 표본분포의 표준편차라는 뜻입니다 헷갈립니다 평균이나 표본과 같은 단어를 계속 사용하자니 정말 헷갈리네요 평균이나 표본과 같은 단어를 계속 사용하자니 정말 헷갈리네요 추가 영상을 만들수도 있으니 정말 많이 헷갈리면 알려주세요 아니면 일시정지를 하거나 돌려 보세요 양변에 제곱근을 취하면 좌변은 표준오차 혹은 표본평균의 표준편차가 되고 좌변은 표준오차 혹은 표본평균의 표준편차가 되고 정규분포가 아닐 수 있는 최초 확률밀도함수의 표준편차를 정규분포가 아닐 수 있는 최초 확률밀도함수의 표준편차를 정규분포가 아닐 수 있는 최초 확률밀도함수의 표준편차를 n의 제곱근으로 나눈 값과 같습니다 각 변에 제곱근을 취한 것 뿐입니다 개인적으로 분산값 n과 역수관계에 있다는 기억으로부터 개인적으로 분산값 n과 역수관계에 있다는 기억으로부터 이것을 계산해 내는 것을 좋아합니다 이것은 굉장히 간단하니까요 분산을 n으로 나누기만 하면 되죠 그리고 표준편차를 알고 싶다면 그저 양변에 제곱근을 취해주기만 하면 됩니다 그저 양변에 제곱근을 취해주기만 하면 됩니다 n=20일 때 표본평균의 표준편차는 1이었습니다 n=20일 때 표본평균의 표준편차는 1이었습니다 n=20일 때 표본평균의 표준편차는 1이었습니다 n=100일 때 표본평균 표본분포의 분산은 n=100일 때 표본평균 표본분포의 분산은 혹은 n=100일 때 표본평균의 분산은 20/100으로 1/5가 됩니다 20/100으로 1/5가 됩니다 이제 이 표본평균 표본분포의 표준편차 이제 이 표본평균 표본분포의 표준편차 또는 평균의 표준오차는 이 값의 제곱근 값이 됩니다 즉 1/5의 제곱근이죠 그래서 n = 100일 경우에 표본평균 표본분포의 표준편차는 0.5 이하입니다 n=20일 때는 표준편차가 1이었죠 작아지는 것을 확인할 수 있습니다 자 이제 공식만 이렇게 주어서는 믿음이 안간다고 이야기 할 수도 있습니다 그러니 시뮬레이션을 사용하여 이를 제대로 확인할 수 있는지 봅시다 약간의 재미를 위해 이 분포를 조금 망가뜨리겠습니다 약간의 재미를 위해 이 분포를 조금 망가뜨리겠습니다 자 조금 더 재밌는 모양의 분포가 생겼네요 n을 이제 정할텐데 표준편차를 구해야 하니 제곱근을 구하기 쉽게 표준편차를 구해야 하니 제곱근을 구하기 쉽게 n=16 과 n=25인 경우를 생각하겠습니다 그리고 10,000번 시행합니다 매 시행에서는 16개의 표본을 뽑아 평균을 구하여 그래프를 그리고 매 시행에서는 16개의 표본을 뽑아 평균을 구하여 그래프를 그리고 빈도표를 만들고 여기에는 25개의 표본을 뽑아 평균을 구할 것입니다 이해를 돕기 위해 애니메이션으로 한 번 보겠습니다 16개의 표본을 뽑아 평균을 구해 점을 찍습니다 이 확률밀도함수에 따라 16개 혹은 25개의 표본이 주어집니다 이 확률밀도함수에 따라 16개 혹은 25개의 표본이 주어집니다 그리고 여기에 그리는 것입니다 이제 이를 10,000번 반복하면 어떤 그래프가 그려질까요? 이제 이를 10,000번 반복하면 어떤 그래프가 그려질까요 좋습니다 이제 이 두 그래프를 보면 n이 커질수록 표준편차는 작아진다는 것을 확인할 수 있습니다 표준편차는 작아진다는 것을 확인할 수 있습니다 적어 봅시다 적어 봅시다 적어 봅시다 임의로 만든 분포의 표준편차는 9.3입니다 임의로 만든 분포의 표준편차는 9.3입니다 이 값을 기억해야 합니다 최초 분포의 표준편차는 9.3입니다 그리고 n=16일 때 표준편차는 2.3 n=25일 때 표준편차는 1.87입니다 이 값들이 앞서 배운 공식을 만족하는지 확인해봅시다 잠시 이 화면을 치워두고 다시 약간의 계산을 해봅시다 다른 화면에 이 시뮬레이션 화면을 띄워놨습니다 숫자들을 제대로 기억하기 위해서요 임의로 만든 분포의 표준편차는 9.3이었습니다 임의로 만든 분포의 표준편차는 9.3이었습니다 n=16일 때 표본평균 표본분포의 표준편차 n=16일 때 표본평균 표본분포의 표준편차 n=16일 때 표본평균 표본분포의 표준편차 n=16일 때 표본평균 표본분포의 표준편차 즉 표준오차는 실험적으로 2.33이 나왔습니다 즉 표준오차는 실험적으로 2.33이 나왔습니다 그리고 n=25일 때 평균의 표준오차는 1.87이었습니다 그리고 n=25일 때 평균의 표준오차는 1.87이었습니다 이제 앞서 배운 공식에 이 값들을 대입해 보겠습니다 표본평균 표본분포의 분산은 표본평균 표본분포의 분산은 최초 분포의 분산을 n으로 나눈 것과 같다고 했습니다 최초 분포의 분산을 n으로 나눈 것과 같다고 했습니다 최초 분포의 분산을 n으로 나눈 것과 같다고 했습니다 이 식에 제곱근을 취하면 평균의 표준오차는 최초 분포 표준오차를 평균의 표준오차는 최초 분포 표준오차를 n으로 나눈 값의 제곱근과 같아집니다 이제 값들을 대입해 보겠습니다 9.3은 표준편차 값이었으니 이 식에 대입해야겠죠 16의 제곱근은 4이므로 9.3/4입니다 16의 제곱근은 4이므로 9.3/4입니다 16의 제곱근은 4이므로 9.3/4입니다 16의 제곱근은 4이므로 9.3/4입니다 계산기를 이용하겠습니다 여기 값을 대입하면 여기 값을 대입하면 여기 값을 대입하면 2.32가 구해집니다 2.33에 상당히 가까운 값이 나왔습니다 이 값은 10,000회 시행한 경우입니다 20,000회나 30,000회 반복했을 때를 확인해 볼 수도 있겠습니다 20,000회나 30,000회 반복했을 때를 확인해 볼 수도 있겠습니다 20,000회나 30,000회 반복했을 때를 확인해 볼 수도 있겠습니다 이제 n=25일 때를 생각해 봅시다 9.3을 가지고 선을 그어주고요 그냥 옆으로 이동하는게 낫겠네요 그냥 옆으로 이동하는게 낫겠네요 최초 분포의 표준편차 9.3을 가지고 최초 분포의 표준편차 9.3을 가지고 공식에 따르면 표준오차는 최초 분포의 표준편차 9.3을 최초 분포의 표준편차 9.3을 n의 제곱근, √25로 나눈 것과 같습니다 아까 4는 16의 제곱근이었죠 9.3/5이 1.87인지 확인해봅시다 9.3/5이 1.87인지 확인해봅시다 계산기를 다시 가져왔습니다 9.3/5 을 계산하면 1.86이 구해집니다 1.87에 상당히 가깝습니다 1.86이 구해집니다 1.87에 상당히 가깝습니다 시뮬레이션으로 10,000회 반복하여 구한 값들이 시뮬레이션으로 10,000회 반복하여 구한 값들이 공식과 상당히 잘 일치한다는 것을 확인할 수 있습니다 10,000회 시행을 다시 해 봅시다 10,000회 시행을 다시 해 봅시다 괜찮은 범위이지만 공식에 완전히 일치하는 값을 얻기는 힘들 것입니다 공식에 완전히 일치하는 값을 얻기는 힘들 것입니다 하지만 이 시뮬레이션을 통해 n 개의 표본을 추출하여 구한 표본평균 표본분포의 분산은 n 개의 표본을 추출하여 구한 표본평균 표본분포의 분산은 최초의 분포가 어떤 모양이던 최초의 분포가 어떤 모양이던 그 분포의 분산을 n으로 나눈 값과 같다는 것을 그 분포의 분산을 n으로 나눈 값과 같다는 것을 충분히 확인할 수 있었습니다 오늘 배운 것의 요약입니다 표본평균 표본분포는 표본들의 평균값의 분포이므로 굉장히 헷갈릴 수 있습니다 또 표본 크기라 함은 한 번의 시행에서 추출하는 표본의 개수를 의미하는지 표본을 뽑아 평균을 얻은 횟수를 의미하는지 헷갈리기도 합니다 확실하게 해서 나쁠건 없죠 일반적으로 표본 크기라 함은 여지껏 이야기한 n을 의미합니다 다시 정리하자면 표본 크기가 16으로 주어졌을 때 16개의 표본을 추출하여 평균을 구하는 것이 한 번의 시행입니다 그리고 그리는 것이죠 똑같은 과정을 한 번 더 반복하면 한 번의 시행을 더 한 것입니다 그리고 여러 번 이를 반복하는 것입니다 모든 것들이 이제 분명하게 이해되었으면 좋겠습니다 그럼 지금까지 표준오차에 대한 내용들을 다루어 보았습니다 그럼 지금까지 표준오차에 대한 내용들을 다루어 보았습니다 그럼 지금까지 표준오차에 대한 내용들을 다루어 보았습니다