If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:6:43

시행 사이의 "독립"을 가정하는 10%의 규칙

동영상 대본

통계학을 더 깊이 배우는 과정에서 특정 분포가 정규분포라고 혹은 또 어떤 분포는 이항분포라고 가정하는 것은 가치가 있을 것입니다 왜냐하면 그렇게 할 수 있다면 그런 가정에 대한 재밌는 추정을 다양하게 할 수 있기 때문입니다 하지만 정규분포나 이항분포의 주요 조건 중 하나는 그것들이 독립시행들의 한 덩어리의 합으로서 보여질 수 있기 때문에 시행들이 독립이라고 가정해야만 한다는 것입니다 이는 많은 경우 정당하지만 하지만 어떤 때에는 예를 들어 쇼핑몰을 나가는 사람들에 대한 설문조사를 한다고 합시다 그리고 세금을 이미 냈는지 물어본다고 합시다 사람들이 쇼핑몰을 나가면 이 표본은 복원이 어렵습니다 사람들이 쇼핑몰은 나갈 때 이렇게 말할 수 없습니다 막 질문을 했는데 대답을 해주었으니까 이제 쇼핑몰로 다시 들어가 달라고요 매 시행이 확실히 독립이길 원하기 때문입니다 하지만 여러분 모두는 만 명의 사람이 쇼핑몰에 있으면 열 명의 표본만 뽑을 걸 직관적으로 알고 있죠 정말 이것이 독립인 것이 중요할까요? 단지 독립에 가까워지는 것이 중요한 것 아닐까요? 이 생각 때문에 그리고 이항분포나 정규분포에 가까운 것들에 기초한 추론을 하길 원하기 때문에 가까운 것들에 기초한 추론을 하길 원하기 때문에 10% 규칙이라는 것이 있고 이 10% 규칙은 표본이 모집단의 10%보다 작거나 같다면 근사 독립을 가정해도 좋다는 것입니다 그리고 이 10% 경계를 구하는데 꽤 정교한 방법들이 있습니다 사람들은 9%를 선택할 수도 있고 10.1%를 선택할 수도 있겠죠 하지만 10%는 아주 좋은 어림수입니다 아주 명백한 예시를 확인하면 이것이 매우 큰 일을 하는 것을 알 수 있습니다 여기 이 예시를 보면 50%가 남자고 50%가 여자인 n명의 학생이 있는 학급에서 세 번의 시행으로 뽑은 남자들의 수를 X라고 합시다 남자들의 수를 X라고 합시다 여기 있는 것들은 여러 종류의 n들입니다 학생 수가 20명이면 어떨까요? 30명이면요? 100명이면 어떨까요? 10,000명이면요? 각각의 n에서 복원을 하면서 남자 세 명을 선택했을 때의 확률을 구할 수 있습니다 또한 복원 없이 세 명을 선택했을 때의 확률을 구할 수도 있습니다 그러면 전체 모집단에서 표본 크기는 얼마가 되어야 할지 생각할 수 있고 그러고 나면 10% 규칙이 진짜 맞는 것인지 확인할 수 있을 것입니다 이 첫 번째 열은 복원을 하면서 세 명의 남학생을 선택했고 이런 경우에는 복원을 하기 때문에 각 시행들은 독립입니다 각 시행들은 독립입니다 그리고 시행들이 독립이라면 X는 확실히 이항변수가 될 수 있습니다 이쪽은 독립이 아닙니다 왜냐하면 복원을 하지 않기 때문이죠 그래서 공식적으로 복원을 하지 않는 이 열에서 X가 이항확률변수라고 할 수 없습니다 그러면 표본이 X가 이항변수라고 가정해도 좋다고 생각할 만한 모집단의 충분히 작은 비율이 되는 경계가 있는지 봅시다 따라서 독립시행을 갖는 모든 경우와 50%가 남학생과 50%가 여학생인 경우에 1/2 x 1/2 x 1/2이 됩니다 따라서 모든 경우에 12.5%의 확률이 나오고 x = 3입니다 그리고 이 경우 X는 이항변수입니다 그런데 여기를 보세요 3은 모집단의 꽤 큰 비율인 15%임에도 불구하고 복원 없이 세 명의 남학생을 뽑을 확률은 10.5%이며 이는 12.5%와 상당히 다릅니다 2% 차이지만 12.5%에서 2%는 크죠 확률로서는 10%와 20%정도 사이의 차이가 될 겁니다 따라서 이는 상당히 큰 차이죠 하지만 표본 크기는 그대로 두고 모집단의 크기를 증가시키면 이 숫자들이 점점 가까워지는 것을 알 수 있고 만약 모집단이 10,000명이라면 세 번의 시행만으로 이 숫자들이 매우 매우 가까워집니다 이 숫자는 사실 12.49% 정도인데 소수 둘째 짜리에서 반올림하면 둘이 거의 비슷한 것을 알 수 있습니다 따라서 제 생각에는 대부분 이렇게 말할 것 같습니다 좋습니다, 표본 사이즈가 모집단의 0.0003배라면 이 열을 복원 없이 이항변수에 가까워지도록 꽤 잘 다루고 있다고요 대부분은 또 이렇게 말하겠죠 이 첫 번째 경우는 표본 크기가 모집단의 15%이고 이것을 복원 없이 이항변수로 다루고 싶지 않았을 것 같습니다 하지만 어디에 경계가 그려져야 할까요? 이 영상의 초반에 언급했듯이 경계는 보통 10%에 그려집니다 표본 크기가 모집단의 10%보다 작거나 같으면 그 확률변수를 다루는 것은 공식적으로 이항변수가 아니더라도 그것을 다루는 것은 정당하지 않습니다 그리곤 이렇게 이야기 할 수 있죠 일단 이항변수로 생각하고 거기서부터 통계학에서 하곤했던 강력한 추정을 모두 할 수 있다고 말이죠 이와 함께 모집단에 대한 표본 비율이 작을수록 표본이 더 좋아진다고 말하겠죠 확실하게 하기 위해서 작은 표본 크기가 큰 표본 크기보다 좋다고 말하는 것은 아닙니다 통계학에서 큰 표본 크기는 작은 표본 크기에 비해 매우 좋은 경향이 있습니다 이것을 독립적인 가정으로 만들기 원한다면 말하자면 이것이 완전히 맞지 않는다면 모집단의 작은 비율로 표본을 만들기 원할 수 있습니다 따라서 이상적으로는 쇼핑몰에서 설문을 한다고 하면 100명에게 설문을 하고 싶을 것이지만 시행들이 상당히 독립적이게 하기 위해서 쇼핑몰에 최소 1,000명의 사람이 있길 바랄 겁니다 쇼핑몰에 10,000명이 있다면 혹은 50,000명이 있다면 정말로 큰 쇼핑몰이지만 통계적으로는 더 좋겠죠