If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:11:48

동영상 대본

제가 식당을 매입하려고 현 주인에게 가서 물었습니다 날마다 손님 수의 분포가 어떻게 되냐고요 날마다 손님 수의 분포가 어떻게 되냐고요 그러자 주인이 이미 준비해 놓았다며 이 분포를 보여주었습니다 손님의 10%는 월요일에 10%는 화요일, 15%는 수요일에 온다고 하네요 10%는 화요일, 15%는 수요일에 온다고 하네요 일요일에는 장사를 하지 않습니다 이건 일주일에 오는 손님의 100%에요 다 더해보면 100%가 되죠 당연히 약간 의심스러운 면이 있어서 주인이 설명한 이 분포가 어떻게 변량과 맞아 떨어지는지 보겠습니다 그래서 제가 직접 일주일동안 손님 수를 관찰해 그래서 제가 직접 일주일동안 손님 수를 관찰해 다음과 같은 자료를 얻었습니다 주인의 가설을 채택할지 기각할지 알아보기 위해 가설검정을 해 보도록 할게요 가설검정을 해 보도록 할게요 주인이 준 분포가 맞다고 하는 귀무가설을 세우고요 주인이 준 분포가 맞다고 하는 귀무가설을 세웁니다 주인이 준 분포가 맞다고 하는 귀무가설을 세웁니다 대립가설은 맞지 않다고 하는 것이죠 대립가설은 맞지 않다고 하는 것이죠 맞는 분포가 아니므로 여기에 의존하는 게 괜찮지 않다는 겁니다 그러면 주인의 분포를 기각해야 합니다 그러면 주인의 분포를 기각해야 합니다 그리고 유의수준 5%를 사용하려 합니다 그리고 유의수준 5%를 사용하려 합니다 다르게 생각해 보면 여기 이 자료를 바탕으로 통계량을 계산하는데 여기 이 자료를 바탕으로 통계량을 계산하는데 카이제곱 통계량을 사용하는 것이고 계산할 통계량이 계산할 통계량이 거의 카이제곱분포를 따르는 것입니다 어느 정도의 자유도를 가지고 카이제곱 분포를 가지고 있다고 할 때 어느 정도의 자유도를 가지고 카이제곱 분포를 가지고 있다고 할 때 자유도도 계산해 볼텐데 이 결과를 얻는 확률 또는 이런 결과나 더 극한의 결과를 얻는 확률이 5%이하인지 알아 보려 합니다 이런 결과나 이것 보다 더 가능성이 적은 결과를 얻는 확률이 5%이하라면 귀무가설을 기각합니다 주인의 분포를 기각하는 것과 같죠 그런 결과를 얻지 않고 이 이상의 극단적인 카이제곱 통계량을 얻는 확률이 이 유의수준 ⍺보다 크다면 기각하지 않을 겁니다 주인이 거짓말 하고 있다고 생각할 이유가 없으니까요 주인이 거짓말 하고 있다고 생각할 이유가 없으니까요 그럼 이제 해 보죠 카이제곱 통계량의 계산은 지금 주인의 분포가 맞다고 가정하고 있습니다 지금 주인의 분포가 맞다고 가정하고 있습니다 지금 주인의 분포가 맞다고 가정하고 있습니다 그럼 주인의 분포가 맞다고 가정할 때 기댓값은 얼마일까요? 여기에 기댓값의 백분율은 있는데 기댓값은 얼마일까요? 기댓값을 Expected라고 하겠습니다 Expected라고 하겠습니다 월요일에 일주일 총 손님의 10%가 오기를 기대하고 월요일에 일주일 총 손님의 10%가 오기를 기대하고 화요일엔 일주일 총 손님의 10%가 수요일엔 15%가 오기를 기대합니다 그 실제 수를 구하기 위해서는 총 손님의 수를 알아야 합니다 그럼 이 수들을 더해 볼게요 계산기를 꺼내고 30 + 14+ 34 + 45 +57 +20은 그 주에 식당을 방문한 손님은 200명이었네요 그 주에 식당을 방문한 손님은 200명이었네요 써 보도록 하죠 합계를 써 놓을게요 합계를 써 놓을게요 일주일에 손님 200명이 왔습니다 그러면 월요일의 기댓값은 얼마일까요? 월요일엔 200명의 10%가 올 것으로 기대하고 있습니다 월요일엔 200명의 10%가 올 것으로 기대하고 있습니다 따라서 200의 10%인 20명이 됩니다 화요일도 10%이니까 기대하는 손님은 20명이고요 수요일엔 200의 15%인 30명입니다 목요일엔 손님 200의 20%이니까 40명이네요 금요일은 30%로 60명입니다 토요일엔 다시 15%에요 200의 15%는 30명이죠 이 분포가 맞다고 가정했을 때 이게 기댓값입니다 이제 카이제곱 통계량의 계산을 바로 보여드리죠 χ 대신 대문자 X²를 쓸 겁니다 어떤 사람은 그리스 문자 χ를 쓸텐데 X²를 쓰도록 할게요 이렇게 하죠 카이제곱 통계량인데 χ 대신 대문자 X를 쓸 겁니다 이건 카이제곱분포의 근사치를 가지기 때문입니다 이건 카이제곱분포의 근사치를 가지기 때문입니다 정확히 같다고 장담할 순 없고 대신 근사치를 사용합니다 하지만 계산은 꽤 간단합니다 각 요일의 기댓값과 실제 변량의 차를 구합니다 각 요일의 기댓값과 실제 변량의 차를 구합니다 그러면 30 -20이고 제곱한 다음 기댓값으로 나누어 줍니다 그러니까 기댓값과 변량 사이의 오차를 제곱하고 그러니까 기댓값과 변량 사이의 오차를 제곱하고 기댓값과 변량의 차라고도 할 수 있고요 그 값을 기댓값으로 정규화 하는 겁니다 그 값을 기댓값으로 정규화 하는 겁니다 그리고 이것 모두의 합을 구해야 합니다 그리고 이것 모두의 합을 구해야 합니다 + (14-20)² /20 +(34-30)²/30 +(45-40)²/40 + (57-60)²/60 마지막으로 + (20-30)²/30입니다 (변량 - 기댓값)² /기댓값을 계산한 겁니다 (변량 - 기댓값)² /기댓값을 계산한 겁니다 그리고 그 합을 구하죠 이게 바로 카이제곱 통계량입니다 그럼 이걸 계산해 봅시다 그럼 이걸 계산해 봅시다 자리가 없으니까 여기에 새로운 색으로 하죠 주황색으로 할게요 30 -20 은 10이고 제곱하면 100이고 20으로 나누면 5입니다 이걸 다 암산하긴 힘들겠네요 과정이 보이도록 이렇게 쓰죠 여기 이건 100/20 에 -6의 제곱은 +36이니까 + 36/20입니다 34- 30 = 4고 제곱은 16 16/30을 더하고 45-40 = 5고 제곱은 25 25/40을 더한 다음 이 차는 3이고 제곱하면 9 9/60입니다 거기에 차가 10이니까 제곱하면 100/30을 더해 주면 총 합은 이건 계산기를 쓸게요 100/20 + 36/20 + 16/30 + 35/40 + 9/60 + 100/30은 11.44입니다 적어 놓을게요 총 합은 11.44입니다 이게 카이제곱 통계량 대문자 X²입니다 χ²이라고 써져 있을 때도 있지만 이 통계량은 카이제곱분포에 가까운 분포를 가집니다 이 통계량은 카이제곱분포에 가까운 분포를 가집니다 어쨌든 이제 이게 카이제곱분포에 가깝다고 가정할 때 이만큼이나 그 이상 극단적인 결과를 얻을 확률은 얼마일까요? 다르게 말하면 이 결과가 그 이상의 극값을 얻는 확률이 5%인 카이제곱값보다 더 극값인지 물어보는 것이죠 이 방법으로 합시다 임계점의 카이제곱값을 구해 봅시다 이게 그것보다 더 극값이면 귀무가설을 기각합니다 임계점의 카이제곱값을 알아볼게요 ⍺는 5%이고요 그리고 먼저 자유도도 구해야 하는데 그리고 먼저 자유도도 구해야 하는데 자유도는 하나, 두 개, 세 개, 네 개 다섯 개, 여섯개를 더하니까 자유도가 6이라고 생각할 수도 있지만 고려해야 하는 것은 여기 앞에 정보만 있으면 이 마지막 정보를 추론할 수 있다는 겁니다 그래서 자유도는 5입니다 측정점이 n개이고 기댓값과 변량을 비교하고 있다면 자유도는 n-1입니다 n번째 데이터는 나머지 만으로도 계산할 수 있기 때문이죠 나머지 만으로도 계산할 수 있기 때문이죠 그래서 지금 자유도는 5입니다 n-1이니까요 유의수준은 5%고 자유도도 5입니다 카이제곱분포를 볼게요 자유도가 5이고 신뢰수준이 5%면 신뢰수준이 5%면 임계점의 카이제곱값은 11.07입니다 그래프로 가면요 자유도가 5인 카이제곱분포가 있습니다 자유도가 5인 카이제곱분포가 있습니다 마젠타 색으로 된 분포에요 임계값 11.07을 보려고 하는데 여기 볼 수도 없네요 이 마젠타 색 선을 계속 그려보면 이 마젠타 색 선을 계속 그려보면 8이 있고 이쯤에 10 이쯤에 12라고 하면 110.7은 이쯤에 있겠죠 적어도 11.07 이상의 극값을 얻는 확률이 5%라는 겁니다 적어도 11.07 이상의 극값을 얻는 확률이 5%라는 겁니다 여기에 써 볼게요 임계점의 카이제곱값은 방금 본 것처럼 11.07입니다 한 번 더 확인하죠 110.07입니다 주어진 통계량으로 구한 결과는 그것보다 훨씬 가능성이 적습니다 확률이 유의수준보다 낮네요 그러면 기각합니다 그러면 기각합니다 11.44는 임계점의 카이제곱값보다 더 극값이므로 이 분포가 사실일 가능성은 아주 적습니다 따라서 주인의 말은 기각합니다 이 분포를 기각하는 것이죠 이 유의수준에 의하면 분포가 적합하지 않습니다