If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

분산 분석법 3: F-통계량을 사용한 가설검정

분산 분석법 3 - F-통계량을 사용한 가설검정. 만든 이: 살만 칸 선생님

동영상 대본

지난 동영상들에서 여기 9개 측정점의 총 변화량 그러니까 총 제곱합이 30이라고 계산하였습니다 그리고 그 변화량 중 얼마가 집합 내의 변화량 때문이며 얼마가 집합 간의 변화량 때문인지 알아보았습니다 집합 내의 변화량 SSW는 6이었고 집합 내의 변화량 SSW는 6이었고 30의 나머지인 집합 간의 변화량 SSB는 24였습니다 30의 나머지인 집합 간의 변화량 SSB는 24였습니다 30의 나머지인 집합 간의 변화량 SSB는 24였습니다 이 동영상에서는 여기서 계산한 통계량같은 정보를 추리통계를 이용해 결론을 내릴 수 있는지 알아보는 방법을 살펴보겠습니다 먼저 이 집합에 의미를 부여해 볼까요? 여태까지 임의의 집합을 사용해 왔는데 상상력을 발휘해서 어떤 실험의 결과라고 해 보죠 사람들에게 음식 세 종류를 먹이고 시험을 보았는데 이런 결과를 얻었습니다 1번 음식, 2번 음식, 3번 음식이라 하고 먹은 음식이 시험 점수에 영향을 주는지 알아보고 싶다고 합시다 평균을 보면 3번 집합은 2번,1번 집합 보다 더 잘 한 것 같은데 이 차이가 순수히 우연일 수 있을까요? 아니면 정말 1번, 2번, 3번 음식을 먹을 모든 사람의 모평균에 차이가 있는 것이라고 신뢰할 수 있을까요? 이 평균이 실제 모평균과 같은지 물어보는 것과 같습니다 여기 평균은 표본 3개를 기반으로한 표본평균인데 1번 음식을 먹은 모평균과 2번 음식을 먹은 모평균이 같을까요? 당연히 이 세상 모든 사람에게 두 음식을 먹이고 시험을 보게 할 순 없겠지만 어떤 실제 평균은 존재합니다 단지 측정할 수 없는 것이죠 그러면 이것과 이것 그리고 3번 집합의 실제 모평균은 같을까요? 그러면 이것과 이것 그리고 3번 집합의 실제 모평균은 같을까요? 같지 않다면 먹음 음식이 시험 결과에 어떤 영향을 끼친다는 것입니다 같지 않다면 먹음 음식이 시험 결과에 어떤 영향을 끼친다는 것입니다 그러면 가설검정을 해보죠 귀무가설은 평균이 같다는 것입니다 다른 말로는 음식은 영향을 끼치지 않는다는 말이죠 그리고 대립가설은 영향을 끼친다는 것입니다 그리고 영향을 끼치지 않을 때는 세 집합의 모평균이 같은 것을 관찰할 수 있을 것입니다 세 집합의 모평균이 같은 것을 관찰할 수 있을 것입니다 그렇다면 1번 음식을 먹은 집합의 실제 모평균이 2번 음식을 먹은 집합의 실제 모평균이 같고 3번 음식을 먹은 집합의 실제 모평균과도 같을 것입니다 대립가설이 맞다면 이 평균들은 같지 않을 것이고요 어떻게 가설검정을 할까요? 일단 항상 가설검정할 때 그랬듯이 귀무가설을 가정합니다 일단 항상 가설검정할 때 그랬듯이 귀무가설을 가정합니다 일단 항상 가설검정할 때 그랬듯이 귀무가설을 가정합니다 그리고 이만큼 극단적인 어떤 통계량을 얻을 확률을 알아봅니다 그리고 이만큼 극단적인 어떤 통계량을 얻을 확률을 알아봅니다 아직 그 통계량이 무엇인지는 정하지 않았습니다 그럼 귀무가설을 가정하고 F-통계량이란 것을 계산해 보죠 그럼 귀무가설을 가정하고 F-통계량이란 것을 계산해 보죠 F-통계량은 F-분포를 가지고 있습니다 분포에 대해 자세히 설명하진 않겠지만 자유도가 다르거나 같은 두 카이제곱분포의 비율이라고 생각할 수 있습니다 이 경우 F-통계량은 표본 간의 제곱합 SSB를 이 경우 F-통계량은 표본 간의 제곱합 SSB를 그 자유도로 나누고 이것을 MSB라고 부르기도 합니다 SSW로 다시 나누어 준 후 SSW로 다시 나누어 준 후 SSW로 다시 나누어 준 후 SSW의 자유도, m(n -1)로 나눕니다 이것이 무엇을 의미할까요? 분자가 분모보다 훨씬 크다면 이 자료의 변화량은 대부분 평균 내의 변화량보다 평균 간의 차 때문입니다 평균 내의 변화량보다 평균 간의 차 때문입니다 여기 분자가 분모보다 클 때 말이죠 그렇다면 실제 모평균에 차이가 있다고 믿을 수 있을 것입니다 그렇다면 실제 모평균에 차이가 있다고 믿을 수 있을 것입니다 이 수가 아주 크다면 귀무가설이 맞을 확률이 낮다고 알 수 있습니다 귀무가설이 맞을 확률이 낮다고 알 수 있습니다 만약 분모가 더 커서 수가 작아진다면 각 표본 내의 변화량이 총 변화량에 표본 간 변화량보다 더 큰 기여를 하는 것이고 총 변화량에서 표본 내 변화량의 백분율이 표본 간 변화량보다 큰 것이죠 총 변화량에서 표본 내 변화량의 백분율이 표본 간 변화량보다 큰 것이죠 그렇다면 관찰한 평균 간 차이는 아마 우연이라고 생각할 수 있습니다 그렇다면 관찰한 평균 간 차이는 아마 우연이라고 생각할 수 있습니다 귀무가설을 기각하기 힘들겠죠 그럼 계산해 봅시다 이 경우 SSB는 24 자유도는 2였습니다 SSW는 6에 자유도가 6이었고요 SSW는 6에 자유도가 6이었고요 24/2는 12이고 다시 1로 나누면 F-통계량은 12입니다 F는 피셔(Fisher)라는 생물학자이자 통계학자의 이름에서 딴 것입니다 F-통계량은 12이고요 꽤 큰 수 같아 보이네요 그리고 모든 가설검정에는 어떤 유의수준이 필요합니다 이 가설검정에서 사용할 유의수준은 10%라고 할게요 이 가설검정에서 사용할 유의수준은 10%라고 할게요 0.10입니다 귀무가설을 가정했을 때 계산한 이 F-통계량을 얻을 확률이 10%이하라면 계산한 이 F-통계량을 얻을 확률이 10%이하라면 귀무가설을 기각한다는 뜻입니다 그럼 이제 그 값이나 그 이상 극값을 얻을 확률이 10%인 임계점의 F-통계량을 찾고 그 값이 여기 있는 F-통계량의 값보다 크다면 귀무가설을 기각합니다 그렇지 않다면 귀무가설을 기각할 수 없죠 F-통계량에 대해 심도있게 설명하지는 않겠지만 이미 각 제곱합이 카이제곱분포를 갖고 있음을 알 수 있습니다 이것도 카이제곱분포를 갖고 이것은 다른 카이제곱분포를 가집니다 위의 것은 자유도가 2인 카이제곱분포이고 밑에 것은 자유도가 6인 카이제곱분포입니다 둘 다 정규화 하진 않았지만 거의 그렇죠 따라서 F-통계량은 두 카이제곱분포의 비율입니다 이것은 UCLA 교수님의 강의 자료인데 여기서 사용해도 괜찮겠죠? 어쨋든 F-분포는 이렇게 생겼습니다 당연히 분자와 분모의 자유도에 따라 다르게 생겼겠죠 당연히 분자와 분모의 자유도에 따라 다르게 생겼겠죠 생각해야 할 자유도가 두 개입니다 분자의 자유도와 분모의 자유도 말입니다 그러면 이제 ⍺가 0.10인 임계점의 F-통계량을 계산해 봅시다 그러면 이제 ⍺가 0.10인 임계점의 F-통계량을 계산해 봅시다 F-분포표는 ⍺에 따라 달라집니다 분자의 자유도가 2 분모의 자유도가 6이니까 이것은 ⍺가 10% 0.10인 분포표인데 분자의 자유도가 2 분모의 자유도가 6이니까 따라서 임계점의 F-값은 3.46입니다 따라서 임계점의 F-값은 3.46입니다 여기서 주어진 자료로 계산한 값이 훨씬 크니까 p값은 아주 아주 작을 것입니다 이런 값을 우연이 얻을 확률은 귀무가설을 가정했을 때 아주 낮습니다 이것은 유의수준이 10%인 임계점의 F-통계량보다 훨씬 큽니다 이것은 유의수준이 10%인 임계점의 F-통계량보다 훨씬 큽니다 그러므로 귀무가설을 기각할 수 있고 따라서 모평균에 정말로 차이가 있다고 믿을 수 있습니다 따라서 모평균에 정말로 차이가 있다고 믿을 수 있습니다 아마 다른 음식이 시험 결과의 변화를 만들 것이라고 말이죠 아마 다른 음식이 시험 결과의 변화를 만들 것이라고 말이죠