If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

대표본비율 가설검정

대표본을 이용해 미국 가정의 30% 이상의 가정에서 인터넷 접속이 가능한지 확인해 봅시다. 만든 이: 살만 칸 선생님

동영상 대본

미국 가정의 30% 이상에서 인터넷 접속이 가능하다는 가설을 유의수준을 5%로 하고 검정해보려 합니다 150가구의 표본을 모았는데 57가구에서 접속이 가능했습니다 150가구의 표본을 모았는데 57가구에서 접속이 가능했습니다 가설검정을 위해 귀무가설과 대립가설을 세워 봅시다 귀무가설은 가설이 맞지 않다는 것입니다 귀무가설은 인터넷 접속이 가능한 가구의 비율이 귀무가설은 인터넷 접속이 가능한 가구의 비율이 30%이하라는 것이죠 대립가설은 현재의 가설로 비율이 30%를 초과한다고 하는것이죠 비율이 30%를 초과한다고 하는것이죠 여기 나와 있어요 미국 가정 30% 이상에서 인터넷 접속이 가능하다는 가설을 검정하려고 하죠 그게 바로 이거에요 검정할게 바로 이거죠 대립가설을 검정합니다 그 방법으로 귀무가설에 근거해 P-값을 추정해 볼 겁니다 그 방법으로 귀무가설에 근거해 P-값을 추정해 볼 겁니다 모집단에 대한 귀무가설을 기반으로 비율을 추정해 볼 겁니다 모집단에 대한 귀무가설을 기반으로 비율을 추정해 볼 겁니다 그리고 그 추정치를 가지고 150개의 표본 중에 57개에서 인터넷 접속이 가능한 확률을 찾아 볼 겁니다 그리고 그 확률이 5%라면 그러니까 유의수준보다 낮다면 귀무가설을 기각하고 대립가설을 채택할 겁니다 생각해 보죠 귀무가설이 맞다고 가정하는 것으로 시작해 볼게요 귀무가설이 맞다고 가정하는 것으로 시작해 볼게요 그 가정 속에서 모비율 혹은 모평균을 골라야 합니다 그 가정 속에서 모비율 혹은 모평균을 골라야 합니다 베르누이 분포에서는 이 둘이 같아요 그리고 엄청 높은 비율을 골라서 지문과 같은 경우가 일어날 확률을 만들 겁니다 지문과 같은 경우가 일어날 확률을 만들 겁니다 그 비율이 실제로 얼마인지는 모릅니다 좀 더 지적인 접근을 위해서 표본비율이 얼마인지 계산해 볼게요 표본비율이 얼마인지 계산해 볼게요 150 중에 57명이 인터넷 접속이 가능했어요 150가구 중에 57이죠 표본비율은 0.38이네요 여기에 적어 놓을게요 표본비율은 0.38입니다 귀무가설이 맞는다고 가정할 때 가정할 모비율은 이 값을 얻을 확률을 최대로 높여주어야 합니다 귀무가설 내에서 이 값을 최대로 높여줄 모비율은 귀무가설 내에서 이 값을 최대로 높여줄 모비율은 딱 30%에 있을 때입니다 모비율이 사실이라고 가정할 거예요 모비율이 사실이라고 가정할 거예요 이게 귀무가설이니까요 0.3이라고 가정합니다 30%이죠 알아두었으면 하는 것이 29%도 귀무가설이고 28%도 귀무가설이 될 수 있지만 29%, 28%일 때 이 값을 얻는 확률은 훨씬 적습니다 그만큼 강력한 검정이 될 수 없죠 최대 비율을 고르면 그것이 귀무가설을 만족시키는 한에서 이 값을 얻을 확률을 최대화 시킵니다 그런데도 값이 낮다면 5% 이하라면 대립가설에 대해 꽤 확신을 가질 수 있을 거예요 대립가설에 대해 꽤 확신을 가질 수 있을 거예요 되짚어 보면 모비율이 0.3이라고 가정하고 그리고 분포를 생각해 보면 그려보는게 도움이 될 수 있어요 그려 볼게요 가정한 값에 기반한 모집단분포는 이렇습니다 가정한 값에 기반한 모집단분포는 이렇습니다 여기 이 가정이죠 이 모집단분포는 30%가 인터넷에 접속할 수 있습니다 이 모집단분포는 30%가 인터넷에 접속할 수 있습니다 할 수 있다는 걸 1이라고 할게요 나머지는 인터넷 접속을 할 수 없죠 나머지는 인터넷 접속을 할 수 없죠 70%는 인터넷 접속을 할 수 없습니다 이건 베르누이 분포입니다 여기서 평균은 인터넷에 접속 가능한 비율과 같아요 여기서 평균은 인터넷에 접속 가능한 비율과 같아요 따라서 평균은 0.3입니다, 30%죠 이건 모평균이고요 이렇게 써 볼게요 귀무가설을 가정했을 때의 모평균은 0.3입니다 귀무가설을 가정했을 때의 모평균은 0.3입니다 그리고 모표준편차는 그리고 모표준편차는 귀무가설을 가정했을 때의 모표준편차는 귀무가설을 가정했을 때의 모표준편차는 베르누이 분포를 배웠을 때 보았을 텐데 베르누이 분포를 배웠을 때 보았을 텐데 모집단에서 인터넷에 접속 가능한 비율 0.3 모집단에서 인터넷에 접속 가능한 비율 0.3 곱하기 모집단에서 인터넷에 접속 할 수 없는 비율 0.7의 제곱근입니다 √(.21)이 되겠네요 값은 나중에 계산할게요 이제 표본비율이 0.38일 확률을 찾아보죠 이제 표본비율이 0.38일 확률을 찾아보죠 이제 표본비율이 0.38일 확률을 찾아보죠 표본비율의 분포를 봅시다 표본비율의 분포를 봅시다 이 분포에서 150가구가 나오는 조합을 모두 찾아보면 이항분포를 얻게 됩니다 이항분포를 얻게 됩니다 이것도 본 적 있을 거에요 이렇게 막대가 많은 이항분포를 얻게 되죠 이렇게 막대가 많은 이항분포를 얻게 되죠 하지만 n이 충분히 크다면 검정법 같은 것인데 n×p 이 경우 p는 30%이죠 n×p > 5 이고 n×(1-p) > 5이면 표본비율의 분포가 표본비율의 분포가 정규분포라고 가정할 수 있어요 이 모집단에서 150가구의 표본을 얻는 모든 방법을 살펴보면 이 모집단에서 150가구의 표본을 얻는 모든 방법을 살펴보면 이런 막대들이 생깁니다 이 경우 n은 150으로 충분히 크고 150×0.3도 당연히 5보다 큽니다 150×0.7도 5보다 크니까 정규분포라고 어림할 수 있는 겁니다 그렇게 해보죠 정규분포라고 어림할 수 있습니다 이게 정규분포라고 할게요 비율 데이터 분포의 평균은 분포가 정규분포라고 가정하고 있고 귀무가설이 맞다는 전제를 잊지 마시고요 귀무가설이 맞다는 전제를 잊지 마시고요 여기 이 평균은 표본비율의 평균은 모평균과 같습니다 모평균과 같은 0.3이 되겠죠 그리고 표준편차는 중심극한정리에서 바로 얻을 수 있는데 그리고 표준편차는 중심극한정리에서 바로 얻을 수 있는데 표본비율의 표준편차는 표본비율의 표준편차는 표본비율의 표준편차는 모표준편차입니다 귀무가설을 가정한 표준편차÷ √(표본 개수)이죠 이 경우에는 150개의 표본이 있습니다 150개의 표본으로 계산해 보죠 이 위의 값은 방금 √(0.21)이라고 계산했고요 그래서 이건 √(0.21)/√(150)이 됩니다 그래서 이건 √(0.21)/√(150)이 됩니다 계산기로 계산해 볼게요 쓴 대로 계산하겠습니다 √(0.21)을 계산하고 그 값을 √(150)으로 나눕니다 그 값을 √(150)으로 나눕니다 0.037이네요 표본비율 분포의 표준편차는 표본비율 분포의 표준편차는 오른쪽으로 조금 옮길게요 0.037이 됩니다 화면 밖으로 나갈 것 같네요 0.037까지만 쓸게요 표본비율이 0.38일 확률은 그게 평균에서 표준편차 몇 개만큼 떨어져 있는지 확인하면 됩니다 Z-통계량을 계산하는 것이죠 Z-통계량과 Z-점수는 평균에서 표준편차의 몇 배만큼 떨어졌는지 알려주니까요 그리고 Z-통계량을 얻는 확률이 5% 이상인지 이하인지 찾아 봅시다 그리고 Z-통계량을 얻는 확률이 5% 이상인지 이하인지 찾아 봅시다 평균에서 표준편차의 몇 배만큼 떨어져 있는지 알아보죠 평균에서 표준편차의 몇 배만큼 떨어져 있는지 알아보죠 기억해보면 구한 표본비율은 가능한 모든 표본비율 분포의 표본 중 하나입니다 가능한 모든 표본비율 분포의 표본 중 하나입니다 평균에서 표준편차 몇 배만큼 떨어져 있을까요? 평균에서 표준편차 몇 배만큼 떨어져 있을까요? 표본비율에서 표본비율 분포의 평균을 빼고 표본비율 분포의 표준편차로 나누면 0.38 - 0.3 이고 그걸 방금 구한 0.037로 나눕니다 그걸 방금 구한 0.037로 나눕니다 계산하면 얼마일까요? 분자는 0.08이고 분모는 0.037입니다 계산해 보죠 분자는 0.08이고 이 마지막 숫자 0.037로 나누면 분자는 0.08이고 이 마지막 숫자 0.037로 나누면 반올림해서 표준편차의 2.14배입니다 반올림해서 표준편차의 2.14배입니다 그래서 이건 표준편차의 2.14배와 같습니다 그래서 이건 표준편차의 2.14배와 같습니다 아니면 이걸 Z-통계량이나 Z-점수라고 부를 수도 있어요 아니면 이걸 Z-통계량이나 Z-점수라고 부를 수도 있어요 평균에서의 거리는 표준편차의 2.14배이죠 2.14에 있는데, 좀 더 정확히 하자면 평균에서 표준편차의 2.14배 위에 있습니다 한쪽꼬리분포로 생각해야죠 이걸 얻는 확률은 5%를 넘을까요 넘지 않을까요? 5% 미만이라면 귀무가설을 기각하고 대립가설을 채택합니다 5% 미만이라면 귀무가설을 기각하고 대립가설을 채택합니다 어떻게 하면 될까요? 정규화된 정규분포를 생각해 보세요 정규화된 정규분포를 생각해 보세요 Z-분포라고도 할 수 있겠네요 정규분포, 완전히 정규화된 정규분포를 보면 정규분포, 완전히 정규화된 정규분포를 보면 평균은 0에 있습니다 평균은 0에 있습니다 여기 각 값은 Z-점수나 마찬가지죠 여기 각 값은 Z-점수나 마찬가지죠 값이 1이면 정확히 평균에서 표준편차 1배만큼 떨어져 있으니까요 값이 1이면 정확히 평균에서 표준편차 1배만큼 떨어져 있으니까요 그리고 여기 임계점의 Z-값을 찾아야 합니다 임계점의 Z라고 할게요 임계점의 Z-점수나 임계점의 Z-값이라고 할 수 있죠 이것보다 높은 Z-값을 얻는 확률은 5%입니다 이 면적이 5%에요 이게 유의수준이기 때문이죠 일어날 확률이 5%이하라면 이 문제에선 귀무가설을 기각합니다 다르게 생각하면 여기가 5%일 때 여기는 95%입니다 다시 말하지만 이건 한쪽꼬리검정이고 이것보다 큰 값만 신경씁니다 이보다 큰 Z-값이어야 귀무가설을 기각할 수 있습니다 이보다 큰 Z-값이어야 귀무가설을 기각할 수 있습니다 그리고 이 임계점의 Z-값을 찾으려면 표준정규분포표로 가면 됩니다 어떤 Z-값이 얻는 확률이 95%이하인지 봅시다 어떤 Z-값이 얻는 확률이 95%이하인지 봅시다 이 숫자들이 다 그런 뜻이에요 어떤 값 이하를 얻을 누적 확률이죠 어떤 값 이하를 얻을 누적 확률이죠 여기서 95%를 찾아 볼게요 0.9495랑 0.9505가 있네요 좀 더 가깝도록 이걸로 하죠 좀 더 가깝도록 이걸로 하죠 상응하는 Z-값은 1.6에 다음 숫자는 5입니다 1.65네요 임계점의 Z-값은 1.65였습니다 1.65 미만의 Z-값을 얻을 확률은 완전히 정규화된 정규분포에서 1.65 미만의 값을 얻는 확률 1.65 미만의 값을 얻는 확률 아니면 어떤 정규분포던 평균에서 표준편차의 1.65배 미만일 확률은 95%입니다 그게 Z-값입니다 실제 표본에서 얻은 Z-값, 혹은 Z-통계량은 2.14였어요 실제 표본에서 얻은 Z-값, 혹은 Z-통계량은 2.14였어요 실제 Z-값은 2.14였죠 한참 끝 이쯤에 있을 겁니다 그 값이 나올 확률은 확실히 5%이하죠 이 값 이상의 극값을 얻는 확률이 얼마인지도 생각해 볼 수 있습니다 이 면적은 표준정규분포표를 확인해 구할 수 있어요 이 면적은 표준정규분포표를 확인해 구할 수 있어요 이 결과의 P-값과 같죠 어쨋든 이 문제는 유의수준 5%로 귀무가설을 기각할 수 있는 지였는데 기각할 수 있습니다 임계점의 Z-값보다 더 극값이었으니 대립가설을 세우고 귀무가설을 기각할 수 있습니다 대립가설을 세우고 귀무가설을 기각할 수 있습니다