If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

가설 검정과 p-값

신경학자가 약물의 효과를 검정하는 예제를 통해 가설검정과 p-값에 대하여 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

신경학자가 반응속도에 대한 약물의 효과를 확인하기 위해 단위용량의 약물을 쥐 100마리에게 주사하고 신경 자극에 노출시킨 후 반응속도를 기록하였습니다 신경학자는 약물을 주사하지 않은 쥐의 평균 반응속도가 1.2초라고 알고 있습니다 주사를 놓은 쥐 100마리의 평균 반응속도는 1.05초이고 표준편차는 0.5초입니다 약물이 반응속도에 영항을 끼친다고 생각하시나요? 가설을 두 개 세워볼게요 첫 번째 가설은 귀무가설이라고 할텐데 약물이 반응속도에 영향이 없다는 것입니다 귀무가설은 항상 현재 상황이라고 보면 됩니다 연구하는 것이 효과가 없다고 가정합니다 약물은 효과가 없다고 쓰죠 약물은 효과가 없다고 쓰죠 다르게 생각해 보면 약물을 투여받는 쥐의 평균이 여전히 약물이 있어도 1.2초라고 하는 것이죠 약물을 투여해도요 효과가 없다고 하는 것과 같은데 약을 투여하지 않았을 때도 평균 반응속도가 1.2초이기 때문이죠 이제 대립가설이 필요합니다 약물이 무언가 하고있다는 가설입니다 여기에 대립가설은 약물이 효과가 있다고 쓸게요 다르게 생각해 보면 평균이 약물을 투여하면 1.2초가 아니라고 하는 것이죠 이걸 어떻게 생각해야 할까요? 어떻게 대립가설을 받아들여야 할지 아니면 데이터에 설득력이 없으니 귀무가설을 받아들일지 알 수 있을까요? 이 동영상에서 사용할 방법은 사실 거의 모든 과학에서 사용하는데 귀무가설이 사실이라고 가정하고 만약 귀무가설이 사실이라면 표본으로 이 결과를 얻을 확률이 얼마인지 알아보는 겁니다 그리고 그 확률이 아주 아주 작으면 아마 귀무가설은 사실이 아니겠죠 아마 귀무가설을 기각하고 대립가설을 믿는다고 말할 수 있을 겁니다 생각해 보죠 귀무가설이 맞다고 가정해 봅시다 귀무가설이 맞다고 가정하고 이런 결과를 얻을 확률이 얼마인지 그러니까 표본 평균이 10.5초이고 표준편차가 0.5초일 확률을 구해 봅시다 표본 평균이 10.5초이고 표준편차가 0.5초일 확률을 구해 봅시다 귀무가설이 맞다고 가정한 후 확률을 구하는데 이 확률만 구하는 것이 아니라 이것과 비슷하거나 더 극단적인 확률도 구해야 합니다 그건 얼마나 그럴 만 한 일일까요? 그러면 귀무가설을 가정했을 때의 표본분포를 살펴볼게요 표본분포는 이렇습니다 정규분포가 될 겁니다 충분한 표본을 가지고 있으니까 100개의 표본이 있죠 이건 표본분포입니다 평균도 가지고 있어요 귀무가설을 가정하고, 그러니까 약물이 효과가 없다고 가정하면 표본분포의 평균은 모집단분포의 평균인 1.2초와 같을 겁니다 표본분포의 표준편차는 얼마일까요? 표본분포의 표준편차는 얼마일까요? 표본분포의 표준편차는 모집단분포의 표준편차/√(표본의 크기) 모집단분포의 표준편차/√(표본의 크기) 곧 /√100과 같습니다 전체 인구의 표준편차는 알지 못하니까 전체 인구의 표준편차는 알지 못하니까 표본표준편차로 추정해볼 겁니다 표본표준편차로 추정해볼 겁니다 충분히 합리적인 일인데 특히 표본의 크기가 좋아서 더 괜찮습니다 표본이 100 이상이니까요 그래서 꽤 좋은 근사치가 될 겁니다 여기 이것의 꽤 좋은 근사치가 될 겁니다 여기 이것의 꽤 좋은 근사치가 될 겁니다 이것은 거의 표본표준편차 / √100 그건 곧 표본표준편차가 0.5초이고 √100은 10이니까 0.5 /10은 0.05입니다 그래서 이 표본분포의 표준편차는 여기 이렇게 근사치라고 표시하고요 모표준편차의 근사치를 표본표준편차로 구했죠 0.5 /10이었으니까 0.05입니다 그러면 확률은 얼마일까요 이렇게 생각해 보죠 1.05초가 나올 확률은 얼마일까요? 다르게 생각해 보면 평균에서 1.05초까지 얼마만큼의 표준편차가 있는지 그리고 평균에서 최소 그만큼의 표준편차 밖에서 결과를 얻을 확률이죠 그게 평균에서 얼마나 많은 표준편차 밖인지 알아 봅시다 그게 평균에서 얼마나 많은 표준편차 밖인지 알아 봅시다 근본적으로 Z-점수를 찾는 것인데 이 결과의 Z-점수를 찾는 것이죠 이 결과의 Z-점수를 찾는 것이죠 Z-통계량도 사용할 수 있는데 여기 다른 표본 통계량에서 얻을 수 있어요 Z-통계량은 평균에서 얼마나 떨어져 있냐는 것이죠? 평균은 1.2입니다 평균은 1.2입니다 1.05에 있었으니까 - 를 써서 거리가 양수이게 할게요 이건 얼마나 멀리 있는지고 표준편차의 기준으로 바꾸려면 이걸 가장 가까운 근사치였던 표본분포의 표준편차인 0.05로 나눕니다 그래서 이건 0.05고 계산하면 얼마일까요? 계산해보면 1.2 - 1.05 = 0.15 분자는 0.15가 되고 분모 0.05로 나누면 3입니다 따라서 이 결과는 평균에서 표준편차의 세 배만큼 떨어져 있습니다 따라서 이 결과는 평균에서 표준편차의 세 배만큼 떨어져 있습니다 그려 볼게요 이게 평균이고요 표준편차 하나, 표준편차 둘, 표준편차 세개를 양의 방향으로 놓고 다시 그려볼게요 다시 그려볼게요 잘 그린 종모양은 아니지만 다시 표준편차 하나, 표준편차 둘 표준편차 세 개를 양의 방향으로 그립니다 그리고 표준편차 하나 표준편차 둘 표준편차 세 개를 음의 방향으로 그립니다 쥐 100마리에 대한 결과였던 1.05초는 여기 있습니다 쥐 100마리에 대한 결과였던 1.05초는 여기 있습니다 평균보다 표준편차의 3 배 아래에 있어요 이렇게 극단적인 결과를 우연히 얻을 확률은 얼마일까요? 극단적인 결과라고 할 때 이보다 적은 결과이거나 양의 방향에서 이만큼 극단적인 결과를 말합니다 표준편차의 3 배 이상이요 여기보다 더 극단적인 결과를 얻는 확률은 여기보다 더 극단적인 결과를 얻는 확률은 곡선 아래 이 밑부분 음인 부분과 양인 부분 모두 다입니다 음인 부분과 양인 부분 모두 다입니다 그 확률은 얼마일까요? 경험법칙에 따르면 99.7%의 확률은 표준편차의 3 배 안에 있습니다. 표준정규분표표를 찾아봐도 되지만 표준편차가 3일 때 정도의 숫자는 기억해 두는것도 나쁘지 않아요 오랜지 색으로 된 이 면적이 99.7%인 겁니다 오랜지 색으로 된 이 면적이 99.7%인 겁니다 분홍색 면적엔 얼마가 남았을까요? 이게 99.7%면 이것을 둘 다 합친게 0.3%일 겁니다 이 둘을 합친게 0.3%입니다 이 둘을 합친게 0.3%입니다 이 둘을 합친게 0.3%입니다 이 둘을 합친게 0.3%입니다 소수로 나타내면 전체 곡선 아래의 0.003이죠 소수로 나타내면 전체 곡선 아래의 0.003이죠 문제에 답해 봅시다 약물이 효과가 없다고 가정하면 이만큼 극단적인 표본을 얻거나 더 극단적인 표본을 얻을 확률은 0.3%입니다 1/300 이하죠 따라서 귀무가설이 사실이라면 1/300의 확률로만 이것 이상으로 극단적인 결과를 얻을 수 있습니다 이것 이상으로 극단적인 결과를 얻을 수 있습니다 적어도 제 관점에선 이 결과는 대립가설을 지지하는 것 같네요 귀무가설을 기각하겠습니다 100% 확신할 수는 없지만 귀무가설이 사실이라면 1/300의 확률로 이런 결과가 나옵니다 그래서 저는 대립가설을 선택하겠습니다 그리고 통계학이나 연구보고서 등에서 많이 나오는 용어를 설 명해 드리자면 이 값, 귀무가설을 가정했을 때 이것 이상으로 극단적인 값을 얻을 확률을 P-값이라고 합니다 P-값은 Probability value를 줄인 말인데 여기서 P-값은 0.003입니다 아주 아주 작은 확률로만 귀무가설을 사실이라 했을 때 이 결과를 얻기에 기각할 겁니다 대부분 보통 여기에 제한점을 둡니다 대부분 보통 여기에 제한점을 두는데 P-값이 5% 미만일 때 그러니까 주사 20번 중 1번이죠 귀무가설을 기각합니다 귀무가설을 기각합니다 결과를 얻을 확률이 1/20미만이기 때문이죠 여기선 1/20보다 훨씬 작은 값이 나왔어요 그러니까 이건 귀무가설이 틀렸고 약물이 효과가 있다는 강력한 증거입니다 약물이 효과가 있다는 강력한 증거입니다 약물이 효과가 있다는 강력한 증거입니다