If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

평균의 차에 대한 가설검정

평균의 차에 대한 가설검정. 만든 이: 살만 칸 선생님

동영상 대본

지난 동영상에선 저지방 집단과 대조군간 평균 감량 체중의 신뢰구간을 95%로 정했습니다 신뢰구간을 95%로 정했습니다 이번 동영상에서는 가설검정을 통해 이 데이터로 저지방 다이어트의 효과를 믿을 수 있는지 알아보겠습니다 그럼 먼저 귀무가설과 대립가설을 세워보죠 그럼 먼저 귀무가설과 대립가설을 세워보죠 귀무가설은 저지방 다이어트가 아무 효과도 없다는 것입니다 귀무가설은 저지방 다이어트가 아무 효과도 없다는 것입니다 그리고 저지방 다이어트 효과가 없다면 그건, 저지방 다이어트 모집단 평균에서 통제 인구 모집단 평균을 뺀 같이 0이라는 뜻이죠 이것은 이렇게도 말할 수 있습니다 이건 저지방 다이어트 표본분포의 평균에서 대조군 표본분포의 평균이 뺀값이 0이여야 합니다 여러 번 보셨을 것이에요 표본분포의 평균은 모집단의 평균과 같아요 이것은 이것과 똑같고 저건 저거랑 똑같죠 다르게 말하면 표본 평균 차의 분포의 평균은 전 동영상에서도 보았듯이 0이어야 합니다 여기 이것이 이것과 같으니까요 이게 귀무가설입니다 대립가설은 대립가설은 효과가 있다는 것입니다 효과가 있다는 것입니다 개선된 점이 있다고 해보죠 그럼 체중 감량을 더 많이 했으니까 1번 집단의 모집단 평균 빼기 2번 집단의 모집단 평균이 0 이상이어야 합니다 한쪽꼬리검정이 될 겁니다 다르게 쓰면 분포의 차 평균 x1-x2가 0보다 크다고도 할 수 있습니다 둘은 같은 명제입니다 이게 이것이랑 같고 그건 이것이랑 같은데 제가 여기 쓴 게 그거죠 어떤 가설검증을 하던 유의수준을 정해야 합니다 어떤 가설검증을 하던 유의수준을 정해야 합니다 어떤 가설검증을 하던 유의수준을 정해야 합니다 일단 귀무가설이 맞다고 가정하고 일단 귀무가설이 맞다고 가정하고 그리고 그 귀무가설이 맞는다는 가정하에 이 표본 데이터를 얻을 확률이 얼마인지 알아볼 겁니다 이 표본 데이터를 얻을 확률이 얼마인지 알아볼 겁니다 그리고 그 확률이 일정한 한계점 이하이면 귀무가설을 기각하고 대립가설을 지지할 수 있습니다 귀무가설을 기각하고 대립가설을 지지할 수 있습니다 그 확률의 한계점은 본 적 있겠지만 유의수준이라고도 하고 ⍺라고도 합니다 여기서는 유의수준을 95%로 하겠습니다 다르게 생각해 보면 귀무가설이 맞다고 가정할 때 이 결과를 얻을 확률이 5% 이하여야 하죠 이 결과를 얻을 확률이 5% 이하여야 하죠 귀무가설이 정말 사실인데 잘못 기각할 확률이 5%이하여야 한다고도 할 수 있겠네요 아니면 유형 1 오류가 되겠죠 그러니까 이런 경우가 5% 확률 이하면 귀무가설을 기각할 겁니다 귀무가설이 사실이라면 5% 이하 확률일 때 대립가설을 위해 귀무가설을 기각합니다 대립가설을 위해 귀무가설을 기각합니다 생각해 보죠 귀무가설은 만들었고요 분포를 그려 볼게요 귀무가설은 표본분포 차의 평균이 0이어야 한다고 말하죠 귀무가설은 표본분포 차의 평균이 0이어야 한다고 말하죠 이 경우 임계역은 어떻게 될까요? 이 경우 임계역은 어떻게 될까요? 결과가 필요하니 여기 임계점의 Z-값 임계값이 필요합니다 정규화 된 정규분포는 아니니 Z-값이라고는 하면 안되겠네요 정규화 된 정규분포는 아니니 Z-값이라고는 하면 안되겠네요 어쨋든 임계값은 있습니다 어쨋든 임계값은 있습니다 통계학에서 가장 중요한 건 맞는 용어를 사용하는 것이죠 통계학에서 가장 중요한 건 맞는 용어를 사용하는 것이죠 이 이상의 분포에서 표본을 얻을 확률이 5%인 임계값이 있습니다 이 이상의 분포에서 표본을 얻을 확률이 5%인 임계값이 있습니다 이 이상의 분포에서 표본을 얻을 확률이 5%인 임계값이 있습니다 이 이상의 분포에서 표본을 얻을 확률이 5%인 임계값이 있습니다 임계값을 찾기만 하면 됩니다 그리고 이 값이 임계값보다 크다면 귀무가설을 기각할 수 있어요 이것을 얻을 확률이 5% 이하라는 뜻이니까요 이것을 얻을 확률이 5% 이하라는 뜻이니까요 귀무가설을 기각하고 대립가설을 채택할 수 있어요 다시 말하지만 Z-점수를 사용하면 되고 두 표본 크기가 모두 크기 때문에 이걸 정규분포라고 가정할 수 있습니다 표본 크기가 100이죠 값을 찾기 위한 첫 번째로 정규화된 정규분포를 보면 임계점의 Z-값은 무엇일까요? 임계점의 Z-값은 무엇일까요? Z-값 이상의 결과를 얻는데 5%의 가능성밖에 없네요 누적되는 것이죠 따라서 이 모든 면적이 95%의 확률입니다 따라서 이 모든 면적이 95%의 확률입니다 표준정규분포표를 찾아볼게요 95%를 찾고 있고요 한쪽꼬리검정의 경우입니다 95%를 찾아보죠 이게 제일 가깝네요 약간의 오류는 오른쪽에 있는 것이 낫겠어요 약간의 오류는 오른쪽에 있는 것이 낫겠어요 95.05는 나쁘지 않네요 그러면 1.65가 나옵니다 임계점의 Z-값은 1.65입니다 이 거리가 표준편차의 1.65배라 할 수 있습니다 이 거리가 표준편차의 1.65배라 할 수 있습니다 이 거리가 표준편차의 1.65배라 할 수 있습니다 글씨가 작은데 이 분포의 표준편차라고 쓴 겁니다 이 분포의 표준편차라고 쓴 겁니다 이 분포의 표준편차는 얼마일까요? 이 분포의 표준편차는 얼마일까요? 전 동영상에서 계산했지만 다시 한번 해볼게요 전 동영상에서 계산했지만 다시 한번 해볼게요 표본 평균 차 분포의 표준편차는 √(첫 번째 모집단의 분산)입니다 √(첫 번째 모집단의 분산)입니다 첫 번째 모분산은 알지 못합니다 하지만 표본 표준편차로 추산할 수 있죠 표본 표준편차 4.67을 제곱하면 표본분산을 얻을 수 있습니다 표본 표준편차 4.67을 제곱하면 표본분산을 얻을 수 있습니다 이게 분산이 되고요 모분산의 가장 좋은 추정치입니다 모분산의 가장 좋은 추정치입니다 그리고 그걸 표본 크기로 나누고 두 번째 모분산, (4.04)^2을 더해 줍니다 두 번째 모분산, (4.04)^2을 더해 줍니다 두 번째 집단 표준편차의 제곱이죠 그 모분산도 100으로 나눠줍니다 이건 한 적이 있는데 계산기에 남아 있을 수도 있겠네요 이건 한 적이 있는데 계산기에 남아 있을 수도 있겠네요 계산기에 남아 있습니다 이 값이에요 √(4.67^2 /100 + 4.04^2 /100) √(4.67^2 /100 + 4.04^2 /100) 0.617입니다 이게 0.617이죠 따라서 이 거리는 1.65*0.617이 됩니다 계산해 볼게요 0.617*1.65는 1.02네요 이 거리는 1.02입니다 다이어트가 아무것도 하지 않는다고 가정할 때 두 표본 평균의 차가 1.02이상일 확률이 5%라는 것입니다 두 표본 평균의 차가 1.02이상일 확률이 5%라는 것입니다 두 표본 평균의 차가 1.02이상일 확률이 5%라는 것입니다 5%의 확률이요 아까 구했던 평균은 1.91이었습니다 그건 이쯤에 있어요 확실히 임계역안에 있네요 귀무가설이 맞다고 가정할 때 이 값을 얻는 확률은 5% 이하입니다 귀무가설이 맞다고 가정할 때 이 값을 얻는 확률은 5% 이하입니다 유의수준보다 작은 확률이죠 정정할게요 유의수준 ⍺는 5%이어야 합니다 95%가 아니라요 말은 맞게 했는데 숫자를 잘못 적었네요 실수로 1에서 뺐어요 실수로 1에서 뺐어요 어쨋든 유의수준은 5%입니다 귀무가설이 사실이라 할 때 이 결과를 얻을 확률 이만큼의 차이를 얻을 확률이 유의수준보다 낮습니다 5% 이하이죠 임의로 정한 유의수준 5%에 따라 임의로 정한 유의수준 5%에 따라 귀무가설을 기각하고 다이어트가 체중을 감량하게 한다는 대립가설을 채택합니다