If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:15:49

동영상 대본

비만인 사람에게 저지방 다이어트가 정말 체중감량에 도움이 되는지 확인해 보려고 합니다 임의로 100명을 1번 집단에 배정하고 저지방 다이어트를 시작했습니다 임의로 다른 100명의 비만인 사람을 2번 집단에 배정하고 거의 똑같은 양이지만 저지방은 아닌 음식을 먹었습니다 2번 집단은 다이어트를 하지 않는 대조군이고 1번 집단은 저지방 다이어트를 해 효과를 확인합니다 4개월 후에 1번 집단의 감량 체중 평균은 9.31lbs였습니다 4개월 후에 1번 집단의 평균 감량 체중은 9.31lbs였습니다 써 볼게요 더 보기 쉽게 하죠 저지방집단의 평균 감량 체중은 9.31lbs입니다 1번 집단의 표본평균은 9.31lbs고 표본표준편차는 4.67입니다 실제 자료로도 이 둘은 계산하기 아주 쉽죠 실제 자료로도 이 둘은 계산하기 아주 쉽죠 2번 집단인 대조군의 표본평균은 7.40이고 2번 집단인 대조군의 표본평균은 7.40이고 2번 집단인 대조군의 표본평균은 7.40이고 표본표준편차는 4.04lbs입니다 언뜻 보기에는 저지방집단이 대조군보다 체중을 더 많이 감량한 것 같네요 저지방 집단이 대조군보다 체중을 더 많이 감량한 것 같네요 둘의 차이를 보면 말이죠 저지방 집단과 대조군의 차를 구하면 9.31 - 7.40은 계산해보면 1.91입니다 두 표본의 차가 1.91이죠 이것만 보면 이 다이어트로 4개월 동안 1.91lbs를 뺄 수 있을 것으로 보이네요 이 동영상에서는 이 수치에 대한 95% 신뢰구간을 구해 볼 겁니다 95% 신뢰구간 내에서는 항상 체중이 감량되는지 95% 신뢰구간 내에서는 항상 체중이 감량되는지 아니면 저지방 다이어트가 그 반대의 결과를 만들 수도 있을지 알아볼 거에요 이 동영상에서는 95% 신뢰구간에 대해서 알아보고 다음 동영상에서는 같은 자료를 이용해 가설검정을 해 볼거에요 다음 동영상에서는 같은 자료를 이용해 가설검정을 해 볼거에요 95% 신뢰구간을 찾으려면 어떤 분포를 써야 하는지 생각해 보죠 분포를 볼게요 생각하고 있는 분포에 대해 생각해야죠 생각하고 있는 분포에 대해 생각해야죠 평균의 차 분포에 대해 생각해 보아야 합니다 평균의 차 분포에 대해 생각해 보아야 합니다 실제 평균은 여기 있고요 실제 평균은 여기 있고요 표본평균의 차의 평균입니다 표본평균의 차의 평균입니다 써 볼게요 y가 아니라 x1과 x2입니다 x1의 표본평균 - x2의 표본평균이죠 그리고 이 분포는 어떤 표준편차를 가질 겁니다 어떤 표준편차를 가질 겁니다 x1의 표본평균 - x2의 표본평균의 분포의 표준편차이죠 x1의 표본평균 - x2의 표본평균의 분포의 표준편차이죠 표준편차가 존재합니다 이에 대해 추론을 해야 합니다 95% 신뢰구간을 구한다고 생각하는 것이 좋겠네요 95% 신뢰구간을 구한다고 생각하는 것이 좋겠네요 표본을 기반으로 이 주변에 구간을 만드는데 차의 실제 평균이 그 구간안에 있을 확률이 95%라고 신뢰할 수 있어야 합니다 그러려면 이렇게 한번 생각해 보죠 어떻게 구간을 설정해야 95%의 확신으로 이 분포에서 나온 어떤 표본도 이게 그 표본 중 하나이죠 이 구역에서 고를 확률이 95%라고 할 수 있을까요? 이 95%인 구역이 중요합니다 각 방향으로 표준편차의 얼마만큼 가야 할까요? 각 방향으로 표준편차의 얼마만큼 가야 할까요? 그건 표준정규분포표를 보면 됩니다 그리고 기억해 보면 중간에 95%가 있을 때 2.5%는 이쪽에 2.5%는 이쪽에 있어야 합니다 5%를 두 대칭의 꼬리에 나눠야 하죠 5%를 두 대칭의 꼬리에 나눠야 하죠 표준정규분포표를 보고 바로 여기 있는 임계점의 Z-값을 찾을 때 조심해야 합니다 95%를 찾아보면 안 되는데 표준정규분포표는 임계점의 Z-값까지 누적된 확률을 보여 주기 때문입니다 따라서 표준정규분포표는 이렇게 써야 합니다 2.5% 이상인 어떤 Z-값이 있고 2.5% 이상인 어떤 Z-값이 있고 그 이상의 값을 얻는 확률이 2.5%이고 그 이상의 값을 얻는 확률이 2.5%이고 그 밑의 값을 얻는 확률이 97.5%인 Z-값이 있는데 그 밑의 값을 얻는 확률이 97.5%인 Z-값이 있는데 그 Z-값을 찾아보면 여기 Z-값과 같을 겁니다 대신 한쪽꼬리인 경우 말고 두쪽꼬리인 경우로 생각하면 됩니다 그러면 표에서 97.5%인 경우를 찾아보죠 여기 있네요 0.975이죠 97.5이기도 합니다 Z-값은 1.96이네요 Z는 1.96입니다 이 모집단 표본에서 2.5%만이 평균에서 표준편차의 1.96배 만큼 떨어져 있는 것이죠 임계점의 Z-값은 표준편차의 1.96배입니다 임계점의 Z-값은 표준편차의 1.96배입니다 1.96 x (x1의 표준편차 - x2의 표준편차)이죠 1.96 x (x1의 표준편차 - x2의 표준편차)이죠 이쪽은 -1.96에 같은 걸 곱하고요 이쪽은 -1.96에 같은 걸 곱하고요 써 놓을게요 그러니까 이건 대칭이에요 이 거리와 저 거리는 같습니다 이건 -1.96 x 이 분포의 표준편차이고요 이건 -1.96 x 이 분포의 표준편차이고요 95% 확률이라면 이렇게 해 보죠 95%의 확률로 분포에서 얻은 표본에서 이 표본은 다른 표본들의 차입니다 1.91이 95%의 확률로 1.96 x 이 분포의 표준편차 안에 있습니다 이 통계량의 표준오차라고 볼 수도 있어요 이 통계량의 표준오차라고 볼 수도 있어요 x1 - x2인 것이죠 x1 - x2인 것이죠 위의 문장을 끝낼게요 표본 통계량, 여기서 구한 통계량 1.91은 95%의 확률로 분포의 실제 평균에서 분포 표준편차의 1.96배 안에 있습니다 분포 표준편차의 1.96배 안에 있습니다 반대로 말할 수도 있어요 95%의 확률로 분포의 실제 평균이 분포의 표준편차 1.96의 1.96배 안에 있다고요 분포의 표준편차 1.96의 1.96배 안에 있다고요 같은 말입니다 제가 여러분과 3피트 떨어져 있다고 하는게 여러분이 저와 3피트 떨어졌다고 하는 것과 같으니까요 이게 바로 그겁니다 하지만 후자처럼 말하면 신뢰구간을 어떻게 구성하는지 쉽게 보입니다 이 거리만 구하면 되는 것이죠 이 거리만 구하면 되는 것이죠 그리고 거리를 구하는 데에는 이 분포의 표준편차만 구하면 됩니다 이 분포의 표준편차만 구하면 됩니다 표본 평균 차의 표준편차는 지난번 동영상에서 보았듯이 밑에도 있을 텐데요 각 분포 분산의 제곱근과 같습니다 각 분포 분산의 제곱근과 같습니다 각 분포 분산의 제곱근과 같습니다 이렇게 써 볼게요 분산 구하는 것을 다시 보여드리죠 구하고자 하는 분포의 분산은 각 표본분포 분산의 합입니다 각 표본분포 분산의 합입니다 각 표본분포 분산의 합입니다 그리고 각 표본분포의 분산은 일단 이 표본분포의 분산은 모집단분포의 분산/ 표본 크기입니다 모집단분포의 분산/ 표본 크기입니다 이 경우 표본 크기는 100이고요 대조군이었던 이 표본분포의 분산은 대조군 모집단분포의 분산/ 표본 크기와 같습니다 대조군 모집단분포의 분산/ 표본 크기와 같습니다 대조군 모집단분포의 분산/ 표본 크기와 같습니다 그리고 이것들은 얼마인지 모르니까 추정치를 내 볼 수 있어요 특히 각 상황에서 n이 30 보다 크니까요 특히 각 상황에서 n이 30 보다 크니까요 각 분포의 표본분산으로 추정치를 계산할 수 있죠 각 분포의 표본분산으로 추정치를 계산할 수 있죠 확실하게 해 볼게요 각 분포의 표본분산입니다 이건 표본 표준편차 1의 제곱 그 분포의 표본분산이죠 / 100이고요 표본분산, 대조군의 표본평균의 제곱을 더해 줍니다 표본분산, 대조군의 표본평균의 제곱을 더해 줍니다 표본평균의 제곱은 분산입니다 100으로 나눠줍니다 이렇게 이 분포의 분산을 구할 수 있어요 이렇게 이 분포의 분산을 구할 수 있어요 그리고 양쪽에 제곱근을 씌우면 표준편차를 구할 수 있습니다 그리고 양쪽에 제곱근을 씌우면 표준편차를 구할 수 있습니다 이 분포의 표준편차를 구하려면 이건 분산이니까 제곱근만 씌우면 됩니다 계산해 볼게요 이 값들은 이미 알고 있어요 1번 집단의 표본표준편차 s1은 4.67입니다 1번 집단의 표본표준편차 s1은 4.67입니다 여기에도 써 놓았죠 4.76과 4.04네요 s1인 4.76을 제곱하고 s2인 4.04을 제곱합니다 계산해 보죠 √(4.67²/100 + 4.04²/100)은 √(4.67²/100 + 4.04²/100)은 괄호를 닫고요 괄호를 닫고요 0.617입니다 적어 볼게요 이 값은 0.617입니다 위로 올라가보면 이 분포의 표준편차가 0.617이니까 구간도 계산할 수 있습니다 이게 0.617이니까요 거기에 1.96을 곱하면 1.96 x 0.617은 방금 구한 답을 사용할게요 1.21입니다 이 값이 1.21이죠 따라서 95% 신뢰구간은 평균의 차 1.91 ± 1.21입니다 신뢰구간을 구해 보죠 신뢰구간의 하한은 1.91 -1.21 0.7입니다 하한은 0.7이고요 상한은 1.91 + 1.21 2.12이네요 맞는지 확인해 볼게요 동영상을 만드는 중에 머리가 안 돌아갈 때가 있거든요 동영상을 만드는 중에 머리가 안 돌아갈 때가 있거든요 3.12였네요 정확히 95%의 확률로 실제 평균의 실제 차가 이 안에 있는 건 아닙니다 95% 확률이라고 신뢰할 뿐이죠 항상 신뢰할 수 있다는 말을 붙여하 하는데 모표준편차나 모분산을 알았던 것이 아니고 모표준편차나 모분산을 알았던 것이 아니고 표본을 이용해 추측했기 때문입니다 그렇기 때문에 정확한 확률은 알 수 없습니다 그렇기 때문에 정확한 확률은 알 수 없습니다 95% 확률임을 신뢰할 수 있다고 해야 하죠 95% 확률임을 신뢰할 수 있다고 해야 하죠 신뢰구간이지 순수한 확률이 아닌 이유입니다 그래도 꽤 괜찮은 결과에요 그래도 꽤 괜찮은 결과에요 95%의 신뢰할 만한 확률로 실제 두 표본의 차가 95%의 신뢰할 만한 확률로 두 표본의 실제 차가 다시 말하면 표본 평균의 기대값이 모평균의 기대값과 같다는 겁니다 모평균의 기대값과 같다는 겁니다 따라서 이게 알려주는 건 모집단 간 실제 차의 신뢰구간입니다 모집단 간 실제 차의 신뢰구간입니다 가능한 모든 사람에게 1번 다이어트를 그리고 가능한 모든 사람에게 2번을 주었을 때죠 실제 모평균의 신뢰구간을 알려주는 겁니다 실제 모평균의 신뢰구간을 알려주는 겁니다 이걸 보면 1번 다이어트가 뭔가 하는 것 같네요 이걸 보면 1번 다이어트가 뭔가 하는 것 같네요 신뢰구간의 하한에서도 2번 다이어트보다 더 많은 체중감량이 일어나니까요 2번 다이어트보다 더 많은 체중감량이 일어나니까요 많이 헷갈리지 않았으면 해요 다음 동영상에선 같은 자료로 가설검정을 해 볼게요