이 메시지는 외부 자료를 칸아카데미에 로딩하는 데 문제가 있는 경우에 표시됩니다.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

주요 내용

소표본 가설검정

가설검정의 예제로 새 엔진이 배기가스량 기준을 충족하는지 확인하는 데 충분한 정보가 있는지 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

새로운 디자인의 엔진 배기가스량 평균은 새 기준을 통과하려면 20ppm 미만이어야 합니다 새 기준을 통과하려면 20ppm 미만이어야 합니다 시험을 위해 열 개의 엔진이 제작되었고 배기가스량이 측정되었습니다 배기가스량에 대해 10개의 엔진에 대한 10개의 측정점을 주었습니다 제가 미리 측정점의 평균을 구해 놓았습니다 표본평균은 17.17이었고 10개 측정점의 표준편차는 2.98이었습니다 표본표준편차이죠 엔진이 새 기준을 만족하는지 결정하는 데에 자료가 충분한 증거를 제공하나요? 1종오류를 0.01의 확률까지 감수한다고 가정합시다 1종오류를 0.01의 확률까지 감수한다고 가정합시다 이건 조금 있다가 알아보고 그 전에 귀무가설과 대립가설을 먼저 정립해 봅시다 그 전에 귀무가설과 대립가설을 먼저 정립해 봅시다 귀무가설은 기준을 만족하지 못한다고 하는 것입니다 귀무가설은 기준을 만족하지 못한다고 하는 것입니다 아슬아슬하게 기준에 못 미친다는 말입니다 엔진의 평균이 정확히 20ppm이라고 하는 거죠 엔진의 평균이 정확히 20ppm이라고 하는 거죠 기준에 못미치는 최고의 값 그러니까 기준에 못 미치는 가능한 가장 낮은 값을 쓰는 겁니다 그리고 대립가설은 기준에 미친다고 하는 것이죠 그리고 대립가설은 기준에 미친다고 하는 것이죠 새 엔진의 진짜 평균은 20ppm 이하라고요 그리고 자료가 충분하게 있는지 알아보기 위해 먼저 이것이 참이라고 가정해 봅시다 먼저 이것이 참이라고 가정해 봅시다 먼저 이것이 참이라고 가정해 봅시다 참이라고 가정할 때 이것이 일어날 확률 그리고 이것의 표본평균을 얻을 확률이 1% 이하라면 귀무가설을 기각할 겁니다 그러니까 귀무가설을 참이라 가정할 때 표본평균이 17.17일 확률이 1%이하라면 귀무가설을 기각할 겁니다 이렇게 하면 1종오류를 일으킬 확률이 1% 미만이 되죠 이렇게 하면 1종오류를 일으킬 확률이 1% 미만이 되죠 참인데도 가설을 기각한다는 게 1종오류입니다 참인데도 가설을 기각한다는 게 1종오류입니다 여기선 1% 확률 아니면 그보다 적은 확률로 참인 가설을 기각합니다 다음으로 어떤 분포를 사용할지 생각해야 합니다 다음으로 어떤 분포를 사용할지 생각해야 합니다 저는 가장 먼저 표본이 10개 밖에 없다는 게 생각나네요 저는 가장 먼저 표본이 10개 밖에 없다는 게 생각나네요 표본이 10개죠 표본의 크기가 작습니다 그래서 T-분포와 T-통계량을 사용할게요 그래서 T-분포와 T-통계량을 사용할게요 이렇게 생각해 보죠 이 통계량으로 T-통계량을 만들 수 있어요 이 통계량으로 T-통계량을 만들 수 있어요 T-통계량은 표본평균 17.17 - 가정한 모평균 20ppm T-통계량은 표본평균 17.17 - 가정한 모평균 20ppm / 2.98 (표준편차) 이건 T-통계량의 정의라고 볼 수 있는데 이제 이것이 Z-점수에서 나온다는 것과 T-분포는 T-통계량을 정규분포를 사용해 조작했다는 것을 볼 수 있었으면 합니다 정규분포를 사용해 조작했다는 것을 볼 수 있었으면 합니다 2.98/√(표본 크기)인데 표본이 10개니까 √(10)으로 나눠 줍니다 계산 해보면 계산 해보면 계산 해보면 (17.17-20) /(2.98/√ /(2.98/√ /(2.98/√ /(2.98/√ /(2.98/√10) /(2.98/√10) /(2.98/√10) 거의 정확하게 -3이네요 T-통계량은 거의 정확하게 -3, 3.00입니다 이제 필요한 것은, T-통계량이 T-분포를 가지고 있으니까 이제 필요한 것은, T-통계량이 T-분포를 가지고 있으니까 T-통계량, t의 값이 이것보다 같거나 적은 값을 얻는 확률이 1%미만인지 알아 봅시다 T-분포가 있다고 생각해 보세요 T-분포가 있다고 생각해 보세요 T-분포가 있다고 생각해 보세요 정규화된 T-분포가 있다고 해 보죠 모든 T-통계량의 분포는 정규화된 T-분포입니다 이건 T-분포의 평균이에요 어떤 임계점의 T-값이 이쯤 있을 거고요 임계점의 T-값이라고 할게요 임계점의 T-값이라고 할게요 보기 쉽지 않네요 여기가 어떤 임계점의 T-값이라고 할게요 그리고 임계점의 T-값은 그 아래의 모든T-값을 얻을 확률이 그리고 임계점의 T-값은 그 아래의 모든T-값을 얻을 확률이 1%미만인 값입니다 1%미만인 값입니다 노란색 영역 전부가 1%죠 이제 이 임계점의 T-값을 찾아야 합니다 n= 10, 또는 n=10-1 =9의 자유도를 가지고 있는 T-분포에서요 n= 10, 또는 n=10-1 =9의 자유도를 가지고 있는 T-분포에서요 n= 10, 또는 n=10-1 =9의 자유도를 가지고 있는 T-분포에서요 그럼 이 임계값은 얼마일까요? 이건 한쪽꼬리분포에요 여기가 1%이고 나머지는 99%죠 대부분의 T-분포표는 이런 방향으로 음의 T-값을 사용하지 않고 반대 방향으로 양의 T-값을 줍니다 반대 방향으로 양의 T-값을 줍니다 따라서 T분포표는 여기 있는 걸 곧 사용해 보겠지만 따라서 T분포표는 여기 있는 걸 곧 사용해 보겠지만 T분포표는 분포가 이렇게 있으면 여기 쯤에 있는 양의 T-값을 줍니다 이중 임계값은 그 위의 T-값을 얻는 확률이 1%이고 그 미만의 T-값을 얻는 확률이 99%인 값입니다 그 미만의 T-값을 얻는 확률이 99%인 값입니다 T-분포는 평균을 중심으로 대칭이니까 이 값이 무엇이던 만약 값이 2라면 이 값은 -2입니다 만약 값이 2라면 이 값은 -2입니다 그것만 알면 됩니다 T분포표로 이 값을 찾을 수 있어요 그럼 T-값 미만을 얻을 확률이 99%인 T-값을 찾아 보죠 다시 한번 말하지만 이건 한쪽꼬리인 경우인데 여기를 보세요 위키피디아에서 가져온 자료인데 한쪽에서의 T-값 밑의 누적 분포가 99%이어야 합니다 99%가 여기 있네요 자유도는 9였습니다 10 측정점이 있고 10-1은 9니까요 9의 자유도인데요 임계점의 T-값은 2.821이었네요 이 경우 필요하다면 임계점의 T-값은 그냥 뒤집으면 되는데 완벽히 대칭이므로 -2.821입니다 2.821 미만의 T-값을 얻는 확률이 1%라고 말해주고 있는 것이죠 2.821 미만의 T-값을 얻는 확률이 1%라고 말해주고 있는 것이죠 이 문제에선 더 낮은 값이 나왔네요 T-값이 -3입니다 -3인 T-값은 이쯤 있을 거에요 -3인 T-값은 이쯤 있을 거에요 확실히 기각역 안에 있습니다 확실히 기각역 안에 있습니다 이건 1%보다도 덜 가능하죠 이 영역도 계산할 수 있습니다 T-통계량이 -3보다 작은 곳인데 노란 영역의 부분집합입니다 노란 영역의 부분집합입니다 구한 T-통계랑을 얻는 확률이 1% 미만이므로 안전하게 귀무가설을 기각하고 배기가스 기준을 만족한다는 대립가설을 지지할 수 있습니다 배기가스 기준을 만족한다는 대립가설을 지지할 수 있습니다 배기가스 기준을 만족한다는 대립가설을 지지할 수 있습니다 그리고 이 상황에선 1종오류를 일으킬 확률이 1%미만이라는 것도 알 수 있습니다