If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

카이제곱분포란?

카이제곱분포란? 만든 이: 살만 칸 선생님

동영상 대본

이 동영상에선 카이제곱분포에 대해서 알아보도록 하겠습니다 이 동영상에선 카이제곱분포에 대해서 알아보도록 하겠습니다 이 동영상에선 카이제곱분포에 대해서 알아보도록 하겠습니다 그리고 이후 동영상에서 이론상의 분포가 실제로 관찰된 분포를 얼마나 잘 설명하는지 또는 관찰된 분포가 실제로 이론상의 분포에 얼마나 잘 맞는지 시험해 볼 겁니다 생각해 봅시다 확률변수가 있다고 해요 각 변수는 독립적이고 표준이고, 정규적이고 정규적으로 분포된 확률변수입니다 그게 무슨 뜻인지 기억해보죠 확률변수 X가 있다고 합시다 X가 정규적인 분포를 가진다면 X는 정규확률변수이며 평균이 0 그리고 분산이 1이라고 할 수 있습니다 아니면 X의 기댓값이 0이고 확률변수 X의 분산은 1이라고도 할 수 있죠 확률변수 X의 분산은 1이라고도 할 수 있죠 시각적으로 나타내 보면 이 변수를 예시화 했을 때 정규분포에서 표집합니다 이렇게 생긴 표준정규분포에서요 이렇게 생긴 표준정규분포에서요 평균은 0에 있고 분산은 1이죠 물론 표준편차가 1이라는 뜻도 됩니다 이게 분산도 되고 표준편차이며 1이란 것이죠 카이제곱분포에서 이 확률변수 하나를 이렇게 정의해 보죠 새 확률변수를 정의해 볼게요 새 확률변수 Q를 정의하는데, 이는 이 표준졍규분포에서 표집해 얻은 숫자를 제곱하는 것과 같습니다 이 확률변수 X의 제곱이죠 이 확률변수 X의 제곱이죠 이 확률변수의 분포가 바로 카이제곱분포의 예라고 할 수 있습니다 이 동영상에서 카이제곱분포는 합이 몇 개인지에 따라 다른 분포의 집합이라는 것을 보게 될겁니다 지금은 제곱하는 확률분포가 하나인 경우로 지금은 제곱하는 확률분포가 하나인 경우로 여러 경우 중 하나입니다 곧 더 이야기해 볼게요 여기 Q를 카이제곱분포를 따르는 확률분포라고 표시할 때 이런 기호를 사용합니다 이런 기호를 사용합니다 이건 X가 아니라 그리스 문자 χ입니다 휘어진 X같아 보이긴 하지만요 그래서 이건 카이제곱의 원소라는 뜻이고 한 개의 값만 더하기 때문에 독립적이고 표준화된 정규분포를 가진 변수 하나의 값을 사용하기 때문에 자유도가 1이라고 말하고 여기에 씁니다 이게 자유도를 나타내는 것이고요 여기서 자유도는 1입니다 이걸 Q₁이라고 하고 다른 확률변수를 만들게요 Q₂라고 하죠 파란색으로 할게요 또 다른 확률변수 Q₂가 있다고 하고 독립적이고 표준화된 정규분포를 가진 변수 독립적이고 표준화된 정규분포를 가진 변수 X₁을 제곱합니다 그리고 또 다른 독립적이고 표준화된 정규분포를 가진 변수 X₂를 제곱합니다 두 변수 모두 위와 같은 분포를 가진다고 볼 수 있어요 두 변수 모두 위와 같은 분포를 가진다고 볼 수 있어요 그리고 서로 독립적이고요 표본 Q₂를 구하려면 X₁을 위의 분포에서 표집해 제곱하고 X₂를 같은 분포에서 표집해 제곱하고 둘을 더하면 되는 겁니다 그러면 Q₂를 얻을 수 있죠 Q₁은 이렇게 쓰고 여기 Q₂는 자유도가 2인 카이제곱분포를 가진 확률분포라고 이렇게 씁니다 바로 여기 자유도가 2라는 뜻입니다 카이제곱분포들의 집합을 시각화 해보면 여기를 보세요 위키피디아에서 가져온 자료인데 몇 개의 카이제곱분포에 대한 확률밀도함수를 보여주고 있네요 몇 개의 카이제곱분포에 대한 확률밀도함수를 보여주고 있네요 첫 번째에 k =1은 자유도를 나타냅니다 Q₁과 다름없죠 이게 Q₁의 확률밀도함수에요 보면 0에 가까울 때 함수가 급등합니다 일리가 있는 현상이에요 이 표준정규분포에서 표집을 한 번만 한다면 이 표준정규분포에서 표집을 한 번만 한다면 0에 가까운 값을 얻을 확률 아주 높습니다 0에 가까운 값을 얻을 확률 아주 높습니다 그리고 0에 가까운 값을 제곱하면 이 값들은 1보다 작은 소수이기 때문에 훨씬 더 작아집니다 따라서 아주 작은 값을 얻을 확률이 굉장히 높습니다 특정 한계보다 적은 값을 얻는 확률이 높죠 이 정도에서 여기 1은 확률이 1/2 이하죠 그리고 큰 수를 얻는 확률은 아주 작습니다 그리고 큰 수를 얻는 확률은 아주 작습니다 4를 얻고자 한다면 위 분포에서 2를 표집해야 하는데 4를 얻고자 한다면 위 분포에서 2를 표집해야 하는데 2는 분산이 2이거나, 평균에서 표준편차의 두 배 떨어진 거리니까 분산이 2이거나, 평균에서 표준편차의 두 배 떨어진 거리니까 가능성이 낮습니다 이건 4를 얻는 경우일 뿐인데 더 큰 수를 얻는 것은 가능성이 더욱 낮습니다 그래서 이런 모양이 나오는 것이죠 자유도가 2일 때는 조금 더 적당해 집니다 파란색 선이 Q₂를 나타내는 모양인데 파란색 선이 Q₂를 나타내는 모양인데 0에 가까운 값을 얻을 확률이 좀 더 낮고 멀리 있는 수를 얻을 확률이 좀 더 높아요 멀리 있는 수를 얻을 확률이 좀 더 높아요 그래도 아직 작은 수 쪽으로 치우쳐 있네요 그래도 아직 작은 수 쪽으로 치우쳐 있네요 카이제곱분포를 가진 확률변수가 또 있다면 카이제곱분포를 가진 확률변수가 또 있다면 Q₃이라고 할게요 독립적인 표준정규분포를 가진 변수 세 개의 합이라고 정의하고요 독립적인 표준정규분포를 가진 변수 세 개의 합이라고 정의하고요 독립적인 표준정규분포를 가진 변수 세 개의 합이라고 정의하고요 X²₁ +X²₂ + X²₃이라고 씁니다 그러면 Q₃은 자유도가 3인 카이제곱분포를 가지게 됩니다 그러면 Q₃은 자유도가 3인 카이제곱분포를 가지게 됩니다 그래서 이건 초록색 선에 해당합니다 초록색 선에 해당합니다 초록색 선에 해당합니다 이제 이 범위의 수를 얻을 확률이 좀 더 늘어났네요 이제 이 범위의 수를 얻을 확률이 좀 더 늘어났네요 이제 이 범위의 수를 얻을 확률이 좀 더 늘어났네요 값을 합하고 있기 때문이죠 이것들 각각의 값은 꽤 작겠지만 그 값을 합하면 오른쪽으로 조금 이동합니다 더 큰 자유도를 가질수록 이 혹이 오른쪽으로 움직이는데 조금 더 대칭된다고 볼 수도 있겠네요 흥미로운 점은 다른 거의 모든 분포와 다른 점인데 이런 특징을 가진 분포도 보기는 했지만 0이하인 값이 없다는 것입니다 0이하인 값이 없다는 것입니다 항상 이 값을 제곱하기 때문이죠 각각의 이 값들은 정규분포를 보이기 때문에 0이하일 수 있지만 각각의 이 값들은 정규분포를 보이기 때문에 0이하일 수 있지만 음수일 수 있다는 것이죠 값을 제곱하여 합을 구하기 때문에 이건 항상 양수가 됩니다 이 특성이 효과적일 때는 다음 동영상들에서 다루겠지만 기댓값의 오차를 구할 때입니다 이 오차의 합을 가지고 어떤 모집치에 대한 그 오차의 합을 얻는 확률을 구할 수 있죠 이건 다음 동영상에서 더 다룰 겁니다 이제 카이제곱분포표 읽는 방법을 알아볼게요 이제 카이제곱분포표 읽는 방법을 알아볼게요 이 분포에 대해서 파란색 분포를 보면 자유도가 2인데 이걸 두 개 더하고 있으니까요 Q₂가 2.41보다 클 확률은 얼마일까요? Q₂가 2.41보다 클 확률은 얼마일까요? Q₂가 2.41보다 클 확률은 얼마일까요? 2.41이라고 한 데에는 이유가 있습니다 Q₂가 2.41보다 클 확률을 구하려면 이렇게 생긴 카이제곱분포표를 보면 됩니다 이렇게 생긴 카이제곱분포표를 보면 됩니다 Q₂는 자유도가 2인 버전의 카이제곱입니다 여기 자유도가 2인 행을 보고 2.41이상의 값을 얻는 확률을 찾습니다 2.41은 이 표에 있어서 골랐어요 카이제곱분포표에 이런 이상한 숫자들이 카이제곱분포표에 이런 이상한 숫자들이 정수나 읽기 쉬운 분수 대신 있는 이유는 이 값들이 p-값에 의해 결정되기 때문입니다 이 값보다 더 큰 값을 얻을 확률에 의해 결정되는 것입니다 이 값보다 더 큰 값을 얻을 확률에 의해 결정되는 것입니다 보통은 그 반대입니다 보통 어떤 값에서 그 이상을 얻는 확률이 30%이고 자유도가 2인 카이제곱값이 무엇인지 물어보고 자유도가 2인 카이제곱값이 무엇인지 물어보고 그러면 2.41을 찾을 텐데 이 동영상에서는 반대로 해 볼게요 이 동영상에서는 반대로 해 볼게요 이 확률변수를 얻을 가능성이 2.41 이상인 확률 또는 그러한 p-값 이상일 확률을 알고 싶다면 여기를 보면 됩니다 30%네요 시각화 해보면 이 파란색 카이제곱분포가 Q₂였으니까 2.41은 여기가 3이고 여기가 2.5면 2.41은 이정도에 있을 거예요 그러니까 이 표는 파란 선 아래 이 넓이를 말해주는 것이죠 파란 선 아래 이 넓이를 말해주는 것이죠 그 넓이는 30%, 아니 0.3이고 그 넓이는 30%, 아니 0.3이고 이 곡선 아래 전체 넓이의 30%인 것입니다 모든 확률을 더했을 때 이어야 하니까요 모든 확률을 더했을 때 이어야 하니까요 카이제곱분포에 대해 알아보았어요 다음 동영상에선 카이제곱분포를 사용해 추론을 검정해 보도록 할게요