If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:12:22

동영상 대본

이번 동영상에서는 이변량 자료들의 상관계수를 손으로 계산해 보겠습니다 이변량 자료들의 상관계수를 손으로 계산해 보겠습니다 이변량이라는 것은 각 x 측정값에 대하여 그에 해당하는 y 측정값이 있다는 뜻입니다 상관계수를 계산하기 전에 주어진 통계량을 잘 이해하고 있는지 확인해 봅시다 주어진 통계량을 잘 이해하고 있는지 확인해 봅시다 이것들을 모집단에서 얻은 x의 표본과 그에 대응하는 y라고 가정합시다 이것들을 모집단에서 얻은 x의 표본과 그에 대응하는 y라고 가정합시다 이것들을 모집단에서 얻은 x의 표본과 그에 대응하는 y라고 가정합시다 x의 표본평균과 X의 표본표준편차도 주어졌습니다 X의 표본평균은 계산이 어렵지 않습니다 간단히 (1 + 2 + 2 + 3)/4 입니다 간단히 (1 + 2 + 2 + 3)/4 입니다 즉 8/4이고 주어진대로 2가 맞습니다 X의 표본표준편차는 전에도 다뤘듯이 약간의 복습을 하면 표본표준편차는 표본평균으로부터 각 측정값까지의 거리의 제곱에 표본표준편차는 표본평균으로부터 각 측정값까지의 거리의 제곱에 제곱근을 취한 값입니다 따라서 (1 - 2)² + (2 - 2)² + (2 - 2)² + (2 - 3)²를 따라서 (1 - 2)² + (2 - 2)² + (2 - 2)² + (2 - 3)²를 따라서 (1 - 2)² + (2 - 2)² + (2 - 2)² + (2 - 3)²를 따라서 (1 - 2)² + (2 - 2)² + (2 - 2)² + (2 - 3)²를 표본표준편차를 구하고 있기 떄문에 자료의 개수인 4개에서 하나를 뺀 3으로 나눈 값을 구해야 합니다 하나를 뺀 3으로 나눈 값을 구해야 합니다 간단히 정리하면 이것과 이것이 0이고 이것은 1, 이것도 1이므로 따라서 √(2/3)이 나오고 대략 0.816이 됩니다 대략 0.816이 됩니다 y에 대해서도 마찬가지입니다 y의 표본평균은 4개의 측정값이 있으므로 (1 + 2 + 3 + 6)/4입니다 12/4이므로 3이 맞고 y의 표본표준편차는 x를 계산했던 방법과 정확히 동일하게 하면 x를 계산했던 방법과 정확히 동일하게 하면 2.160이 나옵니다 이제 이들은 제쳐두고 상관계수를 계산하는 방법에 대해 생각해 봅시다 상관계수를 계산하는 방법에 대해 생각해 봅시다 이 식은 상관계수를 계산하는 공식 중 한 가지입니다 이 식은 상관계수를 계산하는 공식 중 한 가지입니다 몇 가지 사실을 알기 전에는 조금 어려워 보일 수 있습니다 이것은 각각 x, y에 대응하는 x에 대한 z-점수를 구하라는 뜻일 뿐입니다 따라서 특정 x에 대한 z는 이렇게 씁니다 따라서 특정 x에 대한 z는 이렇게 씁니다 이것은 z _x _i이죠 그리고 이것은 이 특정 y에 대한 z-점수라고 할 수 있습니다 z_y_i라고도 표현할 수 있죠 이것은 각각의 측정값에 대해 그 측정값에 대한 평균과의 차이를 구하고 표본표준편차로 나누라고 하는 것입니다 그러면 이것이 평균으로부터 표본표준편차 몇 배만큼 떨어져 있는지 알 수 있습니다 따라서 이것은 x 측정값의 z-점수이고 이것은 대응하는 y 측정값의 z-점수입니다 표본평균으로부터 표본표준편차 몇 배만큼 떨어져 있는지 말하는 것이죠 표본평균으로부터 표본표준편차 몇 배만큼 떨어져 있는지 말하는 것이죠 실제로 4개의 측정값만 있는 경우는 없기 때문에 손으로 계산하기 힘들어 컴퓨터를 이용해 계산하지만 원리를 이해하기 위해 직접 계산해 보는 것은 굉장히 중요합니다 이 특정 상황에서 r을 계산해 봅시다 1/n -1은 4쌍이 있기 때문에 1/3이 되고 거기에 z-점수 곱들의 합을 계산해 곱해주어야 합니다 거기에 z-점수 곱들의 합을 계산해 곱해주어야 합니다 이 첫 쌍의 z-점수는 이 첫 쌍의 z-점수는 1에서 x의 표본평균으로부터 측정값까지의 거리를 빼고 1에서 x의 표본평균으로부터 측정값까지의 거리를 빼고 x의 표본표준편차 0.816으로 나눈 후 거기에 이제 변수 y에 대해 보면 거기에 이제 변수 y에 대해 보면 y의 z-점수는 1 - 3를 y의 표본표준편차 2.160으로 나누어 주면 됩니다 이렇게 계속 반복합니다 이렇게 하겠습니다 다음은 (2 - 2)/ 0.816이고요 2는 여기서 나온 것이고 거기서 표본평균을 빼준 겁니다 이제 이 2를 보면 (2 - 3)/2.160입니다 4쌍 밖에 없어서 다행입니다 다시 (2 - 2)/0.816에 이제 (3 - 3)/2.160을 곱해 전체에 더합니다 이제 (3 - 3)/2.160을 곱해 전체에 더합니다 마지막 쌍은 (3 - 2)/0.816에 마지막 쌍은 (3 - 2)/0.816에 (6 - 3)/2.160을 곱해 줍니다 (6 - 3)/2.160을 곱해 줍니다 계산기로 계산하기 전에 식을 간단히 해 봅시다 2 - 2는 0이고 0과 곱하면 항상 0이기 때문에 이게 통째로 0이 됩니다 2 - 2는 0이고 3 - 3도 0이죠 이 항은 0 x 0이기 때문에 통째로 0이 됩니다 이 항은 1 - 2 즉 -1이고 1 - 3은 -2이기 때문에 r은 1/3에 음수와 음수를 곱하면 양수니까 이것은 2/0.816・2.160가 되고 이것은 2/0.816・2.160가 되고 3 - 2는 1이고 6 - 3은 3이니까 3/0.816・2.160를 더합니다 같은 분모를 가지기 때문에 다시 써보면 분자가 2인 것과 분자가 3인 것을 더하면 분자가 5가 되어서 통째로 다시 쓰면 5/0.816・2.160이고 계산기를 이용해 이를 계산해주면 됩니다 1/3*5/(0.816*2.160)은 1/3*5/(0.816*2.160)은 0은 무시해도 되지만 적어 놓겠습니다 괄호를 닫아주고 결과를 봅시다 모두 소수점 셋째 자리까지 표시했기 때문에 모두 소수점 셋째 자리까지 표시했기 때문에 이것도 넷째 자리에서 반올림하겠습니다 r은 0.946이 됩니다 r은 약 0.946입니다 이것은 무슨 의미일까요? 상관계수란 x와 y의 관계를 직선이 얼마나 잘 나타낼 수 있는지를 나타내는 척도입니다 직선이 얼마나 잘 나타낼 수 있는지를 나타내는 척도입니다 R은 항상 -1 이상이고 R은 항상 -1 이상이고 1 이하입니다 R이 +1이라면 오른쪽 위를 향하는 직선이 자료의 관계를 완벽히 나타낸다는 뜻이고 오른쪽 위를 향하는 직선이 자료의 관계를 완벽히 나타낸다는 뜻이고 만약 r이 -1이라면 오른쪽 아래를 향하는 직선이 관계를 완벽히 나타낸다는 뜻입니다 그 사이에 있는 r 값들은 그만큼 완벽하지는 않다는 뜻입니다 그 사이에 있는 r 값들은 그만큼 완벽하지는 않다는 뜻입니다 R이 0이라면 직선으로 표현이 아예 안 된다는 것입니다 이 경우에는 이 경우에는 이 경우에는 r이 1에 가깝기 때문에 이 x와 y의 관계를 직선을 통해 꽤 잘 표현할 수 있다는 것입니다 예를 들어, 직선을 손으로 그려본다면 예를 들어, 직선을 손으로 그려본다면 최소제곱선이 항상 x와 y의 평균을 지나는 것을 볼 수 있습니다 x의 평균은 2이고 y의 평균은 3입니다 뒤의 동영상들에서 자세히 다루겠지만 여기 보면, 이 직선이 좋아 보입니다 여기 보면, 이 직선은 나쁘지 않아 보입니다 여기 이렇게 그려 봅시다 이 자료들에 꽤 가까운 선을 그릴 수 있었습니다 완벽하진 않습니다 만약 모든 점을 지났다면 r의 값이 1이 될겁니다 완벽하진 않지만 가깝게 지납니다 완벽하진 않지만 가깝게 지납니다 이제 직관적으로 생각해 봅시다 이제 직관적으로 생각해 봅시다 어떻게 이 z-점수들과 z-점수들의 곱들이 방금 말한 이 특성 r이 1이면 강한 양의 관계이고 R이 -1이면 강한 음의 관계인 것과 어떤 상관이 있을까요? 표본평균들을 그려 봅시다 x의 표본평균은 2이고 이게 x축이므로 y = 2를 나타내는 직선을 표현하고 y의 표본평균은 3입니다 이게 y = 3을 표현하는 직선입니다 표준편차도 그릴 수 있습니다 x의 표준편차는 0.816이므로 근사한 값을 찾으면 평균보다 0.816적은 값이니 대략 이쯤 될 것입니다 이게 평균에서 표준편차 하나 밑입니다 평균의 표준편차 하나 위는 대략 이쯤이 될 것입니다 y도 동일한 과정을 진행하면 평균의 표준편차 하나 2.160 위는 5.160이므로 대략 이쯤 그려보겠습니다 평균의 표준편차 하나 밑은 먼저 2를 빼주면 1이 되고 나머지 0.160을 빼주면 대략 이쯤이 될 것입니다 첫 쌍을 보면 (1,1)입니다 뭘 하고 있었죠? 이게 평균보다 표준편차 몇 배 밑이었는지 계산했을 때 -1/0.816이라고 구했고 그 점이 바로 이곳입니다 이 계산과정은 그런 뜻이었고 y의 방향으로는 표준편차 몇 배인지는 y의 방향으로는 표준편차 몇 배인지는 -2/2.160를 보면 알 수 있습니다 두 값 모두 음수였기 때문에 r에 어떤 영향을 끼쳤냐면 이 값이 양수가 되어서 이렇게 생각해 볼 수 있습니다 r의 값이 1에 가까워지도록 도왔다고요 두 값 모두 음의 z-점수를 가진다면 변수들은 양의 상관관계를 가진다는 뜻입니다 하나가 평균보다 작다면 다른 변수도 비슷한 정도로 평균보다 작다고 말할 수 있는 것이죠 다음 측정값으로 넘어가면 (2,2)에는 어떤 일이 일어나죠? x는 정확히 평균이었기 때문에 이 전체의 항이 0이 됐습니다 x의 z-점수가 0이었습니다 이는 상관계수의 값을 감소시키는 역할을 합니다 그 이유는 값이 음이 아니지만 그 이유는 값이 음이 아니지만 전체 합에 기여하지 않고 한 쌍을 추가함으로써 조금 더 큰 값으로 나누어야 하기 때문입니다 만약 측정점이 x는 평균보다 작고 y는 평균보다 컸다면 이렇게 말이죠 만약 이게 한 점이었다면 이것은 음의 영향을 끼칠 것입니다 y의 z-점수는 양수이지만 x의 z-점수는 음수이기 때문입니다 따라서 전체 합에 넣는다면 전체 합이 감소하므로 r 점수가 더 낮아지는 효과를 낳았을 것입니다 이런 것도 r의 점수를 낮출 것입니다 이런 것도 r의 점수를 낮출 것입니다 x의 z-점수는 양이지만 y의 z-점수는 음수인데 양수와 음수의 곱은 음수이기 때문입니다