이 메시지는 외부 자료를 칸아카데미에 로딩하는 데 문제가 있는 경우에 표시됩니다.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

주요 내용

R제곱 구하기

R제곱를 구하여 회귀직선이 얼마나 자료에 부합하는지 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

지난 동영상에서는 이 네 개의 점에 맞는 회귀직선의 방정식을 찾아 보았습니다 이번 동영상에서는 이 점들의 R²을 구하려 합니다 이번 동영상에서는 이 점들의 R²을 구하려 합니다 이 직선이 얼마나 적합한지 알아보는 것이죠 이 자료에 대한 변동성의 백분율을 구하는 것과 같습니다 이 자료에 대한 변동성의 백분율을 구하는 것과 같습니다 특히 x의 변동성에 의해 설명될 수 있는 y의 변동성에 대해서요 특히 x의 변동성에 의해 설명될 수 있는 y의 변동성에 대해서요 스프레드시트를 사용해서 해 보겠습니다 스프레드시트를 사용해서 해 보겠습니다 계산기로 해 보았는데 훨씬 어렵더군요 계산기로 해 보았는데 훨씬 어렵더군요 스프레드시트 때문에 헷갈리지 않았으면 좋겠습니다 스프레드시트 때문에 헷갈리지 않았으면 좋겠습니다 여기 열을 몇 개 만들게요 스프레드시트에는 이런 작업을 자동으로 하는 기능이 있지만 따라해 볼 수 있게 손으로 하겠습니다 열을 몇 개 만들겠습니다 이게 x열 이게 y열입니다 이 열은 y*라고 부르도록 하죠 직선이 x값에 근거해 예측하는 y의 값입니다 직선이 x값에 근거해 예측하는 y의 값입니다 이건 직선의 오차이고 직선의 제곱오차로 고칠게요 제곱오차라고 쓰겠습니다 공간을 아껴야 해요 직선의 제곱오차입니다 다음 열은 제곱오차입니다 아닙니다 제곱오차는 이미 했죠 다음 열은 평균 y에 대한 변동의 제곱입니다 다음 열은 평균 y에 대한 변동의 제곱입니다 열이 이 정도 있으면 모든 준비가 된 것 같습니다 열이 이 정도 있으면 모든 준비가 된 것 같습니다 우선 자료를 모두 입력합시다 (-2, -3)이 있습니다 측정점 하나입니다 (-1, 1) 그리고 (1, 2) (4, 3)도 있습니다 직선이 예측하는 값은 어떻게 될까요? 직선은 x값을 주면 y값을 예측해줍니다 직선은 x값을 주면 y값을 예측해줍니다 x의 값이 –2일 때 직선 위 y의 값은 기울기에 그러니까 41/42에 x를 곱한 값입니다 그러니까 41/42에 x를 곱한 값입니다 방금 이 칸을 선택했습니다 스프레드시트 기본 사용법을 조금 알려 드릴게요 방금 D2칸을 선택했습니다 이렇게 마우스를 움직여서 선택할 수 있습니다 이게 x값이죠 5/21를 뺍니다 5/21를 뺍니다 이렇게요 지금 뭘 하는 건지 분명히 합시다 여기 y*의 값이 –2.19인데 그 말에 따르면 여기 이 점이 -2.19이라는 뜻입니다 그 말에 따르면 여기 이 점이 -2.19이라는 뜻입니다 오차는 y값인 –3과 –2.19 사이의 거리를 구하면 됩니다 오차는 y값인 –3과 –2.19 사이의 거리를 구하면 됩니다 오차는 y값인 –3과 –2.19 사이의 거리를 구하면 됩니다 한번 해볼까요? 오차는 y값 E2에 오차는 y값 E2에 오차는 y값 E2에 직선이 예측한 값을 뺀 값입니다 이 값이 오차가 되는데 제곱해야 합니다 제곱해야 합니다 그 다음엔 제곱 거리를 구합니다 y값의 평균과 y값의 오차의 제곱 거리입니다 y값의 평균과 y값의 오차의 제곱 거리입니다 y의 평균은 얼마죠? 1/4입니다 1/4과 같은 값인 0.25를 뺍니다 제곱해주고요 스프레드시트의 재밌는 점이라면 이 공식을 모든 줄에 적용할 수 있다는 겁니다 지금 무슨 일이 일어났는지 잘 보세요 이것은 이제 직선이 예측하는 y값입니다 이 x값을 여기다 대입해서요 이 x값을 여기다 대입해서요 이것은 직선에서부터의 제곱 거리를 계산합니다 직선이 예측할 값과 y값을 이용해서 말입니다 직선이 예측할 값과 y값을 이용해서 말입니다 여기서도 똑같은 작업이 반복됩니다 평균과 이 y값의 제곱오차를 구하는 겁니다 평균과 이 y값의 제곱오차를 구하는 겁니다 이 직선의 제곱오차의 총합은 얼마죠? sum을 사용합니다 직선의 제곱오차는 총 2.73입니다 평균에서의 변동값의 총합 그러니까 y의 평균으로부터 제곱거리의 총합은 22.75입니다 확실히 해둘게요 적어두는게 좋겠네요 이 그래프를 계속 볼 수 있도록 여기 적어 두겠습니다 직선의 제곱오차의 합은 방금 계산해서 2.74가 나왔죠 직선의 제곱오차의 합은 방금 계산해서 2.74가 나왔죠 반올림한 겁니다 각 측정점들에서 직선까지의 수직 거리를 가져온 것입니다 각 측정점들에서 직선까지의 수직 거리를 가져온 것입니다 즉 이 거리의 제곱에 이 거리의 제곱을 더하고 이 거리의 제곱을 더하고 이 거리의 제곱도 더하는 것입니다 엑셀에서 계산한 것이 바로 이것입니다 이 변동값 제곱의 총합이 2.74인 것이죠 선에 대한 제곱오차라고 할 수도 있습니다 계산했던 다른 값은 평균으로부터의 거리의 합이었죠 계산했던 다른 값은 평균으로부터의 거리의 합이었죠 여기서 평균은 y = 1/4입니다 여기쯤에 있겠네요 y = 1/4은 이 점이 1/2이니까 딱 여기쯤입니다 이게 y의 평균값입니다 이게 y의 평균값입니다 이게 y의 평균값입니다 y값의 중심경향성이라고 해도 됩니다 그 다음 계산한 것은 오차의 총합 그러니까 y값 평균으로부터의 제곱오차입니다 그걸 이쪽 스프레드시트에서 계산했습니다 공식에서 볼 수 있습니다 E2의 값 –0.25가 y²의 평균입니다 E2의 값 –0.25가 y²의 평균입니다 계산한 걸 보면 그렇죠 각 y값에 대해 계산한 뒤에 모두 더한 거예요 22.75입니다 22.75입니다 이것은 직선만 가지고 설명되지 않는 오차입니다 이것은 직선만 가지고 설명되지 않는 오차입니다 이것은 오차의 총합 곧 변동값의 총합입니다 이것은 오차의 총합 변동값의 총합입니다 따라서 직선으로 설명되지 않는 변동값 총합의 백분율을 알고 싶다면 따라서 직선으로 설명되지 않는 변동값 총합의 백분율을 알고 싶다면 이 수를 이 수로 나누면 됩니다 2.74/22.75는 x값의 변동이나 직선으로 설명되지 않는 변동값 총합의 백분율입니다 변동값 총합의 백분율입니다 그래서 이 값이 얼마인가요? 그냥 엑셀을 써도 되겠네요 이 수를 이 수로 나눕니다 0.12가 나왔습니다 이 값이 0.12입니다 다르게 생각하면 전체 변동값의 12%가 x값의 변동으로는 설명되지 않는다는 소리입니다 각 점들 간 제곱 거리의 총합이나 점들의 변동, 퍼진 정도는 x값의 변동으로 설명되지 않습니다 점들의 변동, 퍼진 정도는 x값의 변동으로 설명되지 않습니다 따라서 x값의 변동으로 설명할 수 있는 양을 알고 싶으면 이 값을 1에서 빼면 됩니다 그걸 여기에 쓸게요 x로 설명 가능한 변동값의 백분율인 R²은 x로 설명 가능한 변동값의 백분율인 R²은 1에서 방금 계산한 0.12를 뺀 값입니다 1에서 방금 계산한 0.12를 뺀 값입니다 계산하면 0.88이고요 R²은 0.88입니다 1에 매우 가깝습니다 최댓값이 1인데 말이죠 이것은 이렇게 생각할 수 있습니다 y의 변동값의 총합 중 88%가 직선 또는 x의 변동값에 의해 설명된다고요 설명된다고요 이건 꽤 잘 맞는 직선 같아 보입니다 각각의 점들이 그렇게 멀지 않습니다 확실히 평균선보다 이 선에 더 가깝습니다 확실히 평균선보다 이 선에 더 가깝습니다 확실히 평균선보다 이 선에 더 가깝습니다 확실히 평균선보다 이 선에 더 가깝습니다 사실 모든 측정점이 평균보다 이 직선에 더 가깝네요 사실 모든 측정점이 평균보다 이 직선에 더 가깝네요 사실 모든 측정점이 평균보다 이 직선에 더 가깝네요