If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

결정계수(R제곱)

R제곱, 결정계수에 대해 알아봅시다. 만든 이: 살만 칸 선생님

동영상 대본

지난 동영상 몇 개를 통해 n개의 점이 있을 경우 각 점마다 x, y좌표가 있다는 것을 보았습니다 n개의 점을 그려 봅시다 이 점을 1이라고 부를게요 좌표 (x1, y1)을 가지고 있습니다 여기 두 번째 점이 있고요 좌표는 (x2, y2)입니다 여기 계속 점을 그리다 보면 n번째 점이 나오죠 그 좌표는 (xn, yn)입니다 여기서 우리가 구할 수 있는 것은 제곱 거리를 최소화시키는 직선입니다 여기 직선이 하나 있습니다 y = mx + b라고 할게요 점들로부터의 제곱 거리를 최소화시키는 직선이 있습니다 그 제곱 거리가 뭔지 잠깐 복습할까요 때로는 제곱오차라 부르기도 하죠 이게 직선과 점 1 사이의 오차입니다 오차 1이라고 부릅시다 이건 직선과 점 2 사이의 오차입니다 오차 2라고 부릅니다 이건 직선과 점 n 사이의 오차입니다 그러니까 오차의 총합을 원한다면 제곱오차의 총합을 - 이 주제를 그렇게 시작했었죠 직선과 점들 사이 제곱오차의 합을 구하려면 각 점의 y 값을 가져옵니다 예를 들어 y1을 가져오면- 바로 여기 이 값인데, 이 지점의 직선의 y 값을 y1에서 빼줍니다 직선의 그 지점은 방정식에 1을 대입했을 때의 y값과 같다고 할 수 있죠 방정식에 x₁을 대입하겠습니다 -mx₁ +b 이게 여기 있는 y값입니다 mx₁ + b 입니다 그래프를 너무 어지럽히고 싶지는 않아요 이건 지울게요 여기 있는 게 오차 1입니다 직선과 각 점들 사이의 제곱오차를 구하려고 합니다 이게 첫번째고요 두 번째 점을 가지고도 똑같이 해줍니다 이 주제를 가지고 얘기할 때 이렇게 시작했었어요 y₂ – (mx₂ + b) 에 제곱하고- n번째 점, 그러니까 (yn – (mxn + b))²까지 해야 하는 계산이 많으니 대신 ...을 쓰겠습니다 이제 m과 b값을 구하는 방법을 알고 있습니다 제가 공식을 보여드렸죠 그리고 증명도 했어요 이 직선을 구할 수 있습니다 오차가 얼마나 되는지 알고 싶다면 계산할 수도 있지요 이제 m과 b값을 알고 있으니까요 특정한 자료를 계산할 수 있어요 여기서 하고 싶은 것은 이 점들에 대해 이 직선이 얼마나 적합한지에 대한 좀 더 의미있는 추정치를 구하는 것입니다. 그러기 위해서 y의 변동에서 얼마만큼의 퍼센티지가 x의 변동으로 설명되는지 알아야 합니다 생각해 봅시다 y의 전체 변동값에— y값에 변동이 있는 것은 분명합니다 이 y값은 여기에 있습니다 이 점의 y값은 여기에 있어요 y값의 변동은 분명히 보입니다 하지만 그 중 얼마만큼이 x값의 변동으로 설명되나요? 또는 직선으로요? 그걸 생각해 봅시다 먼저 전체 변동이 얼마인지 생각해 볼까요 y의 전체 변동값 중 얼마인가요? y의 전체 변동값부터 구할게요 사실 측정을 위한 도구입니다 변동에 대해 생각할 때, 그리고 이것은 y의 변동의 평균인 분산에 대해서도 사실이지만 어떤 중심경향성으로부터의 제곱 거리를 생각해볼 때 y의 중심에 가장 가까운 값은 평균입니다 그러니까 y의 변동의 전체값은 그냥 각 y의 거리의 합이라고 할 수 있죠 (y1 – 모든 y의 평균)²이 나옵니다 (y2 – 모든 y의 평균)²을 더합니다 n번째 y값까지 계속 더합니다 (yn – 모든 y의 평균)²이 나올 때까지요 (yn – 모든 y의 평균)²이 나올 때까지요 이렇게 y값의 총 변동값을 구합니다 모든 y값을 가져다가 평균을 구하면 특정 값이 나오죠 이런 곳에 있을 수도 있어요 직선으로부터의 제곱오차를 시각화했던 것과 같이 시각화할 수도 있습니다 시각화하면 값이 y의 평균과 같은 직선을 상상할 수 있습니다 이렇게 보이겠죠 여기서 측정하려는 것은 여기 있는 오차인데 여기 이 거리의 제곱과 같습니다 이 점의 수직 방향과 이 직선 사이에요 두 번째는 이 거리가 될 거예요 딱 직선까지요 n번째는 거기서부터 여기 있는 직선까지입니다 그리고 그 사이에 다른 점들도 있죠 이게 y 변동값의 총합입니다 말이 되죠 이걸 n으로 나누면 우리가 대개 y의 분산이라 하는 것을 얻습니다 제곱거리의 평균이라고 할 수도 있겠네요 제곱거리의 총합이 있습니다 여기서 구하려는 것은 y값의 변동 중 얼마만큼이 x값의 변동으로 설명되는가, 입니다 이렇게 생각해볼 수 있습니다 분모로 -y의 전체 변동값 중 얼마의 퍼센티지가 있죠? 이렇게 쓸게요 이걸 평균으로부터의 제곱오차라고 부릅시다 y의 평균으로부터의 제곱오차라고 할지도요 이게 y 변동값의 총합이에요 그걸 분모로 쓰고요 y의 평균으로부터의 제곱오차인 y 변동값의 총합 이제 y의 변동에서 얼마만큼의 퍼센티지가 x의 변동으로 설명되는지 알려고 합니다 x의 변동으로 설명되지 않는 것은 무엇인가요? x의 변동으로 설명되는 것을 구하려고 하지만 전체 변동값 중 회귀직선으로 설명되지 않는 것은 얼마나 되는지 알고 싶다면요? 그건 이미 측정할 수 있네요 직선의 제곱오차가 있으니까요 이게 각 점에서부터 직선까지의 제곱 거리를 알려 줍니다 딱 이 측정값입니다 전체 변동값 중 얼마만큼이 회귀직선으로 설명되지 않는지 보여줍니다 전체 변동값 중 회귀직선으로 설명되지 않는 것의 퍼센티지를 알고 싶다면 그냥 직선의 제곱오차겠죠, 왜냐하면 이게 회귀직선으로 설명되지 않는 변동값의 합을 전체 변동값으로 나눈 거니까요 분명히 해둘게요 여기 이게 전체 변동값 중 x의 변동으로 설명되지 않는 것의 퍼센티지를 알려 줍니다 또는 회귀직선으로 설명되지 않는 것을요 질문에 답하자면 그 변동으로 설명되는 퍼센티지는 얼마나 되나요? 나머지는 x의 변동으로 설명될 겁니다 우리가 한 질문은 전체 변동값 중 얼마만큼의 퍼센티지가 x의 변동으로 설명되느냐는 것이니까요 이건 설명되지 않는 퍼센티지입니다 그러니까 이 수가 30% -- y의 변동값의 30%가 직선으로 설명되지 않는다면 그 나머지는 직선으로 설명되겠죠 1에서 이걸 그냥 뺄 수도 있어요 1 – (자료의 제곱오차/y와 y평균 사이의 제곱오차) 1 – (자료의 제곱오차/y와 y평균 사이의 제곱오차) 계산하면 전체 변동값 중 얼마만큼의 퍼센티지가 직선으로 설명되는지 나옵니다 직선으로 설명된다고 봐도 좋고 x의 변동값이라 해도 좋습니다 여기 있는 이 수를 결정계수 결정계수라 합니다 통계학자들이 그렇게 부르기로 했을 뿐입니다 R의 제곱이라고도 하죠 사람들이 회귀에 대해 말할 때 이 단어를 들어보셨을 수도 있습니다 생각해 봅시다 직선의 제곱오차가 굉장히 작다면 무슨 뜻일까요? 여기 있는 오차들도 그만큼 작다는 뜻입니다 직선이 아주 적합하다는 뜻이죠 여기에 쓰겠습니다 직선의 제곱오차가 작다면 직선이 적합하다는 뜻입니다 여기에선 무슨 일이 일어날까요? 이 수가 아주 작다면 이 분수도 그만큼 작겠죠 1에서 아주 작은 분수를 빼면 1에 가까운 수가 나올 겁니다 그러면 이 결정계수는 1에 가깝고 그건 y 변동값 중 많은 양이 x의 변동으로 설명된다는 뜻입니다 직선이 적합하기 때문에 말이 되죠 반대의 경우를 들어봅시다 직선의 제곱오차가 굉장히 크다면 그건 점들과 직선 사이의 오차가 크다는 뜻입니다 이 숫자가 크다면 여기 있는 숫자도 클 것입니다 또는 1에 가까운 퍼센티지가 되는 거죠 그걸 1에서 빼면 0에 가까운 값이 나와요 따라서 직선의 제곱오차가 크다면 이 모든 게 1에 가깝습니다 그리고 이게 1에 가깝다면 결정계수도 0에 가깝게 되는데 이것 또한 말이 되죠 이 경우에는 y 변동값 중 아주 적은 양만이 x의 변동, 또는 직선으로 설명된다는 뜻입니다 어쨌거나 지금까지 다뤄온 것들은 어느 정도 추상적이었습니다 다음 동영상에서는 실제로 자료 샘플을 보고 그 회귀직선을 계산해 보겠습니다 결정계수도 계산하고 직선이 실제로 얼마나 적합한지 보는 거죠