If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

잔차의 표준편차 또는 평균 제곱근 오차

잔차의 표준편차(또는 평균 제곱근 오차나 평균 제곱근 편차)를 계산해 회귀직선과 자료의 차이를 측정해 봅시다.

동영상 대본

이번 강의에서는 실제 측정값들이 선형 모델과 얼마나 잘 맞는지 알려주는 척도를 계산해 볼 것입니다 여러가지 이름이 있습니다 이것을 잔차들의 표준편차라 생각해도 좋습니다 이것을 잔차들의 표준편차라 생각해도 좋습니다 실제로 그렇게 계산할 것입니다 혹은 평균 제곱근 편차라고 불러도 됩니다 이름 자체가 계산 방법입니다 이제 할 것은 각 점들의 잔차를 보고 그 표준편차를 구하는 것입니다 복습을 해보자면 i번째 잔차는 주어진 x의 y_i값에서 i번째 잔차는 주어진 x의 y_i값에서 y의 예측값을 빼준 값입니다 이 기호는 주어진 x에 대한 회귀선의 y의 예측값을 의미합니다 이 기호는 주어진 x에 대한 회귀선의 y의 예측값을 의미합니다 이 기호는 주어진 x에 대한 회귀선의 y의 예측값을 의미합니다 그리고 이것은 실제 y입니다 그리고 이건 다른 동영상에서도 다루었던 내용인데 그리고 이건 다른 동영상에서도 다루었던 내용인데 x가 1일 때 잔차 y는 1이고 모델의 예측값은 2.5 x 1 - 2 = 0.5입니다 즉 1- 0.5 이 잔차는 1 - 0.5 이 잔차는 1 - 0.5 즉 0.5입니다 +0.5이죠 실제 값이 모델 위에 있다면 양의 잔차를 얻게 됩니다 이제 이 점의 잔차도 실제값이 모델보다 높이 있으므로 양의 잔차가 됩니다 x가 3일 때 y의 실제값은 6이 되고 x가 3일 때 y의 실제값은 6이 되고 예측된 y는 2.5 x 3 즉 7.5에서 2를 빼어 5가 됩니다 따라서 6 - 5.5 여기에 잔차를 6 - 5.5라고 쓰겠습니다 0.5와 같죠 마찬가지로 양의 잔차를 얻었습니다 이 점은 정확히 모델과 만나 있으므로 실제값이 예측값과 같습니다 x가 2일 때 실제 값은 3이고 모델이 예측한 값도 3이므로 따라서 이곳의 잔차는 실제값 3 그리고 예측값 3 따라서 0입니다 그리고 마지막으로 이 측정값을 봅시다 잔차는 x가 2일 때 실제값이 2이고 잔차는 x가 2일 때 실제값이 2이고 예측값을 빼야 하니까 x가 2일 때 2.5 x 2 즉 5 - 2 = 3 따라서 2 - 3 = -1이 됩니다 따라서 실제값이 모델 밑일 때는 음의 잔차를 가집니다 따라서 이 값은 -1이 될 것입니다 이제 이 잔차들의 표준편차를 계산해 봅시다 첫 잔차 0.5를 제곱하고 첫 잔차 0.5를 제곱하고 첫 잔차 0.5를 제곱하고 파란색으로 쓴 두 번째 잔차 파란색으로 쓴 두 번째 잔차 0을 제곱해 더한 후에 세 번째 잔차는 -1이니 제곱하면 1이 되고 마지막으로 네 번째 잔차 0.5를 제곱합니다 0.5를 제곱합니다 정리하면, 각각의 잔차 점들과 예측한 모델간의 거리라고 생각할 수 있는 값들을 제곱하고 있습니다 표준편차를 계산할 때는 점과 평균 사이의 거리를 이용합니다 지금은 모델이 예상한 값과 점간 거리를 구하고 이들을 제곱해 모두 더한 다음 표본표준편차를 구했듯이 제곱해서 더한 잔차들의 개수보다 하나 적은 값으로 나눌 겁니다 네 개의 잔차들이 있으므로 4-1인 3으로 나누어 줄 것입니다 이 부분을 제곱된 편차의 평균이라고 볼 수 있습니다 이제 제곱근을 계산할 것입니다 이제 제곱근을 계산할 것입니다 이것은 0.25 이 값은 0이고 이건 +1이 되고 0.5²은 0.25와 같습니다 0.5²은 0.25와 같습니다 이 모두를 3으로 나눕니다 분자는 1.5가 됩니다 3으로 나누면, 이는 3의 절반인 1.5가 될 것입니다 따라서 이 값은 √(1/2)이고 이는 1/√2이라고 쓸 수도 있습니다 1 / √2는 1 / √2는 소수 넷째 자리에서 반올림하여 대략 0.707입니다 대략 0.707입니다 이것을 시각화 시켜 봅시다 선의 표준편차 하나 밑은 여기이고 모든 x에 대해 표준편차 하나 위는 모든 값을 표준편차 하나만큼 더한 것이므로 이렇게 될 것입니다 손으로 그린 근사치이긴 하지만 잔차들의 경향성을 잘 보여줍니다 잔차들의 경향성을 잘 보여줍니다 주목해야 할 점은 이것이 평균 잔차이고 평균을 어떻게 생각하느냐에 따라 달라질 수 있다는 점입니다 잔차를 제곱했기 때문에 이상치들 직선으로부터 먼 값들을 제곱하면 이상치들 직선으로부터 먼 값들을 제곱하면 이들이 불균형한 효과를 줄것입니다 이 효과를 피하려면 잔차들의 절댓값을 구하는 법도 있었을 것입니다 사실 더 간단한 방법이지만 이렇게 하는 것이 보편적으로 모델이 측정값과 얼마나 일치하는지 보여주는 방법입니다 따라서 이 숫자가 작을수록 모델이 더 잘 맞다고 생각할 수 있습니다