If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

잔차도

회귀직선을 기반으로 잔차도를 만들고 분석해 봅시다.

동영상 대본

이번 동영상에서는 회귀와 그것이 나타내려고 하는 자료에 대한 회귀와 그것이 나타내려고 하는 자료에 대한 잔차 그림에 대해 알아보겠습니다 여기서 보듯이 간단한 최소제곱회귀가 있습니다 네 개의 점의 추세를 찾고 있습니다 이전의 동영상들에서 이 최소제곱회귀 직선의 식을 구했습니다 지금부터는 각 점의 잔차를 그려보겠습니다 잔차란 무엇일까요? 복습하자면 주어진 점의 잔차는 실제값 - 기댓값입니다 실제값 - 기댓값입니다 어떻게 하면 이것을 표현할 수 있을까요? 이 점의 잔차는 무엇일까요? 여기 이 점은 x가 1일 때 y의 실제 값입니다 하지만 x가 1일 때 이 최소제곱회귀 직선의 기댓값은 하지만 x가 1일 때 이 최소제곱회귀 직선의 기댓값은 2.5 x 1 - 2이므로 0.5가 됩니다 따라서 잔차는 1 - 0.5입니다 따라서 잔차는 양수 0.5입니다 따라서 잔차는 양수 0.5입니다 이 점에 대해서는 잔차가 0입니다 실제값이 기댓값이기 때문입니다 이 점에 대해서는 x가 2일 때 y는 2이지만 기댓값은 3입니다 따라서 이것의 잔차는 다시, y의 실제값은 x가 2일 때 2이고 다시, y의 실제값은 x가 2일 때 2이고 기댓값은 2 x 2.5 - 2 = 3이니까 따라서 이는 2 - 3 잔차는 -1입니다 그리고 이 점의 잔차는 실제값은 x가 3일 때 6이고 기댓값은 x가 3일 때 5.5입니다 따라서 6 - 5.5 0.5입니다 이게 잔차들인데 어떻게 그려야 할까요? 새 축을 만들어 봅시다 여기에 해보도록 합시다 1 2 3 최대 잔차는 이곳, 0.5입니다 최소는 이곳 -1입니다 이건 0.5, 1 - 0.5, -1 이건 -1입니다 여기는 +1입니다 x가 1일 때, 잔차가 얼마였죠? 실제값은 1이고, 기댓값은 0.5였으므로 1- 0.5는 0.5입니다 따라서 이곳에 점을 찍습니다 잔차는 0.5입니다 x가 2일 때는 두 개의 자료가 존재합니다 먼저 이 점을 해보겠습니다 (2,3)을 보면 잔차는 0입니다 따라서 둘 중 하나는 잔차가 0입니다 다른 점은 잔차가 -1입니다 다른 색으로 적어보죠 다른 점은 -1입니다 여기에 찍어주면 됩니다 이 마지막 점은 잔차가 0.5입니다 이렇게 됩니다 방금 제가 만든 것 지금 보시고 계신 이것은 x에 대해 대응하는 잔차를 이용해 이 선의 위 혹은 아래에 점을 찍은 것입니다 바로 이게 잔차 그림입니다 한 가지 의문은 왜 이런 잔차 그림을 그리냐는 것이죠 그 이유는 회귀 직선이 오른쪽 위를 향하든 오른쪽 아래를 향하든 이 그림은 이 직선이 좋은 직선인지 이 직선이 변수들의 관계를 잘 설명하는지 알려주기 때문입니다 큰 개념은 만약 점들이 선을 기준으로 일정하게 혹은 임의로 흩어져 있다면 선을 기준으로 일정하게 혹은 임의로 흩어져 있다면 특별한 추세가 없다면 직선은 자료들을 잘 나타내는 모델일 것입니다 하지만 추세가 보인다면 잔차들이 이렇게 올라가는 추세 혹은 올라갔다가 내려가거나 혹은 내려가는 추세를 가진다면 이 직선은 좋지 않고 비선형 모델을 써야한다는 뜻입니다 잔차 그림에는 어떤 예시들이 있을까요? 몇 개를 분석해 봅시다 여기 주어진 회귀 직선과 대응되는 잔차 그림이 있습니다 여길 보면 잔차가 살짝 양수입니다 실제 값이 직선의 살짝 위에 있고 여기서도 살짝 양수입니다 이 점은 더 양수입니다 하지만 방금 본 예시처럼 잔차가 꽤 고르게 분포되어 있습니다 선 위아래로 말이죠 특별한 추세가 없습니다 따라서 이 선형 모델은 이 회귀 직선은 이 자료들의 꽤 좋은 모델입니다 하지만 이런 것을 보면 다른 그림이 그려집니다 이 잔차 그림을 보면 고르지 분포되어 있지 않습니다 추세가 보입니다 내려갔다가 다시 올라갑니다 잔차 그림이 x축 아래로 갔다가 위로 올라갔다 하면 잔차 그림이 x축 아래로 갔다가 위로 올라갔다 하면 이 선형 모델은 부적절하다는 것을 보여줍니다 이 선형 모델은 부적절하다는 것을 보여줍니다 다른 곡선의 비선형 모델이 더 좋다는 것을 말해줍니다 더 좋다는 것을 말해줍니다 y와 x의 관계가 비선형이라고요 y와 x의 관계가 비선형이라고요 다르게 생각해본다면 x축과 먼 잔차들이 잔차 그림에서 많이 보인다면 이는 이 모델이 좋지 않음을 알려줍니다 이것의 r 값을 계산해보면 조금 양수이고 1에 가깝지 않을 겁니다