If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

잔차와 최소제곱회기란 무엇일까요?

잔차와 최소제곱회기란 무엇일까요?

동영상 대본

사람들의 키(인치)와 몸무게(파운드)의 관계를 알아보고자 합니다 사람들의 키(인치)와 몸무게(파운드)의 관계를 알아보고자 합니다 사람들의 키(인치)와 몸무게(파운드)의 관계를 알아보고자 합니다 임의의 몇 사람들의 키와 몸무게를 측정하고 각각을 점으로 나타내어 그래프에 표시했습니다 예를 들어 한 사람이 60인치, 그러니까 5피트이고 100파운드라고 합시다 이는 60인치에 100파운드인 점에 대응합니다 바로 이 점 (60,100)이죠 바로 이 점 (60,100)이죠 X축을 키로 Y축을 무게로 생각하시면 편할 겁니다 Y축을 무게로 생각하시면 편할 겁니다 이 점은 60인치 100파운드를 나타내는 (60,100)인 점입니다 이 과정을 하나, 둘, 셋, 넷 다섯, 여섯, 일곱, 여덟, 아홉 사람에게 적용했습니다 더 할 수도 있지만 이정도로도 대략 선형적인 관계가 있다는 것을 알 수 있습니다 양의 관계, 즉 보편적으로 키가 크면 몸무게도 늘어난다는 것을 알 수 있습니다 이 추세를 나타내는 선을 그려 봅시다 이 추세를 나타내는 선을 그려 봅시다 이걸로 직선을 그려 봅시다 많은 직선들을 그릴 수 있습니다 이렇게 생긴 직선은 대부분의 자료가 직선 밑에 있으므로 좋은 직선은 아닌 것 같습니다 직선을 이렇게 이렇게 그려볼 수 있습니다 역시 좋은 직선은 아닙니다 자료들이 대부분 직선 위에 있습니다 지금은 눈대중이지만 나중에 더 알맞은 직선을 그리는 방법을 배울텐데 나중에 더 알맞은 직선을 그리는 방법을 배울텐데 지금은 눈대중으로 이렇게 그려보면 맞아 보입니다 이 선을 회귀선이라 볼 수 있습니다 y = mx+b로 표현할 수 있습니다 기울기와 y절편을 알아내야 하죠 이는 방금 그린 것을 토대로 알아낼 수도 있고 무게는 기울기와 키를 곱하고 y 절편을 더한 값으로 나타낼 수도 있습니다 무게는 기울기와 키를 곱하고 y 절편을 더한 값으로 나타낼 수도 있습니다 무게는 기울기와 키를 곱하고 y 절편을 더한 값으로 나타낼 수도 있습니다 무게는 기울기와 키를 곱하고 y 절편을 더한 값으로 나타낼 수도 있습니다 수직축을 무게축으로 생각한다면 y절편을 무게 절편으로 생각할 수 있습니다 어떤 방법이든 이 모델은 눈대중으로 그린 회귀선입니다 최대한 점들에 맞추려고 한 것입니다 하지만 다 지나지는 못합니다 하나의 직선으로 모든 점을 지날 순 없습니다 모든 점들은 아니지만 각각의 점들은 직선이 예상한 값과 조금은 다른 값을 가리키고 있을 것입니다 실제의 점과 예측된 점의 차이가 예를 들어 키라고 하면 잔차라고 불립니다 적어보겠습니다 각각의 점의 잔차는 예를 들어 이 점을 보면 이 점을 1번이라고 하면, 1번의 잔차는 이 변수에 대해 키 변수 60인치에 대해 실제값은 100파운드입니다 여기에 예측 값을 빼주면 됩니다 예측된 값은 이 값입니다 이 식에 60을 대입해 줍시다 그러면 m x 60 + b입니다 그럼 이걸 m으로 쓸 수 있고 이걸 적으면, 60m + b입니다 다시 한 번 60 파운드를 이 모델에 대입해 이 모델이 예측한 값입니다 이걸 좀 더 수로 나타내어 보죠 다시 직선 도구를 꺼내봅시다 이 점을 지나는 직선을 그려 봅시다 이 점에서 직선을 그려보면 이건 똑바르지 않고 조금만, 좋습니다 150파운드처럼 보입니다 이 모델은 150파운드를 예측했습니다 따라서 잔차는 -50파운드입니다 음의 잔차는 실제값이 예측값보다 작을 때 나타납니다 따라서 이 점은 1번은 음의 잔차를 가집니다 다른 점들을 보면 이 점에 대해 잔차를 보면 r₂는 양의 잔차를 가집니다 실제 값이 예측 값보다 크기 때문입니다 따라서 잔차는 회귀선이 주어진 자료에 대해 잘 맞는지 알려주는 척도라고 생각할 수 있습니다 이제 해야 할 것은 모든 잔차들의 조합을 생각해 최소화시키는 것입니다 그렇다면 왜 잔차의 합을 최소화시키지 않는 걸까요? 그 이유는 양과 음의 잔차가 즉 큰 양의 잔차와 큰 음의 잔차가 서로의 영향을 없애 합이 0이되어 잔차가 없는 것처럼 보일 수 있기 때문입니다 그렇기 때문에 |절대값들을 더할 수도 있습니다 그렇다면 잔차들의 절댓값들의 합을 구해 봅시다 그에 따라 m과 b의 값을 바꿔 이 값을 최소화 시키고 이 방법이 회귀선을 만드는 방법이 될 겁니다 다른 더 보편적인 방법은 통계학에서 자주 쓰는 방법으로 잔차들의 제곱의 합을 구하는 것입니다 제곱들의 합은, 제곱을 하면 음이든 양이든 양의 값이 나오기 때문에 양과 음이 서로를 지우는 효과는 방지할 수 있습니다 제곱을 하면, 큰 잔차들은 더 커집니다 큰 수를 제곱하면 이렇게 생각해 봅시다, 자연수를 보면 1, 2, 3, 4 모두 1씩 떨어져 있지만 제곱하면 1, 4, 9, 16으로 점점 더 멀어집니다 비슷하게, 잔차가 클수록 제곱하게 되면, 제곱들의 합들에서 큰 수가 더 큰 영향을 줍니다 뒤의 동영상들에서는 최소제곱회귀라는 것에 대해 알아보겠습니다 최소제곱회귀라는 것에 대해 알아보겠습니다 최소제곱회귀로 주어진 자료들에 대해 잔차들의 제곱의 합을 최소로 하는 m과 b를 구할 수 있습니다 이게 중요하고 실제로 많이 쓰이는 이유는 이 방법으로 큰 이상치를 고려할 수 있기 때문입니다 모델로부터 많이 떨어진 이런 점은 최소제곱회귀에서는 더 큰 영향을 끼칩니다 더 큰 영향을 끼칩니다 더 큰 영향을 끼칩니다 제곱을 하게 되면 이미 큰 값이 더 커지기 때문입니다 여기서는 개념만 설명해 보았고 뒤의 강의들에서는 잔차를 계산할 것입니다 그리고 잔차들의 제곱의 합을 최소로 하는 m과 b를 찾는 공식을 유도해볼 것입니다 유도해볼 것입니다