If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

컴퓨터 회귀 자료 해석하기

컴퓨터로 생성한 회귀 자료를 해석해 방정식의 최소제곱회귀직선, 예측 변수와 계수, S제곱, R제곱을 찾아봅시다.

동영상 대본

다른 동영상들에서는 선형 회귀를 손으로 했지만 대부분의 회귀는 컴퓨터나 계산기로 진행됩니다 이번 동영상에서는 컴퓨터를 이용한 예제를 풀고 이에 익숙해지며 어떻게 이 방법이 방정식과 회귀선 그리고 여러 자료들을 주는지 알아보겠습니다 셰릴 딕슨은 카페인을 섭취하는 학생들이 공부를 더 잘하는지 알고 싶어 합니다 학교에서 임의로 20명의 학생을 골라 mg단위의 카페인 섭취량과 공부한 시간을 기록했습니다 측정값의 산점도는 선형 관계를 보여줍니다 다음은 컴퓨터를 사용해 얻은 자료의 최소제곱회귀분석 결과입니다 다음은 컴퓨터를 사용해 얻은 자료의 최소제곱회귀분석 결과입니다 예측인자라는 항목과 계수, 그리고 여러 다른 것들 계수의 표준오차, T, P가 있습니다 그러면 이 모든 것들을 어떻게 선형회귀를 구하는 식을 만드는 데 사용할 수 있을까요? 어떻게 선형회귀를 구하는 식을 만드는 데 사용할 수 있을까요? 어떻게 선형회귀를 구하는 식을 만드는 데 사용할 수 있을까요? 변수들을 살펴봅시다 y를 예측하려고 하는 값 y를 예측하려고 하는 값 공부한 시간이라 하고 공부한 시간이라 하고 x를 공부한 시간에 영향을 끼치는 것 중 하나라 합시다 x를 공부한 시간에 영향을 끼치는 것 중 하나라 합시다 x를 공부한 시간에 영향을 끼치는 것 중 하나라 합시다 이는 카페인 섭취량(mg)입니다 이는 카페인 섭취량(mg)입니다 이는 카페인 섭취량(mg)입니다 회귀선은 이렇게 나타낼 수 있습니다 Y의 예측값은 이 기호로 나타냅니다 선형 회귀로 주어진 x에 대해 실제 y값을 구한다는 뜻이죠 mx + b꼴로 말입니다 이제 이 출력값을 보고 m과 b를 어떻게 구할까요? 이 표를 보면 첫 열은 예측인자입니다 그리고 상수, 카페인이 있습니다 이것이 말하는 건 공부 시간을 예측하기 위해서 그러니까 y를 예측하는데 두 개의 인자가 필요하다는 겁니다 상수도 있고 변수도 있습니다 이 경우 변수는 공부 시간을 예측하는데 사용할 카페인의 양이죠 이 경우 변수는 공부 시간을 예측하는데 사용할 카페인의 양이죠 이것은 각각의 계수를 말해줍니다 상수의 계수는 상수입니다 이것은 x의 0차 계수라고 볼 수 있습니다 상수의 계수가 바로 상수입니다 상수의 계수가 바로 상수입니다 2.544이죠 카페인의 계수는 방금 x가 섭취한 카페인이라고 했으므로 이게 계수입니다 0.164입니다 이렇게 회귀선에 대한 방정식을 만들었습니다 이렇게 회귀선에 대한 방정식을 만들었습니다 이렇기 때문에 컴퓨터가 유용합니다 이렇게 바로 쓸 수 있으니까요 y의 예측값은 0.164x + 2.544입니다 0.164x + 2.544입니다 0.164x + 2.544입니다 따라서 회귀선은 이렇습니다 주어진 다른 정보들은 무엇일까요? 만족스럽지 못한 대답일 것입니다 이 정보들은 추론적 통계에 쓰이기 때문입니다 예를 들어 회귀직선이 이렇게 잘 맞을 확률을 구하는 것처럼요 회귀직선이 이렇게 잘 맞을 확률을 구하는 것처럼요 이 값은 결정계수인데 이것으로부터 r을 알아내고 싶다면 이 값의 제곱근을 알아내면 됩니다 따라서 r은 √0.60032입니다 따라서 r은 √0.60032입니다 이 값은 정확도에 따라 달라질 수 있겠죠 r의 값이 양수인지 음수인지 어떻게 알 수 있을까요? r의 값이 양수인지 음수인지 어떻게 알 수 있을까요? r은 -1부터 1까지를 나타낼 수 있습니다 이는 기울기를 보면 알 수 있습니다 양의 기울기는 r이 양수라는 것을 음수의 기울기는 r이 음수라는 것을 알려줍니다 이 값은 보정된 결정계수 값입니다 이변량 자료를 사용할 때는 이것에 대해서 걱정하지 않아도 됩니다 이변량 자료를 사용할 때는 이것에 대해서 걱정하지 않아도 됩니다 이 경우 카페인과 공부 시간을 사용하므로 이변량 자료에 해당합니다 이 경우 카페인과 공부 시간을 사용하므로 이변량 자료에 해당합니다 만약 더 많은 변수들로 공부 시간을 알아내려 했다면 보정된 결정계수를 이용해야 합니다 하지만 이는 아직 하지 않을 겁니다 마지막으로, 변수 S를 봅시다 이는 잔차의 표준편차입니다 다른 영상에서 공부했던 내용입니다 이건 어떻게 쓸모 있을까요? 이는 회귀선이 자료에 얼마나 잘 맞는지 알려줍니다 이는 오차의 척도입니다 중요한 것은 컴퓨터는 많은 정보를 제공해 유용하고 중요한 것은 컴퓨터는 많은 정보를 제공해 유용하고 필요한 정보들을 어떻게 뽑아내는지 아는 것입니다 방법을 알기만 한다면 과정은 쉬우니까요 방법을 알기만 한다면 과정은 쉬우니까요