If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

예제: 상관 계수에 대한 직관

상관 계수에 대한 직관을 기르고 상관계수와 산점도를 대응하여 문제를 풉니다.

동영상 대본

제가 자료를 몇개 가져왔는데요 상관계수 직관에 대한 칸 아카데미의 연습 문제입니다 우리에게는 몇 가지 상관계수가 주어져있고 그것들을 문제에 주어져있는 다양한 산포도에 대응시켜야 합니다 이것을 테이블에서 드래그해서 다른 산포도에 대응시킬 수 있는 작은 인터페이스가 있습니다 핵심은 얼마나 정확히 계산하는지를 보는 것이 아닙니다 이건 나중에 할 일입니다 우리가 측정해보려는 것에 대한 직관을 얻는 것이 중요합니다 핵심 아이디어는 상관계수가 선형모델이 두 변수 사이의 관계를 얼마나 잘 나타내는지를 측정하려고 시도한다는 것입니다. 예를 들어 좌표축이 이렇게 있다고 합시다. 이것을 한 변수로 하고 이것을 y 변수라고 합시다 그리고 이것을 x 변수라고 합시다 x가 작을 때 y가 작다고 하고 x가 조금 커지면, y도 조금 커지고 x가 좀 더 커지면, y도 커지고 x가 아주 크면, y도 아주 크다고 합시다 선형 모델은 이걸 매우, 매우 잘 나타냅니다 선을 긋는 건 꽤 쉽습니다 이 점들을 지나도록 말입니다 이런 것들은 1인 r을 가지고 있고 r은 1과 같습니다 선형 모델은 이것을 완벽하게 나타내고 이것은 양의 상관관계입니다 하나의 변수가 증가하면 다른 변수도 증가합니다 반대로 한 변수가 감소하면 다른 변수도 감소합니다 그렇다면, r이 1이면 어떻게 생겼을까요? 이 상황에서도 선형 모델은 아주 잘 작동합니다 하지만, 한 변수가 올라가면 다른 변수는 내려가고, 반대의 경우도 마찬가지입니다 좌표를 잡아봅시다 좌표축을 다시 그려봅시다 데이터들을 그려봅시다 r이 -1이 되도록 말이죠 y가 크면, x는 아주 작을 것이고 y가 작아지면, x는 커질 겁니다 y가 조금 낮아지면 x는 조금 커질겁니다 다시 짚어보면, y가 감소하면 x가 증가하거나 x가 증가하면 y는 감소합니다 서로 반대 방향으로 움직이기는 하지만 여러분은 쉽게 알맞은 선을 그릴 수 있습니다 선은 이런 식으로 그어집니다 이건 r=1을 가지고 있습니다 그리고 r이 0인 경우는 데이터들에 알맞은 선을 전혀 그을 수 없습니다 작게 한번 그려보겠습니다 여백이 부족하네요 r이 0인 경우는 이렇게 나타납니다 데이터를 나타내는 점이 여기 하나 저기 하나 여기도 하나 여기, 여기도 이렇게 규칙적일 필요는 없지만 감을 잡을 수 있을 겁니다 여기는 어떻게 선을 그어야 할까요? 여러분은 선을 이렇게 그을 수도 있고 아니면 이렇게 긋거나 이렇게 그을 수도 있습니다 선형모델은 두 변수 사이의 관계를 잘 나타내지 못합니다 여기 보듯이 말입니다 이걸 시작점으로 합시다 우리가 이 산포도를 처리할 수 있는지 봅시다 제가 할 것은 선형 모델이 어떻게 생겼는지 살펴보는 것입니다 불완전한 데이터 집합에 선형 모델을 맞추는 몇 가지 방법들이 있습니다 저는 적어도 r이 -1이거나 r이 1인 경우에는 완벽한 선을 그었지만 하지만 이것이 실제 세상이 어떤지를 나타냅니다 아주 드물게만 완벽하게 선 위에 있을 것입니다 산포도 A의 경우, 제가 선을 맞추려고 한다면 이런 식으로 생길 것입니다 제가 선에서 점까지의 거리를 최소화하려 한다면 저는 일반적인 추세를 볼 것입니다 여기 있는 데이터 점들을 보면 y가 크면, x는 작습니다 x가 커지면 y는 작아집니다 r이 0보다 작을 것으로 보이고 0보다 약간 작습니다 여기 이것에 접근할 것입니다 우리의 선택을 보면 r은 0.65가 아닐 것입니다 이것들은 양수이고, 따라서 저는 이것과 이것을 사용하지 않을 것입니다 그리고 이것은 거의 상관관계가 없는 것입니다 r은 -0.02이고, 이것은 0에 상당히 가깝습니다 r이 -0.72인 것이 그럴듯해 보입니다 저는 분명히 하고 싶은데, 제게 선택지가 없었다면 저는 말할 수 없었을 것입니다 아무런 계산을 하지 않고 단지 데이터 점들만을 보고는 r이 -0.72라는 것을 말이죠 저는 음의 상관관계라는 직관에 기반하고 있고 그것은 꽤 적합해 보입니다 여러분에게 보이는 패턴은 y가 크면 x가 작습니다 x가 크면, y가 작습니다 따라서 저는 r이 -1에 가까워지는 것이 좋습니다 저는 이것을 이미 사용했습니다 이제 산포도 B를 보면, 한번 살펴보면 이것도 완벽하지 않을 것입니다 하지만 추세는, 선을 맞추려 하면 이런 식으로 생길 것입니다 선이 상당히 잘 맞는 것으로 보입니다 몇 개의 점은 여전히 맞추기 힘듭니다 그것들은 여전히 선에서 꽤 멀리 떨어져 있습니다 양의 상관관계가 있는 것으로 보입니다 y가 작으면, x는 상대적으로 작고 반대도 마찬가지입니다 x가 증가하면 y가 증가하고, y가 증가하면 x가 증가합니다 이것은 양이 될 것이고 합리적으로 양수인 것으로 보입니다 여기 두 가지 선택지가 있습니다 저는 어떤 것이 될지 모릅니다 r은 0.65가 될 수도 있고 r은 0.84가 될 수도 있습니다 저는 완전히 퍼져있는 산포도 C도 있습니다 우리가 여기서 했던것과 비슷합니다 선이 어떻게 생겼나요? 여러분은 거의 아무렇게나 상상할 수 있습니다 이렇게 생겼나요? 선이 이렇게 생겼나요? 여러분이 "음, x가 증가함에 따라 y가 증가하거나 감소하네요" 라고 말할 수 있는 방향성이 없습니다 여기에는 어떠한 규칙도 없고 따라서 거의 상관관계가 없는 것으로 보입니다 그러므로 이것은 거의 0에 가깝습니다 r이 -0.02라고 하는 것이 좋겠습니다 r이 -0.02라고 하는 것이 좋겠습니다 사실, 우리가 딱 맞는 선을 그으려 한다면 약간의 음의 기울기를 가질 것입니다 아마 이렇게 생길 것입니다 우리가 선을 맞추려고 해도 선에서 벗어난 모든 종류의 점들이 있습니다 따라서 선형 모델은 그다지 잘 맞춰지지 않습니다 r은 -0.02이고 우리는 이것을 사용할 것입니다 이제 산포도 D를 봅시다 이것은 다른 양의 상관계수를 사용해야 할 것이고 양의 상관관계가 있는 것으로 보입니다 y가 작으면, x가 작습니다 x가 크면 y도 크고, 반대도 마찬가지입니다 우리는 이렇게 보이는 것 이런 것에 맞추는 것을 시도할 수 있습니다 그러나 여전히 그만큼 좋지는 않습니다 여러분이 우리가 맞추려고 하는 것을 보면 우리의 모델로부터 여전히 꽤 멀리 떨어진 점들이 몇 개 있습니다 모델은 그렇게 잘 맞지 않고 따라서 저는 산포도 B가 더 적합하다고 할 것입니다 선형 모델은 산포도 D보다 산포도 B에서 더 적합합니다 저는 산포도 B에 더 높은 r을 부여할 것이고 산포도 D에는 더 낮은 r=0.65를 부여할 것입니다 r은 0.65입니다 선형 모델을 사용하면 추세가 있는 것처럼 보이지만 산포도 B보다 산포도 D에서 더 많은 점들이 선에서 벗어나 있습니다 여전히 선에서 벗어난 몇몇이 있지만 D에서는 더 많이 벗어나 있습니다