If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

산포도 측정: 범위, 분산 & 표준편차

산포도를 측정하는 가장 일반적인 세 가지 값에 대해 논의해 봅시다. 만든 이: 살만 칸 선생님

동영상 대본

우리는 저번 비디오에서 중심경향성과 데이터 세트의 평균을 나타내는 다양한 방법에 대해서 알아보았습니다 이번 영상에서는 데이터를 어떻게 퍼트리는 것이 좋을지 알아보도록 하겠습니다 알아보도록 하겠습니다 그럼 한 번 생각해 봅시다 예를 들어 -10, 0, 10, 20, 30이 있다고 가정합시다 그리고 이걸 첫 숫자 묶음이라고 하겠습니다 두번째 숫자 묶음은 8, 9, 10, 11, 12이라고 합시다 이제 두 묶음의 수리적 평균을 구해보겠습니다 이제 두 묶음의 수리적 평균을 구해보겠습니다 한 번 해 봅시다 그리고 계속 통계를 공부하다 보면, 모집단과 표본의 차이를 이해할 수 있을 것입니다 이걸 변량의 전체 인구라고 추정하겠습니다 이때 인구 평균에 대해 알아볼 것입니다 그렇기 위해서는 인구들의 분산에 대해서 알아보아야 할 것입니다 복잡해보이는 단어들이네요 우리는 모든 데이터를 알 수는 없습니다 그 중 일부만 가지고 있으며, 이를 가지고 전체의 평균을 추정해야 할 것입니다 전체의 평균을 추정해야 할 것입니다 그러니 너무 걱정 많이 하시지 않기를 바랍니다 하지만 만약 여러분이 통계를 더 배우게 된다면, 더 명확하게 해 드리겠습니다 이제 이 변량의 인구 평균(수리적 평균)를 구해보도록 하겠습니다, 이건 -10+0+10+20+30을 도수인 5로 나누는 값입니다 그렇다면 무슨 값이 나올까요? -10과 10을 더하면 사라지고 20과 30을 더하면 50이 됩니다 이것을 5로 나누면 10이 됩니다 그렇다면 이 묶음에 대한 평균은 무엇일까요? 8 + 9+ 10 + 11 + 12를 5로 나눈 값일 겁니다 8과 12를 더하면 20이 되고, 9와 11을 더하면 역시 20이 됩니다 이를 더하면 총 40이고 여기에 남은 10을 더하면 50이 됩니다 50이 됩니다 이제 50을 도수인 5로 나누어 보면 이전과 정확히 같은 인구 평균을 얻을 수 있습니다 만약 인구나 표본같은 단어 때문에 헷갈리신다면 둘 다 수리적 평균이 같은 값을 가진다는 것을 기억해주길 바라겠습니다 이 숫자들의 평균들을 더해서 5로 나누거나, 숫자들을 더해서 5로 나누어도 10이라는 결과를 얻게 될 것입니다 오른쪽도 마찬가지고요 하지만 명확히 이 숫자들은 다릅니다 만약 여러분이 이 숫자들을 볼 때 두 집단이 서로 비슷하다고 생각할 것입니다 하지만 숫자를 하나씩 볼 때 한 가지 생각이 떠오를 것입니다 모든 수들이 10에 정말 가깝다는 생각이 들 것입니다 가장 많이 차이나는 수도 2밖에 떨어지지 않았습니다 12는 10으로부터 2만큼 떨어져 있습니다 왼쪽 집단의 수들은, 10으로부터 더 많이 떨어져 있습니다 가까운 것도 10 정도 떨어져 있고, 20만큼 떨어진 것도 있습니다 이 때 왼쪽 묶음이 더 분산되어 있다는 것을 알 수 있습니다, 그렇죠? 왼쪽 숫자들은 오른쪽 숫자보다 평균으로부터 더 떨어져 있습니다 그럼 이제 평균으로부터의 분산을 측정할 수 있는 방법 즉 평균으로부터의 거리를 계산하는 방법을 알아보도록 하겠습니다 첫 번째 방법은 가장 간단한 방법인데, 범위를 계산하는 것입니다 자주 사용되는 것을 볼 수는 없지만, 이 방법은 큰 수와 작은 수 사이의 간격를을파악하는 데에 가장 편리한 방법입니다 왼쪽 집단에서 가장 큰 수인 30을 선택하고, 가장 작은 수를 빼 줍니다 30 - (- 10)은 40입니다, 그래서 최댓값과 최솟갑의 차가 40이므로 이 묶음은 범위가 40인 묶음입니다 오른쪽 집단의 최댓값 12에서 최소 숫자인 8을 빼면 4입니다 그래서 여기의 범위는 적당한 분산입니다 우리는 두 집단의 평균이 각각 10이라고 했습니다 하지만 범위을 따지자면 왼쪽이 범위가 더 크므로 왼쪽 집단이 더 흩어져 있음을 알 수 있습니다 그런데 범위로 모든 것을 파악할 수 있는 것은 아닙니다 만약에 범위가 같은 두 개의 변량 묶음을 보게 된다 해도 그 값들의 분산이 서로 다를 수도 있습니다 그 값들의 분산이 서로 다를 수도 있습니다 그 값들의 분산이 서로 다를 수도 있습니다 두 번째 방법은 가장 많이 보는 방법이고, 분산이라고 합니다 분산이라고 합니다 이 동영상에서는 표준편차에 대해서 강의를 진행할 것입니다 아마도 가장 많이 사용되는 것이지만 분산에 대해서 매우 밀접한 관계를 가집니다 그럼 이제 인구 변화량을 조절해보도록 하겠습니다 우린 다시 이 표본을 전체 값으로 추정해야 합니다 우린 그저 표본화 하거나 부분집합을 만들거나 그렇지 않습니다 그래서 분산은 시그마 σ표시의 제곱으로 나타냅니다 이것이 분산의 기호입니다 그리고 σ가 의미하는 것은 표준 편차입니다 이걸 구하는 것입니다 어쨌든 분산의 정의는 각 숫자들의 평균으로부터의 거리인 편차를 제곱한 값들의 평균입니다 즉, 편차의 제곱의 평균입니다 매우 복잡해 보이지만 직접 해보면 쉽습니다 평균이 10인 것을 기억해야 합니다 첫 지점을 보겠습니다 여기에 쓰도록 하겠습니다 화면을 조금 내리겠습니다 첫 지점의 숫자는 -10입니다 (-10) 여기서 저는 평균을 뺀 다음 그 값을 제곱할 것입니다 저는 방금 값과 평균값과의 거리를 구한 뒤 그 값을 제곱하였습니다 당연히 양수가 될 것입니다 두 번째 수를 더하면 0-10이고, 편차 -10을 제곱해 줍니다 (10-10)도 제곱해 주시고 (20-10), 그리고 (30-10)도 제곱을 해 전부 더해줍니다 이것은 각 숫자와 평균의 차이인 편차의 제곱들의 합입니다 이것은 평균입니다 저는 각 숫자들에서 평균을 빼서 편차를 구하고 편차를 제곱해서 더해주고 있습니다 그리고 도수인 5로 나누는거죠 결과적으로 지금 저는 숫자와 평균의 차이인 편차들의 제곱의 평균을 구했습니다 이를 분산이라고 정의합니다 복잡하죠? 그래도 별로 어렵진 않습니다 이번에는 분산을 직접 계산해 봅시다 어떤 값이 나올까요? 편차의 제곱의 합을 5로 나눕시다 그 결과는 무엇일까요? -10에서 10을 빼면 -20입니다 제곱하면 400입니다 0에서 10을 빼면 -10이고, 제곱하면 100입니다 10-10은 0이네요 제곱해도 0입니다 20에서 10을 뺀 값은 10이고, 제곱하면 100입니다 30-10은 20이고, 제곱하면 400이 되겠죠 전부 더해서 5로 나눕시다 계산해 볼까요? 400에 100을 더하면 500입니다 500을 다시 더하면 1000입니다 따라서 총합인 1000을 5로 나누면 200이 됩니다 그래서 이 상황에서 분산은 200이 될 것입니다 확실하게 표시합시다 두번째 숫자 묶음의 분산도 구해봅시다 덜 흩어진 숫자 묶음의 분산도 구해보도록 하겠습니다 자리가 없으니 화면을 조금 내리도록 하겠습니다 여기로 끌어내면 되겠습니다 됐습니다 이제 이 숫자들의 분산을 구해 봅시다 평균은 이미 구했습니다 그래서 분산은 (8-10)+(9-10)+(10-10)+(11-10) 조금 더 내리겠습니다, (12-10)입니다 조금 더 내리겠습니다, (12-10)입니다 우리가 뺀 10은 각 변량들의 평균입니다 이제 평균을 구해야 합니다 5개의 제곱된 편차들이 있습니다 8-10은 -2이고, 제곱하면 4입니다 9에서 10을 빼 제곱해주면 1이 됩니다 10에서 10을 빼면 0이고요 제곱해도 0이네요 11-10은 1입니다 제곱하면 1이 됩니다 12-10은 2입니다 제곱해주면 4가 되겠습니다 다 더해줍시다 그 다음에는 5로 나누겠습니다 10을 5로 나눈 것이 되겠습니다 그 결과값을 계산해주면 2입니다 두 번째 숫자 묶음의 분산은, 10/5입니다 숫자가 덜 흩어진 집단의 분산은 훨씬 작습니다 이 집단의 분산은 2 밖에 되지 않습니다 이해가 가는 부분입니다 분산이 적다는 것은 숫자들이 훨씬 모여있다는 것입니다 분산을 구하는 방법을 다시 설명하자면 편차를 구하고, 그 편차를 제곱해 평균을 구하는 것입니다 이 때 임의의 숫자를 주는데 만약 단위가 무엇인지 알고 싶다면 이 분산이 거리라고 해봅시다 따라서 -10미터, 0미터, 10미터 등이고 이를 제곱하면 분산은 제곱 미터가 됩니다 매우 신기한 방식의 단위입니다 그런데 사람들은 분산의 제곱근, 즉 σ 제곱의 제곱근인 표준편차를 더욱 많이 얘기합니다 그리고 이 표준편차의 기호는 σ로 나타냅니다 따라서 분산을 구했다면 표준편차를 구하는 것은 쉽습니다 첫 숫자 그룹의 표준편차는, 분산인 200에 제곱근을 씌우면 √200은 무엇일까요? 200은 2와 100의 곱입니다 즉 √200은 10√2와 같죠 첫 변량 묶음 표준편차는 10√2입니다 두번째 숫자 묶음도 해보겠습니다 2의 제곱근은 √2이고 이것이 표준편차입니다 따라서 두번째 숫자 묶음의 표준편차는 10배 작습니다 왼쪽은 10√2, 오른쪽은 √2입니다 왼쪽의 표준편차가 10배 더 큽니다 그리고 이건 더욱 명확한 생각을 줍니다 한 번 생각해 보겠습니다 첫 번째 숫자 묶음의 표준편차가 10배 더 큽니다 어떻게 계산했는지 기억해보겠습니다 먼저 우리는 각 지점의 평균에서의 거리를 구했고, 제곱한 뒤, 각 값들의 평균을 구했습니다 제곱한 뒤, 각 값들의 평균을 구했습니다 그런 뒤 제곱근을 구하면 됩니다 그 결과를 비교해주면 첫 묶음의 표준편차가 10배 더 큼을 알 수 있습니다 두 숫자 묶음을 보겠습니다 왼쪽의 표준편차가 10배 더 크네요 직관적으로 알 수 있죠? 제 말은, 모두 평균이 10이지만, 9는 1만큼 떨어진 반면에, 0은 10이나 떨어져 있습니다 8은 2밖에 안 떨어져 있지만, 이건 20이나 떨어져 있습니다 떨어진 거리가 정확히 10배입니다 따라서 표준편차도 10배가 됩니다 평균으로부터 얼마나 떨어져있는지를 알기 위해서는 표준편차가 더 좋은 방법이라는 것을 알려줍니다 이것으로 수업을 마치겠습니다