If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:7:59

동영상 대본

9명으로 구성된 반이 있는 작은 학교에서 9명이 졸업했습니다 9명으로 구성된 반이 있는 작은 학교에서 9명이 졸업했습니다 졸업 1년 후 연봉의 집중경향성에 대해 알아보려고 합니다 졸업 1년 후 연봉의 집중경향성에 대해 알아보려고 합니다 또 1년 후 집중경향값으로부터 분포의 산포도를 알아볼 것입니다 이 9명은 컴퓨터에 각자의 연봉을 넣었고 이 값들이 그 연봉입니다 천 달러를 기준으로 써져 있습니다 따라서 각 35000, 50000, 50000 50000, 56000 2명은 60000, 1명은 75000 그리고 1명은 250000을 법니다 컴퓨터가 주어진 값들을 가지고 여러 수치들을 계산해서 보여주고 있습니다 집중경향성을 대표하는 2개의 값을 계산해주었는데 평균은 76.2 정도입니다 컴퓨터는 이 값을 주어진 9개의 숫자를 더하고 9로 나누어 주어 구했습니다 그리고 중앙값은 56입니다 중앙값은 꽤 쉽게 계산할 수 있습니다 크기순으로 숫자들을 나열한 후 중간에 있는 숫자 56을 선택하면 됩니다 이 영상을 잠시 멈추고 이 자료 집합에 대해 중앙값과 평균 중에 무엇이 더 집중경향성을 더 잘 나타내는 지에 대해 생각해봅시다 자 잠시 생각해봅시다 이 선에 위의 값들을 넣을 것입니다 값들을 선 위에 찍으므로서 값들을 그저 숫자로만 보지 않고 각 값들의 상대적인 위치를 알 수 있도록 할 것입니다 이곳이 0이라고 합시다 5개의 기준선을 그려주면 이곳이 250 이곳이 50, 100, 150, 200, 200이 될것입니다 그럼 봅시다 여기가 50이라면 대략적으로 여기가 40이 될 것입니다 이러한 방식으로 60, 70, 80, 90이 될 것이고 이러한 방식으로 60, 70, 80, 90이 될 것이고 이러한 방식으로 60, 70, 80, 90이 될 것이고 좀 더 정리해 봅시다 여기 있는 것은 여기에 좀 더 가까울 것입니다 여기 즈음에 놓읍시다 여기는 40, 30, 20, 10이 될 것입니다 여기는 40, 30, 20, 10이 될 것입니다 이제 자료를 이 표로 그려봅시다 한 학생은 35000을 벌고 여기 즈음 입니다 3명이 50000 따라서 하나 둘 셋 이렇게 놓을겁니다 한명이 56000을 벌고 여기에 놓을게요 2명이 60000을 벌고 2명이 60000을 벌고 한명이 75000을 벌고 여기 즈음일 것입니다 1명이 250000을 법니다 따라서 졸업생들의 연봉은 다 여기 즈음에 모여있습니다 집중경향성을 측정하는 척도로 평균인 76.2를 사용한다면 76.2는 여기 즈음에 있습니다 과연 이것이 중간 경향성을 측정하는데 좋은 척도일까요? 그리 좋아보이지는 않습니다 왜냐하면 평균이 모든 1개를 제외한 모든 데이터들보다 위에 있습니다 $250000의 값 하나때문에 평균이 매우 치우쳐지게 되었습니다 나머지의 분포보다 너무 많이 떨어져 있기 때문에 평균은 다른 데이터에서 좀 치우쳐지게 되었습니다 이것을 일반화하면 대부분의 사람들은 50, 60,$70000을 벌고 있지만 한 사람만 250000을 버는 이렇게 자료가 치우친 상황에서는 그 치우쳐 진 값이 평균또한 치우치게 만들겁니다 모든 값을 더하고 데이터의 개수로 나누면 모든 값을 더하고 데이터의 개수로 나누면 다른 데이터들과는 많이 떨어져 있는 값이 평균을 치우치게 만들기 때문에 중앙값이 더 적합합니다 중간값은 56으로 여기에 있고 이는 중심화 경향성을 더 잘 대변해 주는 것 같습니다 생각해봅시다 250000 대신에 이 값을 정말 엄청난 액수인 250백만 달러로 만들었다고 하면 이는 평균을 정말 엄청나게 치우치게 할 것이지만 중앙값은 전혀 변동이 없을 것입니다 왜냐하면 중간값은 250이 얼마나 더 커지는지는 전혀 상관이 없기 때문입니다 250이라는 값이 아무리 커져도 몇 백배 더 커져도 중앙값은 그대로일 것입니다 따라서 중앙값은 치우쳐 진 자료를 나타낼 때 더 적합한 값인 것을 알 수 있습니다 평균은 대칭적인 자료를 나타내거나 평균 근처에 값들이 몰린 경우를 나타낼 때 혹은 적은 양의 값들 때문에 한 방향으로 크게 치우쳐 있지 않을 때 더 좋은 효과를 발휘합니다 더 좋은 효과를 발휘합니다 따라서 이 경우 중간값이 집중경향성을 나타내기에는 더 적합합니다 그러면 데이터들의 분산 정도는요? 여러분들은 표준편차는 평균을 기반으로 한 것이고 이미 평균이 이 값들을 나타내기에는 부적합하다고 했으니 표준편차 또한 부정확하다고 추측할 수 있습니다 표준편차는 각 값들의 평균으로부터의 거리를 제곱한 것을 더하고 데이터의 개수로 나누어 주고 그것에다 루트를 씌워주면 구할 수 있습니다 그것에다 루트를 씌워주면 구할 수 있습니다 그리고 이것은 이 자료들의 집중경향성을 나타내기에 부적합한 평균을 기반으로 한 값이기 때문에 표준편차 또한 치우쳐져 부적합할 것입니다 이것은 실제 실제 값들이 퍼진 정도를 나타내는 값들보다 훨씬 더 큽니다 한개의 점이 평균으로 따지든 중간값으로 따지든 멀리 떨어져 있습니다 하지만 데이터의 대부분은 무척이나 가깝게 분포해 있습니다 따라서 이 경우 또한 중간값과 더불어 사분범위가 더 적절합니다 사분범위를 어떻게 계산할까요? 먼저 중간값을 찾아내고 중간값보다 작은 값들의 중간값을 계산합니다 그러면 그것은 지금의 경우 50이 되고 이제 중간값보다 큰 값들의 중간값을 계산합니다 그것은 60과 75의 평균이 될 것인데 바로 67.5입니다 만약 이것이 익숙하지 않다면 사분범위 중간값 평균 표준편차 등을 계산하는 여러 동영상을 게시했습니다 중간값 평균 표준편차 등을 계산하는 여러 동영상을 게시했습니다 이것은 그저 잠깐 복습한 것입니다 이러면 이 두 값들의 차이는 17.5가 됩니다 이 차이 17.5는 마지막 값이 아무리 커진다 하더라도 변하지 않을 것입니다 따라서 중간값과 사분범위가 이 데이터들을 묘사하는 데에는 더 적합합니다 평균과 표준편차는 대칭적인 자료들을 나타내거나 크게 다른 값이 없는 자료들을 나타내기에는 나쁘지 않고 평균과 표준편차가 매우 확고하고 괜찮게 데이터 집합을 표현할 수 있습니다 하지만 소수의 크게 다른 값들이 있다면 중간값과 사분범위가 자료를 나타내기에 중간값은 집중경향성을 사분범위는 집중경향성 주위의 분포를 나타내기에 적합합니다 따라서 소득 분포를 보는 경우 자주 중간값에 대해 이야기 하는 것을 볼 수 있을겁니다 왜냐하면 소득의 경우 특히 고소득 쪽에서 값들이 크게 다르기 때문입니다 집값의 경우도 마찬가지인데 이 또한 한 인근지역의 집값이 200000 혹은 300000의 범위에 있지만 한 대저택이 억 단위일 수도 있어 데이터 집합이 있지만 한 대저택이 억 단위일 수도 있어 자료 집합이 크게 편향되어 있습니다 따라서 평균을 구하면 평균 또한 편향되게 되어 그 지역의 집값의 집중경향성을 잘못 나타낼 것입니다