If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

예제: 분포 비교하기

모양의 특성, 집중경향값, 산포도, 이상치를 이용하여 자료를 비교해 봅시다.

동영상 대본

이번 영상에서는 분포들을 비교해 볼 것입니다 이번 영상에서는 분포들을 비교해 볼 것입니다 이 경우, 두 도시의 1월 동안 기온 분포를 보여주고 있습니다 이 경우, 두 도시의 1월 동안 기온 분포를 보여주고 있습니다 이 경우, 두 도시의 1월 동안 기온 분포를 보여주고 있습니다 이것은 Portland의 기온 분포입니다 예를 들면 이 도시는 1에서 4도씨였던 날이 8일 정도 있었습니다 예를 들면 이 도시는 1에서 4도씨였던 날이 8일 정도 있었습니다 4에서 7도씨였던 날은 12일 정도 있었습니다 이런 식으로 쭉 진행됩니다 그리고 이 분포는 Minneapolis의 기온 분포입니다 이제 이 둘을 비교할 때 분포중심과 그 확산 정도를 중점적으로 비교할 것입니다 분포중심과 그 확산 정도를 중점적으로 비교할 것입니다 가끔은 분포의 변산도에 대한 질문을 접할 때도 있을 것입니다 가끔은 분포의 변산도에 대한 질문을 접할 때도 있을 것입니다 따라서 이러한 것들을 중점적으로 비교해 볼 것입니다 따라서 이러한 것들을 중점적으로 비교해 볼 것입니다 비교를 할 때, 직관적으로 알 있는 것들 중심으로 알아볼 것입니다 비교를 할 때, 직관적으로 알 있는 것들 중심으로 알아볼 것입니다 분포중심을 찾기 위해 평균이나 중간값과 같은 수치들을 잡고 그것이 정확히 얼마인지 계산하려 하지 않을 것입니다 수치들을 잡고 그것이 정확히 얼마인지 계산하려 하지 않을 것입니다 만약 분포중심의 차이가 미비하다면 그렇게 할 수도 있습니다 하지만 만약 보는 것만으로 할 수 있다면 그것이 최선이겠죠 확산 정도와 변산도 또한 같은 방식으로 할 것입니다 둘 중 어느 경우에도 사용할 수 있는 통계적 값들이 있습니다 둘 중 어느 경우에도 사용할 수 있는 통계적 값들이 있습니다 집중경향성과 관련된 값들로는 평균과 중간값이 있고 산포도와 관련된 값들로는 범위 절대평균편차 표준편차 산포도와 관련된 값들로는 범위 절대평균편차 표준편차 등의 값들이 있습니다 하지만 가끔은 보는 것만으로도 알 수 있는 경우가 있습니다 그럼 어느 분포가 더 큰 집중경향값이 있는지 혹은 과연 비교가능할까요? Portland의 분포를 보면 만약 분포의 집중경향성을 생각한다면 비록 이 경우 평균과 중간값이 여기쯤으로 거의 똑같겠지만 평균은 아마도 7 근처거나 그보다 약간 아래일 것으로 예상됩니다 따라서 평균은 아마 이 범위 안에 있을 것입니다 5에서 7 사이가 바로 집중경향성이 될 것입니다 아마 평균이거나 중간값이겠습니다 Minneapolis의 경우는 중간이 -2나 -3도씨에 훨씬 더 가까울 것으로 보입니다 -2나 -3도씨에 훨씬 더 가까울 것으로 보입니다 따라서 이 경우 비록 평균이나 중간값이 얼마인지 알지 못하더라도 평균이나 중간값이 얼마인지 알지 못하더라도 Portland의 기온 분포가 더 높은 중간값 혹은 평균을 가지고 있다고 할 수 있습니다 중간값 혹은 평균을 가지고 있다고 할 수 있습니다 평균 혹은 중간값 중 하나만 비교하면 됩니다 그러면 산포도와 변산도의 경우는 어떨까요 피상적으로 범위에 대해 생각해보면 1도씨 아래와 13도씨 위에는 아무것도 없다는 것을 알 수 있습니다 따라서 이 경우는 최대 13도씨의 범위를 가집니다 이 첫 기둥을 구성하는 값들은 3도씨 혹은 3.9도씨 정도의 기온들일 것이고 비슷하게 마지막 막대를 구성하는 값은 10.1도 정도의 기온 값들일 것이고 최대 약 12도씨 정도의 범위를 가질 것입니다 이에 반해 우측 분포는 거의 27도씨 정도의 범위를 가질 것입니다 이를 통해 그저 보기만 하더라도 같은 수평축, 온도 분포를 사용하고 있기 때문에 같은 수평축, 온도 분포를 사용하고 있기 때문에 우측이 더 넓은 분포를 가지고 있다고 결론내릴 수 있습니다 우측이 더 넓은 분포를 가지고 있다고 결론내릴 수 있습니다 따라서 Minneapolis가 Portland보다 더 넓은 분포 혹은 더 큰 변산도를 가지고 있다고 할 수 있습니다 더 높은 변산도 값을 가지고 있습니다 다른 예제를 살펴봅시다 자료를 다르게 표현한 경우를 살펴볼 것입니다 문제는 다음과 같습니다 올림픽 게임에서는 여러 종목들의 경우 여러 라운드로 게임이 진행됩니다 그 중 하나는 남자의 100m 접영입니다 위의 그림에서의 점들은 2012 올림픽 결승에서의 상위 8명의 결과를 나타내고 있습니다 상위 8명의 결과를 나타내고 있습니다 이는 초록색을 표시되어 있습니다 아래의 점들은 동일한 선수들의 준결승에서의 결과를 나타내고 있습니다 따라서 이러한 분포가 주어졌을 때 어느 분포가 더 높은 집중경향값을 가질까요? 앞에서 했던 것처럼 이 또한 직관적으로 중간값을 찾아낼 수 있습니다 이 경우는 평균으로 따지려면 좀 더 많은 수학이 필요할 것입니다 그럼 중간값을 찾아봅시다 그럼 중간값을 찾아봅시다 총 하나 둘 셋 넷 다섯 여섯 일곱 여덟게의 점이 있습니다 따라서 중간값은 네번째와 다섯번째 점의 상이에 위치할 것입니다 따라서 이 경우 결승에서의 집중경향성은 아마 57.1초 언저리일 것입니다 이에 반해 준결승은 똑같이 중간값으로 생각해주면 집중경향성은 자 봅시다 하나 둘 셋 넷 다섯 여섯 일곱 여덟 아마 이즈음 일 것입니다 이는 57 정도이고 이는 57.3보다 작기 때문에 준결승이 결승보다 더 큰 집중경향성을 가지고 있습니다 당연히 결승 진출자들이 준결승 때보다 더 빠를 것이라 생각하겠지만 이는 자료가 알려주는 것과는 상반되고 있습니다 따라서 준결승이 더 높은 중심을 가지고 있었습니다 따라서 준결승이 더 높은 중심을 가지고 있었습니다 중간값을 직관적으로 봤을 때 그리고 평균 또한 약간 더 높을 것으로 생각됩니다 그리고 평균 또한 약간 더 높을 것으로 생각됩니다 그러면 변산도의 경우는 어떠할까요 다시 한번 범위를 살펴보면 이 두 값들은 같은 수치로 표현되어 있습니다 따라서 시각적으로 변산도를 보면 결승에서의 범위가 준결승의 범위보다 더 크다는 것을 알 수 있습니다 따라서 결승이 더 높은 변산도를 가지고 있다고 할 수 있습니다 변산도 이는 더 큰 범위를 가지고 있습니다 직관적으로 보면 이는 더 넓은 분포를 가지고 있지만 물론 이 중에서도 비록 분포가 더 넓어도 표준편차는 더 작을 수가 있습니다 비록 분포가 더 넓어도 표준편차는 더 작을 수가 있습니다 예를 들자면 두 점이 매우 매우 멀리 떨어져 있고 나머지 값들이 한 부분에 몰려 있는 자료의 경우입니다 한 부분에 몰려 있는 자료의 경우입니다 그림을 그리자면 이런 경우입니다 여기에 수평축을 그리겠습니다 이 경우 이를 분포라고 생각 할 수 있습니다 이러한 분포의 경우 넓은 분포를 가지고도 작은 표준편차를 가질 수 있습니다 넓은 분포를 가지고도 작은 표준편차를 가질 수 있습니다 넓은 분포를 가지고도 작은 표준편차를 가질 수 있습니다 매우 개략적인 예시를 그리고 있습니다 이러한 분포의 경우는 좁은 범위를 가지더라도 실제로는 큰 표준편차를 가질 수 있습니다 위의 분포보다 더 큰 표준편차를 가질 수 있습니다 위의 분포보다 더 큰 표준편차를 가질 수 있습니다 실제로는 이보다 더 크게 차이나는 분포를 만들 수 있습니다 이러한 분포의 경우는 작은 범위를 가지고 있더라도 큰 표준편차를 가질 수 있습니다 따라서 범위나 표준편차 하나만 가지고 보이는 값으로만 모든 경우에 판단을 내릴 수는 없습니다 보이는 값으로만 모든 경우에 판단을 내릴 수는 없습니다 보이는 값으로만 모든 경우에 판단을 내릴 수는 없습니다 하지만 이 경우는 두 분포를 직관적으로 보고 있는것만으로도 초록색으로 표기된 결승의 자료들이 더 큰 범위 더 큰 변산도를 가질 것이라 유추할 수 있습니다 이는 매우 높은 수준의 비교입니다