주요 내용
현재 시간:0:00전체 재생 길이:5:07

동영상 대본

이번 수업에서는 자료의 분포 형태와 이 형태를 설명하는 용어들에 대해 알아봅시다 이 그래프는 Matt's cafe의 고객 수를 나타내고 있습니다 히스토그램이 나이대 별로 나타나있죠? 각 막대는 각 연령대의 고객 수를 나타냅니다 20살 아래로는 손님이 없네요 20세에서 30세 사이의 고객은 적당히 있고 30세에서 40세 사이의 고객은 아주 많이 있네요 40세에서 50세 사이의 고객도 적당히 있습니다 연령대가 높아질수록 고객 수는 줄어드네요 이런 분포를 보면 뭔가 떠오를 거예요 분포의 왼쪽은 아르마딜로의 몸 같고 오른쪽은 아르마딜로의 꼬리같죠? 이런 분포를 설명할 때 실제로 이런 용어를 씁니다 분포의 오른쪽은 꼬리가 있지만 왼쪽에는 꼬리가 없어요 분포도를 보면 20세 아래로는 고객이 아무도 없습니다 하지만 60~70세와 70~80세 고객은 조금이나마 있어요 그리고 80~90세 고객의 수는 더 적습니다 이러한 추세로 가기 때문에 이를 오른쪽 꼬리 분포 (right tailed distribution)라고 할 수 있습니다 다양한 문제를 풀어보는게 도움이 될까 싶어서 이것을 연습문제로 만들어 봤어요 왼쪽 꼬리 분포는 이렇게 왼쪽으로 치우쳐졌겠죠? 만약 왼쪽과 오른쪽으로 비슷하게 내려가는 모양이라면 대칭이라고 할 수 있습니다 '대칭'은 가운데를 기준으로 양쪽이 같은 모양인 경우를 말합니다 즉 가운데를 기준으로 접었을 때 거의 합쳐지는 모양이죠 이 분포도의 경우에는 가운데를 기준으로 접었을 때 왼쪽과 오른쪽이 전혀 맞지 않아요 따라서 이 분포도는 오른쪽으로 치우쳐져 있습니다 다음 분포도는 고객별 퇴직 연령입니다 이 분포도는 연령별 고객 수를 나타내고 있어요 Logan Assisted Living의 고객 수겠지요 60~70세 사이의 고객이 아주 많이 있네요 50~60세 고객과 70~80세 고객도 적당히 있습니다 이 분포도는 대칭되는 모양같네요 분포도 가운데에 선을 그려 봅시다 이 막대가 60~70세 구간이니까 여기는 65세쯤 되겠네요 그리고 중심선을 기준으로 접으면 정확히 맞지는 않지만 거의 대칭을 이루는 것을 확인할 수 있습니다 따라서 이 분포도는 대략 대칭(symmetrical)을 이룹니다 이제 다른 보기도 살펴봅시다 오른쪽 또는 왼쪽으로 치우쳐있다는 말은 통계학에서 많이 사용하는 전문적인 단어입니다 이 말을 좀 바꿔보면 '왼쪽으로 치우쳐 있다 (skewed to the left)'는 '왼쪽 꼬리 분포'라고 할 수 있고 '오른쪽으로 치우쳐 있다 (skewed to the right)' 는 말은 '오른쪽 꼬리 분포'라고 할 수 있습니다 '왼쪽으로 치우쳐 있다'를 다른 표현으로 나타내면 평균이 중앙값과 최빈값의 왼쪽에 있다고 할 수도 있어요 이 표현이 이해되지 않는다면 그냥 꼬리를 보면 됩니다 왼쪽 꼬리 분포는 왼쪽으로 치우친 분포고 오른쪽 꼬리 분포는 오른쪽으로 치우친 분포입니다 다음 문제를 봅시다 이건 히스토그램이나 막대그래프가 아니네요 사분위를 알 수 있는 상자그림입니다 그림을 한번 읽어 볼까요? 왼쪽 끝점은 최솟값을 뜻합니다 즉, 11에 해당하는 값이 최소 한 개는 있다는 뜻이에요 오른쪽 끝점은 최댓값을 뜻하죠 25에 해당하는 값이 최소 한 개는 있다는 뜻입니다 이 선은 중앙값을 의미해요 이때 중앙값은 21이 되겠죠 이 상자는 자료의 중간 50%를 나타냅니다 즉 분포의 핵심이죠 이 그림을 히스토그램으로 나타낸다면 정확한 모양은 알 수 없을 거예요 11이 얼마나 있는지 모르기 때문이죠 하지만 이 분포도의 모양은 왼쪽 꼬리 모양으로 시작해서 분포의 핵심 부분에서 위쪽으로 볼록한 모양이 될 거예요 히스토그램은 왼쪽 꼬리 분포일 것입니다 왼쪽 구간의 값이 상당히 낮을 거예요 만약 왼쪽 구간의 값이 높다면 이 상자가 왼쪽에 있었겠죠 상자가 자료의 중간 50%를 나타내기 때문이에요 따라서 이 분포는 왼쪽으로 치우쳐져 있습니다 이 그림은 대칭되지는 않을 것입니다 만약 대칭이라면 중앙값을 나타내는 선과 상자그림이 좀 더 가운데로 왔을 거예요 그리고 세 번째 보기처럼 오른쪽으로 치우치지도 않죠 그랬다면 오른쪽이 좀 더 길게 그려졌을 거예요 끝났습니다