주요 내용
미국 6학년
상자그림 해석하기
동영상 대본
파티에 온 학생들의 나이의 분포를 나타내는
상자수염도가 있습니다 제가 이 동영상에서 하고 싶은 것은
이 그림을 해석하는 것입니다 이 아래에 5개의 문장이 있습니다 동영상을 잠시 멈추고
이 문장들을 한 번 훑어보세요 이 정보들을 근거로 하여
이 중 어느 것이 참이고 어느 것이 거짓인지
어느 것은 판단할 근거가 부족한지 생각해 보기 바랍니다
그 중 어느 쪽일 수도 있으니까요 자 이제 풀어봅시다
첫 번째 문장... 모든 학생은 17세 미만이다 여기 수염도에서 최대 나이는,
즉 여기 수염도 오른 쪽 끝점은 16세군요. 따라서 모든 학생은 17세 미만이 맞습니다
확실히 참이죠 다음 문장...최소 75% 의 학생은 10세 이상이다 맞는 것 같아요. 왜냐하면
10세가 두 번째 사분위 시작점이니까요 여기가 두 번 째 사분위죠
(색깔을 좀 바꿔볼께요) 이 숫자들의 값에 약 25%가 대략 이 두 번째 사분위에 들어오고요 가끔 정확하지 않으니 대략이요. 또 약 25%가 세 번째 사분위에 있고요 그리고 또 약 25%가 네 번 째 사분위에 있으니까요 따라서 75%의 학생이 10세 이상이라는 말은
사실인 것 처럼 보입니다. 이것은 사실일겁니다 사실은 10세인 두 세 명은 첫 번째 사분위에
있을 수도 있습니다 좀 더 구체적으로 ... 이 문장은 참이라는 생각이
드는군요 좀 더 구체적으로 생각해 보기 위해
예를 몇 개 들어 봅시다..... 우리는 정확히 몇 명이 파티에 왔는지 모르므로
몇 가지 시나리오를 고려해 봅시다 자 그럼 가능한 경우를 만들죠
중간값이 13인 것으로.. 중간값이 13이니까...
홀수의 사람이 파티에 왔다면 중간 나이는 13세일 것이고요
그 좌우로 3명씩 있다고 가정합시다 저는 그냥 어떤 예를 만들고 있는데 그냥 이 상자 수염도로 표현할 수 있는
데이터 집합의 종류를 알아보려는 거에요 그러니까 10세는 13세보다 나이가 작은
사람들의 중간값입니다 그래서 저기 10이 있고요 15세가 나이가 많은 사람들의
중간값이고요 그것이 이 상자수염도가
얘기하는 거지요 물론 최소값도 얘기해 주고 있어요 최소값은 7세, 최대값은 16세라고
하고 있습니다 그리고 여기 이 자리는
무엇이든 될 수 있습니다 10, 11, 12, 13, ... 어떤 수도 될수 있습니다
하지만 상자수염도의 중간값을 바꾸지는 못해요 이 수염도도 바꾸지는 못해요 비슷하게 여기는 13, 14, 15, ... 전부 다 될 수 있습니다. 따라서 우리 예에서 10세 이상의 사람은
7명 중 6명이군요 또 다른 경우도 생각해 볼 수 있습니다 수염도의 조건 하에서 10세인 사람의 숫자를
최소로 만들어 봅시다 예를 들어 8명이 있다고 합시다
1,2,3,4,5,6,7,8.. 최소는 7, 최대는 16이라는 걸 알고 중간에 있는 두 값의 평균이...
짝수의 학생이 왔으니까요 즉 이것과 이것의 평균이 13이죠 또, 아래쪽 절반의 중간값은 10 위쪽 절반의 중간값은 15이라는 것도
압니다 자 이제 질문에 답하기 위해서
뭘 더 만들어 볼 수 있을까요? 사실 뭘 만들 필요는 없어요
우리는 이것은 10세 이상이어야 한다는 것을 알고 그리고 이쪽 나머지 모두가
10세 이상이라는 것을 압니다 정확히 75%의 사람들이
10세 이상입니다 매우 좋습니다. 구체적으로 숫자까지 채워 넣죠
여기는 9, 여기는 11이라고 합시다 그리고 이 중간에는 12, 14 그리고 오른쪽은 14, 16일 수 있습니다 혹은 15, 15 일 수도 있죠
어떤 쪽이든 좋습니다 수염도에 주어진 정보에 의하면 이 문장은
확실히 참이 됩니다 다음 문장...파티에 온 사람 중 7세는
단 한 명이다 여기 첫 번째 가능한 경우에서는
사실이었죠 7세가 한 명 있었고
16세가 한 명 있었죠 다음 주어진 문장은
16세는 한 명이었다니까 이 두 문장 다 참인것 같죠 우리는 상자수염도와 맞으면서도
이 두 문장이 참인 경우를 만들 수 있습니다 하지만 참이 아닌 경우도
만들 수 있죠 예를 들어 중간값이 13이고, 1,2,3,4,5....
좌우로 5명이 있는 경우를 생각해 봅시다 아래쪽 반의 중간값을 10
위쪽 반의 중간값을 15이라 합시다 최소는 7, 최대는 16 두 번 째 자리도 역시 7일 수 있죠
꼭 달라야 하는 것은 아닙니다 최대 나이 바로 왼쪽도 16일 수 있습니다 기본적인 아이디어는 7세도 16세도
여럿 있는 데이터 집합을 만들 수 있고 혹은 7세도 16세도 하나씩만
있는 데이터 집합을 만들 수도 있다는 겁니다 따라서 이 두 문장에 대해서는
참 거짓의 판단을 내릴 수가 없습니다 다음 문장....정확히 절반의 학생이
13세보다 나이가 많다 여기 첫 번째 가능한 경우에서
우리는 7명 중 3명이 13세보다 나이가 많다는 것을
보았죠 즉 정확히 절반이 아닙니다 하지만 두 번 째 경우에서는
정확히 절반이었죠 학생 수가 짝수이니까
13세보다 많은 학생이 '정확히' 절반이 될 수 있었죠 따라서 이 문장은 참일 수도 있고
거짓일 수도 있습니다 따라서 또 한 번
우리는 참인지 거짓인지 모릅니다 어쨌든 이 모든 것을 보여드린 이유는
통계를 바라볼 때 오케이 대강은 맞는 것 같아라고
라고 하는 것이 어떤 경우는 괜찮지만 중요한 것은 정확히 어떤 문장을 만들 수 있고
어떤 문장은 만들 수 없는지를 아는 것입니다 통계에서는 어쩔 때는 그냥
데이터가 부족해서 확실히 알 수가 없어 라고 말해야 한다는 것이
매우 중요합니다