If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

상자그림 해석하기

동영상 대본

파티에 온 학생들의 나이의 분포를 나타내는 상자수염도가 있습니다 제가 이 동영상에서 하고 싶은 것은 이 그림을 해석하는 것입니다 이 아래에 5개의 문장이 있습니다 동영상을 잠시 멈추고 이 문장들을 한 번 훑어보세요 이 정보들을 근거로 하여 이 중 어느 것이 참이고 어느 것이 거짓인지 어느 것은 판단할 근거가 부족한지 생각해 보기 바랍니다 그 중 어느 쪽일 수도 있으니까요 자 이제 풀어봅시다 첫 번째 문장... 모든 학생은 17세 미만이다 여기 수염도에서 최대 나이는, 즉 여기 수염도 오른 쪽 끝점은 16세군요. 따라서 모든 학생은 17세 미만이 맞습니다 확실히 참이죠 다음 문장...최소 75% 의 학생은 10세 이상이다 맞는 것 같아요. 왜냐하면 10세가 두 번째 사분위 시작점이니까요 여기가 두 번 째 사분위죠 (색깔을 좀 바꿔볼께요) 이 숫자들의 값에 약 25%가 대략 이 두 번째 사분위에 들어오고요 가끔 정확하지 않으니 대략이요. 또 약 25%가 세 번째 사분위에 있고요 그리고 또 약 25%가 네 번 째 사분위에 있으니까요 따라서 75%의 학생이 10세 이상이라는 말은 사실인 것 처럼 보입니다. 이것은 사실일겁니다 사실은 10세인 두 세 명은 첫 번째 사분위에 있을 수도 있습니다 좀 더 구체적으로 ... 이 문장은 참이라는 생각이 드는군요 좀 더 구체적으로 생각해 보기 위해 예를 몇 개 들어 봅시다..... 우리는 정확히 몇 명이 파티에 왔는지 모르므로 몇 가지 시나리오를 고려해 봅시다 자 그럼 가능한 경우를 만들죠 중간값이 13인 것으로.. 중간값이 13이니까... 홀수의 사람이 파티에 왔다면 중간 나이는 13세일 것이고요 그 좌우로 3명씩 있다고 가정합시다 저는 그냥 어떤 예를 만들고 있는데 그냥 이 상자 수염도로 표현할 수 있는 데이터 집합의 종류를 알아보려는 거에요 그러니까 10세는 13세보다 나이가 작은 사람들의 중간값입니다 그래서 저기 10이 있고요 15세가 나이가 많은 사람들의 중간값이고요 그것이 이 상자수염도가 얘기하는 거지요 물론 최소값도 얘기해 주고 있어요 최소값은 7세, 최대값은 16세라고 하고 있습니다 그리고 여기 이 자리는 무엇이든 될 수 있습니다 10, 11, 12, 13, ... 어떤 수도 될수 있습니다 하지만 상자수염도의 중간값을 바꾸지는 못해요 이 수염도도 바꾸지는 못해요 비슷하게 여기는 13, 14, 15, ... 전부 다 될 수 있습니다. 따라서 우리 예에서 10세 이상의 사람은 7명 중 6명이군요 또 다른 경우도 생각해 볼 수 있습니다 수염도의 조건 하에서 10세인 사람의 숫자를 최소로 만들어 봅시다 예를 들어 8명이 있다고 합시다 1,2,3,4,5,6,7,8.. 최소는 7, 최대는 16이라는 걸 알고 중간에 있는 두 값의 평균이... 짝수의 학생이 왔으니까요 즉 이것과 이것의 평균이 13이죠 또, 아래쪽 절반의 중간값은 10 위쪽 절반의 중간값은 15이라는 것도 압니다 자 이제 질문에 답하기 위해서 뭘 더 만들어 볼 수 있을까요? 사실 뭘 만들 필요는 없어요 우리는 이것은 10세 이상이어야 한다는 것을 알고 그리고 이쪽 나머지 모두가 10세 이상이라는 것을 압니다 정확히 75%의 사람들이 10세 이상입니다 매우 좋습니다. 구체적으로 숫자까지 채워 넣죠 여기는 9, 여기는 11이라고 합시다 그리고 이 중간에는 12, 14 그리고 오른쪽은 14, 16일 수 있습니다 혹은 15, 15 일 수도 있죠 어떤 쪽이든 좋습니다 수염도에 주어진 정보에 의하면 이 문장은 확실히 참이 됩니다 다음 문장...파티에 온 사람 중 7세는 단 한 명이다 여기 첫 번째 가능한 경우에서는 사실이었죠 7세가 한 명 있었고 16세가 한 명 있었죠 다음 주어진 문장은 16세는 한 명이었다니까 이 두 문장 다 참인것 같죠 우리는 상자수염도와 맞으면서도 이 두 문장이 참인 경우를 만들 수 있습니다 하지만 참이 아닌 경우도 만들 수 있죠 예를 들어 중간값이 13이고, 1,2,3,4,5.... 좌우로 5명이 있는 경우를 생각해 봅시다 아래쪽 반의 중간값을 10 위쪽 반의 중간값을 15이라 합시다 최소는 7, 최대는 16 두 번 째 자리도 역시 7일 수 있죠 꼭 달라야 하는 것은 아닙니다 최대 나이 바로 왼쪽도 16일 수 있습니다 기본적인 아이디어는 7세도 16세도 여럿 있는 데이터 집합을 만들 수 있고 혹은 7세도 16세도 하나씩만 있는 데이터 집합을 만들 수도 있다는 겁니다 따라서 이 두 문장에 대해서는 참 거짓의 판단을 내릴 수가 없습니다 다음 문장....정확히 절반의 학생이 13세보다 나이가 많다 여기 첫 번째 가능한 경우에서 우리는 7명 중 3명이 13세보다 나이가 많다는 것을 보았죠 즉 정확히 절반이 아닙니다 하지만 두 번 째 경우에서는 정확히 절반이었죠 학생 수가 짝수이니까 13세보다 많은 학생이 '정확히' 절반이 될 수 있었죠 따라서 이 문장은 참일 수도 있고 거짓일 수도 있습니다 따라서 또 한 번 우리는 참인지 거짓인지 모릅니다 어쨌든 이 모든 것을 보여드린 이유는 통계를 바라볼 때 오케이 대강은 맞는 것 같아라고 라고 하는 것이 어떤 경우는 괜찮지만 중요한 것은 정확히 어떤 문장을 만들 수 있고 어떤 문장은 만들 수 없는지를 아는 것입니다 통계에서는 어쩔 때는 그냥 데이터가 부족해서 확실히 알 수가 없어 라고 말해야 한다는 것이 매우 중요합니다