이 메시지는 외부 자료를 칸아카데미에 로딩하는 데 문제가 있는 경우에 표시됩니다.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

주요 내용

통계적인 질문과 통계적이지 않은 질문

통계적인 질문은 변동성이 있는 자료를 수집함으로써 답할 수 있는 질문입니다. 예를 들면, "FancyFarm에 사는 동물들은 무게가 얼마나 나가는가?"와 "사라가 쓴 모자는 무슨 색인가?"와 같은 질문에는 아마 변동성이 있겠지만 "사라가 쓰고 있는 모자의 색깔은 무엇인가?"라는 질문은 그렇지 않습니다. 만든 이: 살만 칸 선생님

동영상 대본

오늘 설명하려고 하는 것은 어떤 종류의 문제는 통계를 알아야 답할 수 있고 어떤 종류의 문제는 통계를 몰라도 답할 수 있는가 하는 거예요 통계가 필요한 문제는 통계 문제라고 불러요 통계 문제는 노란색 동그라미를 칠게요 비디오 시청을 잠깐 멈추고 여러분이 스스로 한번 풀어보세요 문제를 살펴보고 생각을 해보세요 문제를 푸는 데 통계가 필요한지 통계가 필요없는지 생각해보세요 즉 통계 문제인지 아닌지 생각해 보세요 생각들 해 보셨죠 이제 같이 풀어보죠 첫번 째 문제는 "당신은 몇살입니까?"예요 누군가의 나이를 묻고 있죠 답이 정해져 있고 답변을 하는데 통계 도구는 필요없죠 그래서 이건 통계 문제가 아녜요 2013년도에 이 비디오를 시청한 사람은 몇살입니까? 이건 주의를 기울일 필요가 있죠 다수의 사람들이 이 비디오를 2013년도에 시청했다고 가정하고 있어요. 그 사람들이 다 나이가 똑 같은 것은 아니죠 다들 나이가 틀릴거예요 어떤 사람은 10살 일 수도 있고 또 누군가는 20살 일 수도 있어요 15살인 사람도 있겠죠 그렇다면 이문제에 답은 무엇일까요? 모든 사람들의 나이를 다 적을 건가요? 대체적으로 '이 사람들 나이대가 어떻게 되는가' 를 알고 싶은거예요 이런 경우에 통계가 유용하게 쓰이죠 대체적인 경향이 어떤지, 즉 이들의 평균값인 중앙값을 알고 싶은 거죠 그러니 분명히 통계 문제라고 할 수 있죠 이 문제가 어떤 방향성이 있다는 것을 눈치 챘나요? 첫번 째 질문에서는 특정인의 나이를 물었죠 이건 답이 하나밖에는 없어요 답이 여러개 나올 수가 없죠 두번 째 문제에서는 한 집단에 속한 사람들의 특성에 대해 묻고 있어요 다양한 특성이 있을 수 있죠 모든 사람들이 나이가 같지는 않으니까요 그래서 통계를 이용해 데이터 집합의 특징을 도출하여 결론을 이끌어 내야하죠 이제 답을 내자면, 평균적으로 2013년도에 이 비디오를 시청한 사람들은 18살이거나 22살이다고 할 수 있죠 아니면 중앙값이 24살이라고 말 할 수 있죠 개는 고양이보다 더 빨리 달립니까? 다시 말하지만 다수의 개와 다수의 고양이가 있어요 다들 달리는 속도도 틀리죠 어떤 개는 몇몇 고양이 보다 더 빨리 달릴 것이고 어떤 고양이는 몇몇 개보다 더 빨리 달릴 수 있어요 그러므로 통계를 써서 대체적인 경향을 알아내야죠 즉 평균적으로 개는 얼마나 빨리 달리고 고양이는 평균적으로 얼마나 빨리 달리는지 알아내야죠 그리고 나서 평균값을 비교하거나 중앙값을 비교할 수 있어요 이건 분명히 통계 문제죠 다시 말하지만 지금 얘기하는 주제는 모든 종류의 개 대 전체 고양이에 대한 거예요 개는 얼마나 빨리 달리는가 와 고양이는 얼마나 빨리 달리는가 하는데에는 다양성이 있조 특정 개와 특정 고양이에 대해 얘기하는 거면 답은 하나로 정해지겠죠 A라는 개는 B라는 고양이 보다 빠른가? 예, 그래요 이건 통계 문제가 아니죠 통계 도구를 이용할 필요가 없어요 이 다음 문제는 이와 유사한 문제예요 사실 이거 바로 전 문제와 유사한 문제군요 늑대는 개보다 무게가 더 나가는가? 다시 말하지만 어떤 개는 아주 가볍고 어떤 늑대는 아주 무거워요 이런 늑대들은 분명 저들 개보다 무겁죠 하지만 정말 아주 무거운 개가 있어요 이들 각각에는 다양성이 있으므로 여러분이 원하는 것은 대체적인 경향을 알아내려는 것일 거예요 평균적적으로 늑대의 무게의 중앙값은 무엇인가? 평균적인 늑대의 무게는 무엇인가? 이것을 개의 평균 무게와 비교해 보세요 다시 말하지만 지금 얘기하고 있는 것은 일반적인 늑대이지 특정한 늑대가 아녜요 개도 일반적인 개를 얘기하고 있고 데이터에는 다양성이 있어요 다양한 데이터 속에서 비교할 수 있는 수자를 끄집어 내려고 하고 있죠 이건 분면히 통계 문제예요 당신의 개는 저 늑대 보다 더 무겁습니까? 어떤 특정한 늑대를 가리키며 말한다고 가정해 보죠 특정이 됐어요 특정한 개를 특정한 늑대와 비교하는 거죠 각각의 몸무게를 저울로 달아서 답을 낼 수가 있죠 최소한 개의 무게를 재는 시점에 개의 무게에는 다양성이 없고 늑대의 무게를 재는 시점에 늑대의 무게에는 다양성이 없죠 이건 통계 문제가 아니죠 통계 문제가 아니면 x표시를 하겠어요 시애틀에서는 싱가폴보다 비가 더 많이 내리는가? 다시 말하지만 이 문제에는 다양성이 있어요 우리가 알고 싶어하는 것은 어떤 특정한 해에 시애틀에서 싱가폴보다 비가 더 많이 내리는가 일 수도 있고 십년간 비교 했을 때 일 수도 있어요 질문의 의도가 어떻든 어떤 해에는 시애틀에서 비가 더 많이 내렸을 수 있어요 또 다른 해에는 싱가폴에서 비가 더 많이 내렸을 수 있어요 시애틀만 놓고 보자면 년도 별로 비가 내리는 양은 다를 수 있어요 싱가폴에서도 년도 별로 비가 내리는 양은 다를 수 있어요 그러니 어떻게 비교할 수 있을까요? 바로 통계가 이용될 시점이죠 데이터에 다양성이 있죠 그러니 시애틀의 데이터 집합을 살펴보고 평균치를 해서 대체적인 경향을 도출하여 비교를 하죠 비교는 싱가플의 평균치와 합니다. 최빈수는 이 경우 유용하지 않겠죠 그러므로 이것은 명백히 통계 문제예요 싱가폴과 시애틀의 2013년도 강우량 차이는 어떻게 됩니까? 강우량은 알고 있는 수자죠 측정될 수 있어요 싱가폴의 강우량과 시애틀의 강우량 모두 측정할 수 있죠 이미 측정을 끝냈다고 가정하죠 그러면 강우량 차이를 알 수 있어요 이 경우에는 통계가 필요없죠 이 두지역의 가우량 측정값만 있으면 되죠 차이를 알려면 뺄셈을 하면 되고요 그러니 통계 문제가 아니죠 일반적으로 시간 당 55마일로 달릴 때 소모하는 기름양이 시간당 70마일로 달릴 때보다 작습니까? 이건 통계 문제처럼 보입니다. 상황에 따라 다르기 때문이죠 차종에 따라 다를 수 있고요 똑 같은 차로 시간당 55마일을 주행해도 연비에는 다양성이 있을 수 있어요 얼마 전에 엔진 오일을 갈았는지, 바람상태는 어떤지, 도로 상태는 어떤지, 차를 운전하는 방식은 어떤지에 따라 다를 수 있어요 구불 구불한 길인지? 직선 주행인지? 시간당 70마일로 달릴 때도 동일하죠 일반적이라고 할 때는 시간당 55마일 혹은 70마일로 달릴 때 연비에 다양성이 있다는 얘기예요 원하는 답은 시간당 55마일로 달릴 때 평균 연비는 얼마이고 시간당 70마일로 달릴 때 평균 연비와 비교하는 것일 거예요 각각의 경우에 다양성이 있으므로 명백히 통계 문제예요 영어 교수는 수학 교수보다 보수가 적습니까? 다시 말하지만 모든 영어 교수가 똑 같은 금액을 받는 건 아니고, 수학 교수도 모두가 똑 같은 받지는 않죠 어떤 영어 교수는 잘 받을 수도 있고 어떤 교수는 덜 받을 수도 있죠 수학 교수도 마챦가지고요 그러므로 평균을 구해서 이들 각자의 대체적인 경향을 알아내야죠 다시말하자면 이건 통계 문제예요 하바드에서 가장 많이 받는 영어교수가 MIT에서 가장 많이 받는 수학 교수보다 더 많이 받습니까? 특정 한 두명의 개인에 대해 얘기하고 있죠 이 사람들의 세금 신고서를 보면 각자가 얼마나 받는 지 알 수 있죠. 금년도를 특정해로 삼는다면 말이죠 2013년도를 특정 해로 하기로 하죠 해마다 보수가 틀려서 다양성이 생길 수 있는 가능성을 확실히 없애는 거죠 2013년도에 하바드에서 가장 많이 받은 영어교수가 MIT에서 가장 많이 받는 수학 교수보다 더 많이 받았습니까? 라는 질문으로 바꾸면 이들 각각 두 사람이 받은 확실한 금액을 알 수 있어요 이 금액을 바로 비교만 하면 되죠 특정 년도, 특정 인물이 주제라면 통계 문제가 아녜요