If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

통계학적 질문

어떤 점이 질문을 "통계학적 질문"으로 만드나요?

동영상 대본

우리가 통계의 세계를 탐구하기 전에 먼저 통계의 뜻을 알 필요가 있습니다 통계란 여러분이 데이터를 가지고 할 수 있는 수많은 일들을 넓게 포괄합니다 통계는 일반적으로 데이터를 다루는데요, 다시 말해 데이터를 수집하는 일, 데이터를 표나 차트 또는 리스트로 표현하는 일 데이터를 분석하는 일 등 데이터를 통해 질문에 대답하기 위해 하는 모든 일입니다 상황을 이해하거나 세상을 이해하려고 할 때 이런 일들을 하는데 우리는 이걸 통계라고 부릅니다 통계에서 아주 자주 만나게 되는 개념 중 하나는 변동성입니다 쉬운 말로 하면 변동성은 '어떤 것이 얼마나 변화하는가'입니다 통계에서 변동성은 데이터 값이 서로에게서 얼마나 떨어져 있는가, 서로 다른가 입니다 구체적으로 이해하기 위해 예를 들어 보겠습니다 다섯 사람에게 어제 벽돌 몇 개를 먹었냐고 물어본다고 합시다 다섯 명 모두 0 이라고 대답합니다 좋습니다 이것들이 데이터 값들입니다 이미 저는 데이터를 수집함으로써 통계 작업을 하고 있습니다 그리고는 다시 다섯 사람에게 어제 포도 몇 개를 먹었냐고 묻습니다 첫 사람은 0, 둘 째 사람은 포도를 먹고 산다며 255, 셋째는 포도를 좋아한다며 17, 넷째는 5, 다섯 째 사람도 포도만 먹고 산다며 둘 째 사람보다 더 많은 318개를 먹었다고 대답합니다 이제 이 두 데이터 집합을 보면 하나는 어제 먹은 벽돌 수, 또 하나는 어제 먹은 포도 수 입니다 여러분은 금방 여기 포도 수에 더 많은 변동성이 있다는 걸 알겠죠 여기 데이터 값들은 모두 0인데 반해 이 아래 데이터 값들은 상당히 다릅니다 그래서 포도 수 데이터 집합에 더 많은 변동성이 있다는 것을 알 수 있죠 이제 통계에서 우리가 아주 자주 할 것이 데이터 집합에 도대체 얼마나 많은 변동성이 있는지 계산하는 겁니다 어떻게 변동성을 정량화할 것인가 어떻게 숫자로 표현할 것인가 어떻게 변동성을 잴 것인가 이건 통계에서 매우 큰 비중을 차지하는 주제입니다 이 동영상에서 하지는 않고 나중에 하겠습니다 통계의 세계로 들어갈 때에 제일 먼저 할 것이 언제 통계를 써야 하냐는 겁니다 우리가 가진 통계적인 도구들을 써서요 즉 데이터를 모으고 변동성을 측정하며 변동성을 가진 데이터 집합에서 대표값을 찾아내는 등을 생각하는 것 말이죠 그래서 우리가 해야 할 질문은 도대체 어떤 것이 통계적인 질문인가 하는 것입니다 통계적인 질문.... 통계적인 질문의 정의부터 생각해 봅시다 통계적인 도구들을 동원해야 하는 질문들 말입니다 언제 통계적인 도구들을 동원해햐 하느냐에 대한 한 가지 접근 방법은 이 질문에 대답하기 위해서는 변동성이 있는 데이터를 먼저 수집해야 한다는 겁니다 제 손글씨가 엉망이어서 죄송합니다 변동성이 있는 데이터..... (다시 쓰면서) 여러분은 저에게 이제 이렇게 말할 겁니다 알겠어요... 하지만 무엇이 통계적인 질문이고 무엇이 아닌지 알기 위해 구체적인 예들이 필요합니다 좋습니다. 예를 몇 개 들어 봅시다 여기 6개의 질문이 있습니다 지금 이 동영상을 멈추시고 제가 이걸 풀기 전에 한 번 보세요 여기 통계적인 질문의 정의에 의한다면 이 중 통계적인 도구들을 사용해야 하는 통계적인 질문은 어떤 것이고 아닌 것은 어떤 것일까요? 여러분이 한 번 훑어보았다고 생각하고 하나씩 살펴보기로 하겠습니다 첫 번 째 질문 내 애완 자몽의 무게는 얼마인가? 애완용 자몽을 갖고 있다는 게 기이하긴 하지만 어쨌든 이건 통계적 질문인가요? 질문에 대답하기 위해서는 애완용 자몽을 가져다가 무게를 재 봐야죠 그리고 무게를 기록해야죠 그렇게 함으로써 데이터를 수집하는 것이고요 그럼으로써 이제 약간 통계를 시작하고 있다고 말할 수도 있겠어요 하지만 제가 얻은 것은 데이터 값 하나죠 무게를 재고 자몽의 무게가 1파운드라고 적을 수 있겠지만 그건 변동성이 있는 데이터가 아니죠 그냥 데이터 값 하나입니다 변동성이 있으려면 데이터 값이 여럿 있어야 합니다 그래야 최소한 변동이 있을 가능성이 있어요 예를 들어 이 위에 벽돌 데이터를 보면 모두 0이지만 그래도 한 사람이라도 벽돌을 먹었을 가능성이라도 있죠 하지만 데이터 값이 하나이면 변동성은 있을 수가 없습니다 따라서 이것은 통계적 질문이 아니예요 그냥 데이터 값 하나만을 얻었죠 다음 질문... 월요일 아침 주차장에 있는 차 대수의 평균은? 통계적인 질문인지를 판단하려면 그 질문에 대답하기 위해 뭘 해야 하는지 생각해 보세요 여러 번의 월요일 아침에 주차장에 나가 자동차 대수를 세야 하겠죠 첫 째 월요일 아침에는 50대 다음 주 월요일 아침에는 49대 그 다음 주 월요일 아침에는 다시 50대 그 다음 주는 63대 저는 지금 이 질문에 대답하기 위해 여러 개의 데이터 값을 모으고 있는데요 나중에 평균을 내야겠지만 질문에 대답하려고 여러 데이터 값을 얻었어요 그러면 여기에 확실히 변동성이 있을 가능성이 생깁니다 따라서 이 질문은 통계적 질문이예요 다음 질문....나는 배고픈가? 여러 번 스스로에게 묻게 되는 중요한 질문이죠 사실 때로는 우리 몸이 우리에게 묻지요 하지만 이 경우 저는 데이터를 수집하지 않습니다 여러분은 제가 어떤 느낌들을 수집할 수 있다고 할 수도 있겠죠 예를 들면 위장의 느낌이라든가 몸에 힘이 없다든가 등 하지만 이것들은 변동성이 있는 데이터가 아닙니다 어떤 날 제가 배가 고픈지 안고픈지 매일 제 배고픔이 어떻게 변하는지 어떤 척도를 만들어서 재 볼 수 있다고 하면 그건 좀 더 통계적이겠지만요 하지만 그냥 나는 배고픈가 하는 단답형 질문은 대답하기 위해서 데이터를 수집해야 하는 질문이 아니므로 통계적인 질문이 아닙니다 우리 엄마는 이가 몇 개인가? 이걸 대답하려면 일단 우리 엄마한테 가서 입을 좀 열어보라고 하고 입 안에 이가 몇 개인지 세어야 하겠죠 어쩌면 30과 같은 숫자를 얻겠죠 이건 아까 보았던 내 애완 자몽은 무게가 얼마인가와 비슷한 경우예요 데이터 값 하나를 얻겠지만 하나로는 변동성이 없어요 변동성이 있는 데이터를 수집해야 하는 것이 아니라서 이것도 통계적 질문이 아닙니다 그런데 만일 제가 아는 모든 어머니들의 이 개수의 평균은 무엇인가 라거나 그 개수의 범위를 묻는다며는 그건 통계적 질문들일 겁니다 하지만 이건 데이터 값 하나라서 통계적이 아닙니다 제 가족 구성원들이 매년 먹는데 쓰는 시간은 얼마인가? 자 다시 한 번, 이 질문에 대답하기 위해 해야 하는 것이 무엇인가요? 아마도 가족들에게 가서 물어보거나 관찰해야겠죠 우리 엄마, 아내, 아이들, 삼촌, 고모, 누구든요 하루에 얼마나 먹는데 시간을 쓰느냐 묻고 다 더해서 일 년이면 얼마가 되는지 계산합니다 예를 들어 A는 매년 813시간이고 B는 매년 732시간..... 여러분은 지금 제가 다른 가족 구성원으로부터 여러 데이터 값을 얻고 있다는 걸 대강 알겠죠 그리고 이 값들은 변동성이 있을 가능성이 매우 높습니다 심지어는 같은 사람에게서도 해마다 다른 값을 볼 가능성이 있습니다 A는 올해 먹는 데 쓰는 시간이 내년에 쓰는 시간과 또 다를 수 있겠죠 따라서 이 질문에 대답하기 위해서는 저는 변동성이 있는 데이터를 모으게 됩니다 그러므로 통계적인 질문입니다 마직막 질문은... 나는 지금까지 몇 번이나 스타워즈 영화를 보았는가? 이건 우리 엄마 이 갯수 질문하고 아주 비슷하군요 혹은 내 애완 자몽의 무게 질문하고도요 그냥 제가 본 횟수를 세면 됩니다 아마 일곱 번쯤 될 겁니다 데이타 값 하나죠 변동성이 전혀 없습니다 만일 질문이 제 동료들은 스타워즈 영화를 평균 몇 번 보았는가 였다면 그럼 저는 변동성이 있는 데이터를 모으게 될 겁니다 여러 개의 데이터 값을 얻을 것이고 제 동료들이 본 횟수는 거의 확실히 다 다를 겁니다 하지만 여기 이 질문을 대답할 때는 데이터 값 하나면 충분합니다 스타워즈 영화를 몇 번이나 보았냐고요? 일곱 번이라고 대답하겠죠 통계적인 질문이 아닙니다 자 그래서 여러분은 통계가 무엇인지 그리고 변동성이 무엇인지 통계적인 질문은 무엇인지 감을 얻었기를 바랍니다