If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

통계 연구의 종류

통계 연구의 종류.

동영상 대본

통계연구에는 크게 어떤 종류가 있는지 알아봅시다 통계연구에는 크게 어떤 종류가 있는지 알아봅시다 우선 표본연구가 있습니다 이미 여러 개의 동영상에서 이 얘기를 하긴 했지만 이 동영상에서도 다시 짚고 넘어가겠습니다 관측연구도 있습니다 혹은 실험을 할 수도 있습니다 각각에 대해 알아봅시다 항상 이 동영상을 일시정지 해놓고 이 단어들이 무엇을 의미하는지 혹은 이미 알고 있는 것은 무엇인지 생각해보시기 바랍니다 혹은 이미 알고 있는 것은 무엇인지 생각해보시기 바랍니다 표본연구는 이미 알아 보았습니다 이는 어떤 모집단에 대한 모수의 값을 어림하고자 하는 경우입니다 이는 어떤 모집단에 대한 모수의 값을 어림하고자 하는 경우입니다 이것의 예시로는 무엇이 있을까요? 어떤 도시의 시민들로 이루어진 모집단이 있다고 합시다 사람이 몇 십만 명이 될 수도 있을 것입니다 그리고 구하고자 하는 모수는 이 사람들이 평균적으로 컴퓨터를 얼마나 오래 사용하냐 하는 것입니다 이 모수는 모집단 전체에 대한 것입니다 만약 가능했다면 도시에 백만 명이 있다고 하면 만약 가능했다면, 도시에 백만 명이 있다고 하면 여러분은 그 백만 명 모두에게 컴퓨터를 얼마나 오래 사용하는지 물을 것입니다 그러면 평균을 얻을 수 있고 그것이 모수가 될 것입니다 그러면 평균을 얻을 수 있고 그것이 모수가 될 것입니다 모집단의 모수는 일일 평균 컴퓨터 사용시간입니다 일일 평균 컴퓨터 사용시간입니다 모든 사람에게 물어보는 것은 비효율적입니다 모든 사람에게 물어보는 것은 비효율적입니다 그러므로 모집단의 모수, 즉 일일 평균 컴퓨터 사용시간을 정확하게 알아낼 수는 없습니다 대신에 표본연구를 합니다 임의로 표본을 추출합니다 이때 정말 임의로 표본을 추출하고 있는지 잘 생각해보아야 됩니다 표본을 임의로 추출해야 되는데 임의의 표본추출에는 여러 가지 방법이 있습니다 모집단에서 사람들을 임의로 추출한 후 그 표본으로부터 일일 컴퓨터 사용시간의 평균을 얻습니다 이것은 모집단의 모수에 대한 어림값이 됩니다 이것이 전형적인 표본연구의 예시입니다 관찰연구에서는 모수를 어림하는 것이 목적이 아닙니다 한 모집단 내의 두 변수들이 서로 상관관계가 있는지 알아내는 것이 목적입니다 이제 여러분의 모집단이 이제 여러분의 모집단이 1,000명으로 이루어져 있다고 합시다 그리고 여러분은 일일 평균 컴퓨터 사용시간이 사람들의 혈압과 어떤 관련을 가지고 있는지 알아보고자 합니다 평균 컴퓨터 사용시간 아, 이렇게 적으면 안 됩니다 평균 컴퓨터 사용시간 대신 그냥 컴퓨터 사용시간이 되어야 합니다 컴퓨터 사용시간 대 혈압 여러분은 1,000명 모두에게 설문조사를 시켜서 그들의 컴퓨터 사용시간과 혈압을 조사합니다 어떤 방식으로 던 이를 측정해서 모든 값을 도표에 표시한 후 자료를 보고 그 두 변수가 서로 상관관계를 가지고 있는지 확인합니다 이것이 무슨 말일까요? 그려보겠습니다 이 축이 컴퓨터 사용시간이고 이 축이 혈압이라고 합시다 이 축이 혈압이라고 합시다 어떤 사람은 컴퓨터를 많이 사용하지 않고 어떤 사람은 컴퓨터를 많이 사용하지 않고 비교적 낮은 혈압을 가지고 있다 합시다 다른 사람은 컴퓨터를 많이 사용하고 높은 혈압을 가지고 있습니다 컴퓨터를 많이 사용하지 않지만 비교적 높은 혈압을 가지고 있는 사람도 있을 수 있습니다 이것을 계속하다 보면 1,000명 모두에 대한 측정값을 얻게 됩니다 제가 여기서 점 1,000개를 찍지는 않을 것이지만요 여기에 분명 이상점들이 있기는 하지만 여기에 분명 이상점들이 있기는 하지만 이 두 가지 변수 사이에 상관관계가 존재함을 볼 수 있습니다 대체적으로 보면, 컴퓨터를 많이 할수록 혈압이 높거나 혹은 혈압이 높을수록 컴퓨터를 많이 하는 것으로 보입니다 그러므로 여기서 이 두 변수의 상관관계에 대해 결론을 지을 수 있습니다 이 둘은 양의 상관관계를 가지고 있습니다 이 둘은 양의 상관관계를 가지고 있습니다 연구를 제대로 진행했다면 타당한 결론은 더 많은 컴퓨터 사용시간이 더 높은 혈압과 연관이 있다는 것 혹은 더 높은 혈압이 더 많은 컴퓨터 사용시간과 연관이 있다는 것을 알 수 있습니다 이러한 관찰연구를 진행할 때나 관찰연구의 결과를 분석할 때 혹은 다른 사람의 관찰연구 결과를 볼 때 이것을 보고 컴퓨터 사용시간이 혈압 증가의 원인이 된다고 해석하지 않는 것이 매우 중요합니다 왜냐면 이것은 인과관계를 보여주고 있지 않기 때문입니다 또한 혈압이 사람들의 컴퓨터 사용시간 증가의 원인이 된다고 또한 혈압이 사람들의 컴퓨터 사용시간 증가의 원인이 된다고 말할 수 없습니다 이것은 더 말이 안되긴 하지만 근본적으로는 같은 말입니다 여기서 나타나는 것은 서로 상관관계가 있다는 것 뿐입니다 이 두 변수는 함께 움직입니다 하지만 인과관계에 대한 결론을 내릴 수는 없습니다 컴퓨터 사용시간이 혈압 증가를 일으키거나 높은 혈압이 컴퓨터 사용시간 증가를 일으킨다고 말할 수 없습니다 왜 그럴까요? 혼재변수, 혹은 잠복변수라고 불리는 것이 있을 수 있습니다 혼재변수, 혹은 잠복변수라고 불리는 것이 있을 수 있습니다 예를 들어 이것이 컴퓨터 사용시간이고 그리고 이것이 혈압이라고 합시다 혈압 이 두 가지가 같이 움직이는 것처럼 보입니다 이 자료를 보면 말이죠 하지만 이 둘을 모두 조절하는 혼재변수가 존재할 수 있습니다 하지만 이 둘을 모두 조절하는 혼재변수가 존재할 수 있습니다 예를 들어 어떤 사람의 활동량이 될 수 있습니다 예를 들어 어떤 사람의 활동량이 될 수 있습니다 그러니까 단순히 활동량 부족이 이 두 가지에 모두 영향을 미칠 수도 있습니다 덜 활동적인 사람들이 컴퓨터 앞에서 더 많은 시간을 보내고 덜 활동적인 사람들이 컴퓨터 앞에서 더 많은 시간을 보내고 덜 활동적인 사람들이 높은 혈압을 가질 수 있습니다 그러므로 이것을 통제한다면 그러므로 이것을 통제한다면 만약 활동량 수준이 비슷한 사람들을 데리고 한다면 만약 활동량 수준이 비슷한 사람들을 데리고 한다면 컴퓨터 사용시간이 혈압과 연관성이 없는 것으로 나타날 수도 있습니다 이 두 가지가 그냥 같은 원인을 가지고 있고 여기서 보이는 것은 실제로 활동적이지 않은 사람들에게 이 두 가지가 높다는 것입니다 그러므로 관찰 연구를 할 때는 잘 하면 상관관계를 얻을 수 있고 이로부터 인과관계에 대한 그럴듯한 가설을 얻을 수도 있지만 이것이 인과관계를 증명해주지는 않습니다 혼재변수가 존재할 수 있기 때문입니다 실험은 과학적 방법의 기반입니다 실험은 과학적 방법의 기반입니다 실험의 목적은 인과관계를 확립하는 것입니다 만약 여러분이 실험을 하고 싶다면 만약 여러분이 실험을 하고 싶다면 1,000명을 대상으로 하기는 힘들 것입니다 1,000명을 대상으로 하기는 힘들 것입니다 실험은 어떻게 보면 이 모든 방법들 중에 가장 하기 어렵습니다 실험은 어떻게 보면 이 모든 방법들 중에 가장 하기 어렵습니다 어쩌면 100명을 가지고 하고 혼재변수가 여러분의 실험에 오류를 일으키는 것을 방지하기 위해 이 100명을 임의로 두 개의 그룹에 배정합니다 이들이 임의로 배정되는 것이 매우 중요합니다 이들이 임의로 배정되는 것이 매우 중요합니다 이것의 장점은 혼재변수가 무엇이 있는지 모두 알 수는 없지만 각 그룹에 활동량이 부족한 사람이 비슷하게 들어가 있거나 각 그룹의 활동량 평균이 비슷할 가능성이 높아집니다 임의로 배정하면 한 그룹이 다른 그룹보다 활동량 수준이 현저히 높을 가능성이 낮아집니다 다음에 해야 될 일은 대조군과 실험군을 배정하는 것입니다 이것도 임의로 배정합니다 대조군과 실험군이 있습니다 그리고 예를 들어 대조군에 있는 사람들에게 주어진 시간 동안 컴퓨터를 최대 30분만 사용할 수 있다고 말합니다 혹은 진짜 그러고 싶다면 컴퓨터를 정확히 30분 사용해야 된다고 말합니다 이것은 조금 비현실적일 수 있겠습니다 그리고 실험군에게는 컴퓨터를 정확히 2시간 사용해야 한다고 말합니다 이 숫자들은 지금 막 지어내고 있습니다 그리고 다음과 같은 현상이 있으면 좋을 것입니다 실험을 시작하기 전에 사람들의 혈압이 어땠는지 보면 평균이 비슷합니다 실험을 시작하고 시간이 좀 지난 후에 혈압을 측정합니다 시간이 좀 지난 후에 혈압을 측정합니다 이때 이 그룹이 분명하게 더 높은 혈압을 가지고 있다는 분명하게 더 높은 혈압을 가지고 있다는 결과가 나오면 좋을 것입니다 다시 한 번 말하지만 이는 우연한 결과일 수도 있습니다 다시 한 번 말하지만 이는 우연한 결과일 수도 있습니다 어쩌다가 거기에 넣은 사람들의 특성 때문에 나온 결과일 수도 있긴 하지만 충분히 큰 규모의 실험을 잘 진행했다면 이것을 보고 여기에 인과관계가 있다는 생각을 할 수 있습니다 사람들에게 컴퓨터를 더 많이 사용하게 하는 것이 사람들에게 컴퓨터를 더 많이 사용하게 하는 것이 실제로 혈압을 올린다고 말이죠 다시 한 번 표본연구는 모집단의 모수를 예측합니다 관찰연구는 두 가지 사이에 상관관계가 있는지를 봅니다 주의할 점은 인과관계가 성립한다고 하지 않는 것입니다 주의할 점은 인과관계가 성립한다고 하지 않는 것입니다 혼재변수가 존재할 수 있기 때문입니다 실험은 인과관계의 입증이 목적입니다 실험은 인과관계의 입증이 목적입니다 임의로 대조군과 실험군으로 나누어 진행하게 됩니다 이들은 확률적으로 고르게 분산될 것입니다 고르지 않을 가능성도 있긴 하지만 혼재변수를 분산하고 각각의 그룹이 특정 변수를 얼마나 갖는지를 조절해서 그것이 다른 변수를 조절하는지를 봅니다 다음 두 개의 동영상에서는 표본연구의 종류를 구별하는 예제를 풀어보고 표본연구의 종류를 구별하는 예제를 풀어보고 어떤 결론을 내릴 수 있는지 생각해보고 통계연구의 종류를 구별해보고 어떤 결론을 내릴 수 있는지 생각해보는 시간을 갖겠습니다