이 메시지는 외부 자료를 칸아카데미에 로딩하는 데 문제가 있는 경우에 표시됩니다.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

주요 내용

설문 조사의 편향성 예제

설문 조사의 편향성 예제.

동영상 대본

데이비드는 팟캐스트 방송을 하는데 청취자들이 자신의 방송을 얼마나 좋아하는지 궁금해합니다 데이비드는 온라인 여론조사를 하기로 합니다 청취자들에게 자신의 웹사이트에 방문해서 여론조사에 참여해달라고 부탁합니다 여론조사 결과에 따르면 200명의 응답자 중 89%가 그의 방송을 "매우 좋아한다"고 답하였습니다 이 시나리오에서 편향된 결과를 유발할 수 있는 가장 큰 요인은 무엇일까요? 언제나처럼 이 동영상을 일시정지 해놓고 스스로 답을 알아낼 수 있는지 본 다음 함께 풀어 봅시다 어떤 일이 일어나고 있는지 생각해 봅시다 청취자가 이만큼 있죠? 청취자의 수는 200명보다 많다고 가정하겠습니다 데이비드는 표본을 얻으려고 하는데 청취자 모두에게 물어볼 수는 없다고 합니다 문제에 쓰여있지는 않았지만 여기에 청취자가 10,000명 있다고 가정합시다 여기에 청취자가 10,000명 있다고 가정합시다 몇 퍼센트가 자신의 방송을 좋아하는지 알아보려 하는데 몇 퍼센트가 자신의 방송을 좋아하는지 알아보려 하는데 그러려면 표본이 필요합니다 하지만 완전히 무작위한 표본을 추출하는 대신 설문조사에 참여해 달라고 부탁을 했습니다 청취자들이 자신의 웹사이트에 방문하도록 했습니다 이것은 전형적인 자발적 표본추출입니다 이것은 무작위하지 않은데 누가 데이비드의 방송을 듣고 웹사이트에 방문하는지 심지어 누가 컴퓨터를 쓸 수 있는 환경에 있는지도 무작위하지 않기 때문입니다 실제로 이것을 할 확률이 높은 사람들은 이들은 이 10,000명 중의 사람들인데 이들이 여론조사를 하기로 결정한 200명의 응답자들입니다 이들은 이미 데이비드를 좋아하거나 데이비드가 하라는 것에 대해 말을 잘 듣는 사람들일 확률이 높습니다 데이비드를 그리 좋아하지 않는 청취자들이나 데이비드가 시키는 일을 하기 싫어하는 사람들은 자신이 데이비드를 별로 좋아하지 않고 데이비드가 시키는대로 하기 싫음에도 불구하고 웹사이트에 가서 그 여론조사를 해야겠다고 할 가능성이 낮습니다 그 여론조사를 해야겠다고 할 가능성이 낮습니다 혹은 그를 정말 싫어하는 사람들이 오히려 웹사이트에 가려 할 수도 있습니다 혹은 그를 정말 싫어하는 사람들이 오히려 웹사이트에 가려 할 수도 있습니다 하지만 이 경우에는 팬들이 데이비드의 말을 듣고 웹사이트에 가서 거기에서 시간을 보낼 가능성이 더 높다고 할 수 있겠습니다 이 때문에 89%는 아마 과장된 수치일 것입니다 89%라는 값은 그의 방송을 좋아하는 청취자 수에 대한 과장된 수치일 것입니다 왜냐하면 데이비드를 좋아하는 사람들이 여론조사에 참여할 가능성이 더 높기 때문입니다 여기에 나온 다른 종류의 편향을 봅시다 응답 편향은 여러분이 어떤 질문을 했을 때 사람들이 굳이 진실된 답변을 하고 싶어 하지 않는 경우 발생합니다 혹은 질문이 쓰인 방식이 어떤 사람이 편향된 답변을 하도록 유도하는 경우에도 생깁니다 이것에 대한 전형적인 예시는 다음과 같습니다 여러분은 저번 주에 부모님께 거짓말을 했나요? 혹은, 바람을 피운 적이 있나요? 또 다른 예로, 담배를 피우십니까? 이중 어느 질문에 대해서라도 답변을 완벽히 진실되게 하고 싶지 않아 하는 사람 다른 사람으로부터 사실을 숨기고 있는 사람 설문조사에 그렇게 진실되게 답변하고 싶지 않은 사람이 있을 수 있습니다 그래서 응답 편향을 얻게 됩니다 하지만 지금 상황은 이것이 아닙니다 미포함은 여러분이 표본추출하는 방식이 모집단 중 중요 지지층을 빠트렸을 때 발생합니다 자발적 표본추출에서 우리가 몇몇 중요한 지지층들 혹은 웹사이트에 들어가지 않는 사람들을 빠뜨렸을 가능성이 높기는 하지만 미포함은 주요 지지층의 누락이 발생하고 있다는 사실이 조금 더 명확한 경우를 의미합니다 다른 예시를 생각해 봅시다 이 다른 상황에서는 데이비드가 다시 설문조사를 하는데 팟캐스트 방송을 하고 있고 청취자들이 자신의 방송을 얼마나 좋아하는지 궁금해하는 것은 동일하지만 이번에는 다른 방식으로 표본을 추출하려 합니다 이번에는 청취자들 중 자신에게 팬 이메일을 보내는 선착순 100명을 대상으로 여론조사를 하기로 합니다 모든 사람이 응답하지는 않았지만 청취자 97명 중 94명이 그의 방송을 "매우 좋아한다"고 답하였습니다 이 시나리오에서 편향된 결과를 유발할 수 있는 가장 큰 요인은 무엇일까요? 이것은 전형적인 내 앞에 표본이 놓여 있으니까 이것은 전형적인 내 앞에 표본이 놓여 있으니까 이메일 수신함에 들어 있으니까 그것을 그냥 쓰겠다고 하는 상황입니다 이메일 수신함에 들어 있으니까 그것을 그냥 쓰겠다고 하는 상황입니다 이것은 전형적인 편의 표본입니다 이것은 문을 통과하는 선착순 100명을 표본으로 삼는 것과는 또 다릅니다 이것은 문을 통과하는 선착순 100명을 표본으로 삼는 것과는 또 다릅니다 저 경우에도 무작위 하지 않음을 주장할 수 있는 요소가 많긴 하지만 이 경우는 심지어 그에게 팬 이메일을 보낸 청취자 선착순 100명입니다 이 경우는 심지어 그에게 팬 이메일을 보낸 청취자 선착순 100명입니다 이것은 편의 표본추출이고 여러분이 편의상 사용한 표본은 여러분을 좋아하는 쪽으로 매우 치우쳐 있을 것입니다 그러므로 이번 경우에도 이것은 과장된 수치입니다 자신의 방송을 좋아하는 사람의 퍼센트를 너무 높게 어림하는 것입니다 무응답은 여러분이 어떤 사람들에게 설문조사를 하거나 질문지에 답해 달라고 부탁하였는데 어떠한 이유 때문에 일부 사람들이 응답하지 않은 경우를 의미합니다 그러면 여러분은 이렇게 생각할 것입니다 저 사람들은 대체 누구이며 혹시 그들이 중요한 말을 할 수도 있지 않을까요? 그리고 그들의 관점이 실제로 설문에 참여한 사람들의 의견만으로는 제대로 반영되지 않았을 수도 있지 않을까요? 여기에서도 무응답이 일어나고 있긴 합니다 자신에게 팬 이메일을 보낸 100명에게 방송을 좋아하는지에 대한 설문조사를 해달라고 요청했는데 97명이 응답했기 때문입니다 설문조사에 참여하지 않은 사람이 3명 있습니다 그러므로 무응답이 존재하기는 하며 그것이 편향을 유발할 수는 있지만 가장 영향력 있는 요인은 아닙니다 이 문제에서는 편향을 유발할 수 있는 가장 큰 요인을 고르라고 묻고 있고 편의 표본추출이 가장 큰 요인임이 분명합니다 응답하지 않은 3명이 있긴 하지만 그것은 그렇게까지 큰 영향력을 행사하지는 않습니다 자발적 표본추출 그가 저번 예제와는 다르게 사람들에게 여기 가서 설문조사를 해달라고 부탁하지 않았습니다 정정하겠습니다 여기에도 조금의 자발적 응답이 발생하기는 하는데 100명한테 가서 그들에게 응답을 해달라고 요청하는 과정에서 발생합니다 응답하기로 결정하는 사람이 97명 있기 때문입니다 하지만, 이 경우에도 이것이 편향을 유발할 수는 있으나 100명 중 대부분인 97명이 응답하였고 이 경우에도 가장 큰 요인은 편의 표본추출이며 이 경우에도 그가 편의상 사용하는 표본이 이 경우에도 그가 편의상 사용하는 표본이 그의 청취자 전체를 대표하기에는 꽤나 과장된 수치일 것입니다