If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:11:36

동영상 대본

지오바나는 평소에 B 버스로 출근하는데 이제 A 버스로 출근하는 것이 더 빠르다고 생각합니다 지오바나는 일하는 날 50일을 임의로 실험군과 대립가설으로 나눴습니다 지오바나는 일하는 날 50일을 임의로 실험군과 대립가설으로 나눴습니다 실험군인 날에는 A 버스를 탔고 대립가설인 날에는 B 버스를 탔습니다 지오바나는 매일 걸리는 시간을 쟀습니다 흥미롭네요 50일을 임의로 섞었기 때문입니다 이는 일어나서 어떤 버스를 탈 건지 정하는 것과는 다릅니다 이는 일어나서 어떤 버스를 탈 건지 정하는 것과는 다릅니다 왜냐하면 사람은 임의성에 약하기 떄문입니다 우리가 임의라고 생각하는 것도 사실 임의가 아닐 때가 많습니다 우연히 A 버스를 통근 시간이 짧을 때 많이 탔을 수도 있고 우연히 A 버스를 통근 시간이 짧을 때 많이 탔을 수도 있고 A 버스를 날씨가 더 좋거나 신호가 좋을 때 탔을 수도 있습니다 A 버스를 날씨가 더 좋거나 신호가 좋을 때 탔을 수도 있습니다 인간에게는 자기가 세운 명제를 항상 맞다고 주장하는 본능이 있다는 것을 명심해야 합니다 그래서 지오바나는 버스 A가 더욱 빨랐다고 느껴서 아마도 자신의 주장을 확고히 하는 자료만 뽑을 수도 있죠 아마도 자신의 주장을 확고히 하는 자료만 뽑을 수도 있죠 50일을 임의로 섞는 것은 매우 중요합니다 제가 상상하는 것은 지오바나가 각 날을 종이에 적어서 50개의 종이를 모두 뒤집은 다음에 눈을 감은 채 책상에서 섞고 눈을 감은 채 책상에서 섞고 눈을 감은 채 임의로 왼쪽이나 오른쪽으로 종이들을 옮길 것입니다 이 때 왼쪽에 있는 종이에 적힌 날들에는 A 버스를 타고 오른쪽에는 동일하게 B 버스를 타는 것이죠 그렇게 하면 임의로 고른 것임을 확신할 수 있습니다 그 다음에 이 부분이 중요합니다 이 실험에서 A 버스로 걸리는 시간의 중앙값은 B 버스로 걸리는 시간의 중앙값보다 8분 적었습니다 B 버스로 걸리는 시간의 중앙값보다 8분 적었습니다 이렇게 말할 수도 있습니다 실험군의 중앙값에서 대립가설의 중앙값을 빼면 얼마가 나오냐고요 실험군이 대립가설보다 8분 적었습니다 실험군이 대립가설보다 8분 적었습니다 이 부분이 A이고, 이게 B이니까 A가 B보다 8분 적다면 이 값은 -8이 됩니다 밑줄 그어 놓은 부분을 다른 말로 쓴 것뿐입니다 밑줄 그어 놓은 부분을 다른 말로 쓴 것뿐입니다 차 소리가 나는데 못 들으셨길 바랍니다 소리가 나든 간에 이곳에 집중하겠습니다 결과가 우연에 의해 설명될 수 있는지 확인하기 위해서 지오바나는 1000개의 재 임의화한 자료의 결과를 정리해 다음과 같은 표를 만들었습니다 중앙값간 차를 5분에서 반올림합니다 중앙값간 차를 5분에서 반올림합니다 무슨 일이 일어난 걸까요? 지오바나는 원하는 결과를 얻었습니다 자료는 A 버스가 더 빠름을 증명하고 있는 것 같은데 자료는 A 버스가 더 빠름을 증명하고 있는 것 같은데 재 임의화는 무엇일까요? 재 임의화는 무엇일까요? 지금 가장 중요한 부분은 제가 밑줄 친 부분을 우연히 얻었을 수도 있다는 것입니다 제가 밑줄 친 부분을 우연히 얻었을 수도 있다는 것입니다 실제로는 A와 B의 차이가 별로 없을 가능성도 있습니다 실제로는 A와 B의 차이가 별로 없을 가능성도 있습니다 단지 우연히 A 버스가 빠른 날만 골라 탔을 수도 있죠 단지 우연히 A 버스가 빠른 날만 골라 탔을 수도 있죠 B 버스가 더 빠를 수도 있습니다 A 버스가 더 빨랐을 때만 골랏던 것일 수도 있죠 그 날의 교통체증이 적었던 것일 뿐일 수도 있습니다 여기서는 자료를 재 임의화 해 1000개의 재 임의화 한 자료에서 여기서는 자료를 재 임의화 해 1000개의 재 임의화 한 자료에서 여기서는 자료를 재 임의화 해 1000개의 재 임의화 한 자료에서 몇 개가 이런 경우인지 A가 8분 이상 빠른 경우인지 확인합니다 A의 중앙값이 B의 중앙값보다 8분 이상 적은 경우이죠 A의 중앙값이 B의 중앙값보다 8분 이상 적은 경우이죠 A의 중앙값이 B의 중앙값보다 8분 이상 적은 경우이죠 8분이 아니라 9분, 10분 심지어는 15분도 고려해야 하는 대상입니다 이 값들이 A 버스가 빠르다는 가설을 뒷받침해주는 존재입니다 이 값들이 A 버스가 빠르다는 가설을 뒷받침해주는 존재입니다 그럼 표를 한 번 봅시다 사실 오른쪽에 있습니다 지오바나가 모은 것을 한 번 봅시다 모든 정보를 한 번에 흡수하면 헷갈릴 수도 있어요 모든 정보를 한 번에 흡수하면 헷갈릴 수도 있어요 실험을 해보니 실험을 해보니 지금 밖에서 들리는 차 소리는 안 들리길 바라겠지만 사실 아주 좋은 느낌의 소리입니다 마치 새 소리 같기도 합니다 뭐 어쨋든 지오바나가 한 실험은 이렇습니다 A 버스를 25일 B 버스를 25일 타고 시간을 모두 측정하여서 각 열에 측정점이 25개 있습니다 여기 12분, 20분 25분 등이 있다고 가정합시다 이렇게 측정점이 25개 있습니다 20보다 작은 측정점이 12개이고 20보다 큰 측정점이 12개라고 가정합시다 이때 A의 중앙값은 20분이 될 것입니다 이때 A의 중앙값은 20분이 될 것입니다 그래서 이 값이 B보다 8분 적으려면 B의 중앙값은 28이 될 것입니다 여기에도 측정점이 있을 것입니다 이건 18이라 하고 28보다 작은 지점이 12개 28보다 큰 지점이 12개 있을 것입니다 그러니까 지어낸 자료의 중앙값은 28이 될 것입니다 그러니까 지어낸 자료의 중앙값은 28이 될 것입니다 실험군의 중앙값을 줄여서 TGM이라고 적겠습니다 TGM에서 대립가설 중앙값 CGM을 빼면 얼마일까요? 20 - 28은 -8입니다 이 값은 실험의 결과를 가상으로 지어내 본 것입니다 이 값은 실험의 결과를 가상으로 지어내 본 것입니다 이 값은 실험의 결과를 가상으로 지어내 본 것입니다 여기 이것은 무엇일까요? 지오바나는 이 시간들을 보고 이 중 아무 임의의 결과를 얻을 수 있는 세상을 생각하고 이 중 아무 임의의 결과를 얻을 수 있는 세상을 생각하고 A와 B를 서로 1000번씩 재분배 한 것입니다 A와 B를 서로 1000번씩 재분배 한 것입니다 1번째, 2번째, 3번째 ... 지오바나는 이걸 1000번 합니다 아마도 컴퓨터 프로그램을 사용했겠네요 한 번 할 때마다 가지고 있는 자료를 한 번 할 때마다 가지고 있는 자료를 모두 섞는 것입니다 A에는 18, 25, 30이 들어갔다고 해 보죠 18, 25, 30이 들어갔다고 해 보죠 18, 25, 30이 들어갔다고 해 보죠 18, 25, 30이 들어갔다고 해 보죠 그리고 B는 점으로 나타낸 자료도 섞었다고 가정합니다 그리고 B는 18, 25, 30은 썼으니까 12, 20, 28이라고 해 볼게요 그리고 이것을 계속 반복하는 것입니다 그리고 이것을 계속 반복하는 것입니다 이 경우에 실험군 중앙값과 대립가설 중앙값의 차는 얼마일까요? 이건 5가 될 것입니다 여기 재 임의화한 가상의 경우엔 A 버스의 중앙값은 B 버스보다 5분 깁니다 A 버스의 중앙값은 B 버스보다 5분 깁니다 이 결과를 표에서 나타내면 이 결과를 표에서 나타내면 여기에 행을 추가해 5를 넣고 이곳에는 1이라고 씁니다 이곳에는 1이라고 씁니다 지오바나가 모은 자료가 정말로 이랬을 수도 있고 2의 배수로 묶어서 나타내었을 수도 있습니다 그리고 이런 결과를 또 얻었다면 여기에 2라고 썼을 것입니다 재 임의화한 경우 중 값의 차가 5분 이상인 경우는 몇 가지냐고 묻는다면 재 임의화한 경우 중 값의 차가 5분 이상인 경우는 몇 가지냐고 묻는다면 재 임의화한 경우 중 값의 차가 5분 이상인 경우는 몇 가지냐고 묻는다면 재 임의화한 경우 중 값의 차가 5분 이상인 경우는 몇 가지냐고 묻는다면 이걸 봅시다 예를 들어 이것은 임의로 자료를 섞은 1000번 중 18번에서 임의로 자료를 섞은 1000번 중 18번에서 실험군이 대립가설보다 10분 길다는 결과가 나타났다는 뜻입니다 실험군이 대립가설보다 10분 길다는 결과가 나타났다는 뜻입니다 A 버스의 중앙값이, 그러니까 이 재 임의화한 가상의 경우에서 실험군의 중앙값이 10분 느렸다는 뜻이죠 159개의 경우에서는 다시 한번 말하지만 이것은 실제 자료가 아니라 재 임의화한 자료입니다 다시 한번 말하지만 이것은 실제 자료가 아니라 재 임의화한 자료입니다 여기는 실험군이 대립가설보다 4분 느린 경우가 159개라고 나타냅니다 이렇게 하는 이유는 이런 결과나 이보다 더 좋은 결과가 나오는 확률을 계산하기 위함입니다 이런 결과나 이보다 더 좋은 결과가 나오는 확률을 계산하기 위함입니다 더 좋은 경우라고 하면 실험군이 대립가설보다 빠르다는 가설을 뒷받침하는 경우입니다 실험군이 대립가설보다 빠르다는 가설을 뒷받침하는 경우입니다 이 경우는 여기에 나타나 있고 그보다 더 빨랐던 경우는 여기 또 있습니다 그보다 더 빨랐던 경우는 여기 또 있습니다 여기서는 실험군의 중앙값이 대립가설의 중앙값보다 10 작습니다 10이 작다는 것을 알 수 있습니다 이런 경우는 1000번 중 몇 번 발생했을까요? 이런 경우는 1000번 중 몇 번 발생했을까요? 이건 85번 발생하고 이 부분은 8번 발생합니다 이걸 더하면 1000번의 재 임의화 중에서 93번이 나온 것이고 이걸 더하면 1000번의 재 임의화 중에서 93번이 나온 것이고 이걸 백분율로 설명하면 9.3%이라고 할 수 있습니다 1000번의 재 임의화한 자료 중에서 실험에서 얻은 자료 이상으로 가설을 지지하는 자료가 9.3%라는 뜻입니다 실험에서 얻은 자료 이상으로 가설을 지지하는 자료가 9.3%라는 뜻입니다 실험에서 얻은 자료 이상으로 가설을 지지하는 자료가 9.3%라는 뜻입니다 이렇게 생각해 볼 수 있습니다 실험에서 얻은 실제 결과나 그보다 좋은 결과를 우연히 얻을 확률이 실험에서 얻은 실제 결과나 그보다 좋은 결과를 우연히 얻을 확률이 9.3%라는 것입니다 이건 적은 값이고 순전히 우연이라고 하기에는 매우 적은 확률입니다 이제 기준이 무엇인지 궁금할 것입니다 만약 확률이 50%였다면 실제로 일어날 수 있다고 느낄 것입니다 만약 25%라면 비록 확률이 적어도 언젠가는 일어날 수 있다고 생각할 것입니다 9.3%라면 이건 거의 10%이고 이런 실험을 또 진행하는 10명마다 임의로 한 명이 이런 결과를 얻죠 이런 실험을 또 진행하는 10명마다 임의로 한 명이 이런 결과를 얻죠 보통 통게학자들은 한계점을 정합니다 보통 통계학에서는 5%라는 수치를 사용합니다 보통 통계학에서는 5%라는 수치를 사용합니다 이 결과를 우연히 얻을 확률 이 결과를 우연히 얻을 확률 이 결과 이상으로 가설을 지지하는 결과를 우연히 얻을 확률이 이 결과 이상으로 가설을 지지하는 결과를 우연히 얻을 확률이 9.3%입니다 만약 한계점을 5%라 한다면 이제 이건 5% 이하여야 하고 통계학적 유의성이 없다고 말할 수 있습니다 이 결과를 순전히 우연에 의해 얻을 확률이 5%이니까요 이 결과를 순전히 우연에 의해 얻을 확률이 5%이니까요 이건 그저 한계점에 의해 결정되는 것입니다 이건 그저 한계점에 의해 결정되는 것입니다 이건 그저 한계점에 의해 결정되는 것입니다 다시 문제로 돌아가죠 이미 답이 나온 것 같은데 시뮬레이션에 따르면 실험군의 중앙값이 시뮬레이션에 따르면 실험군의 중앙값이 대립가설의 중앙값보다 8분 이상으로 적을 확률은 무엇인가요? 대립가설의 중앙값보다 8분 이상으로 적을 확률은 무엇인가요? 여기서 8분 이상 적은 것은 -8과 -10입니다 그것은 방금 1000개 중에서 93개의 재 임의화라고 구했고 9.3%입니다 통계학적 유의성을 5%라고 정하면 기준에 적합하지 않으니까 아마도 이 결과는 통계학적 유의성이 충분하지 않을 것입니다 아마도 이 결과는 통계학적 유의성이 충분하지 않을 것입니다