If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

정규분포 정의 심화

정규분포 알아보기. 만든 이: 살만 칸 선생님

동영상 대본

정규분포는 통계학에서 가장 중요한 개념입니다 정규분포는 통계학에서 가장 중요한 개념입니다 자료에 기초한 추론을 하는 추론통계학에 관련된 거의 모든 것들이 자료에 기초한 추론을 하는 추론통계학에 관련된 거의 모든 것들이 자료에 기초한 추론을 하는 추론통계학에 관련된 거의 모든 것들이 어떤 면에서든 정규분포에 기초해있습니다 그래서 이 동영상에서는 스프레드시트를 통해서 정규분포에 대해 깊이 있게 알아보겠습니다 정규분포에 대해 깊이 있게 알아보겠습니다 그리고 살아가면서 정규분포를 가정하고 있다는 말을 들으면 그리고 살아가면서 정규분포를 가정하고 있다는 말을 들으면 그게 무엇인지, 공식은 어떤지 어떻게 사용하는지 알게 될 것입니다 그게 무엇인지, 공식은 어떤지 어떻게 사용하는지 알게 될 것입니다 그게 무엇인지, 공식은 어떤지 어떻게 사용하는지 알게 될 것입니다 이 스프레드시트는 다운로드 받을 수 있습니다 www.khanacademy.org/downloads에서는 다운로드 가능한 모든 자료를 볼 수 있고 www.khanacademy.org/downloads/normalintro.xls www.khanacademy.org/downloads/normalintro.xls 이 링크에서 이 시트를 바로 다운받을 수 있습니다 아마 맞는 표준으로 되어 있을 것입니다 여러분이 위키피디아에 정규분포라는 단어를 입력하거나 정규분포를 검색한다면 먼저 제 펜을 켜고요 이것을 보게 될 것입니다 이 수식은 위키피디아에서 복사해온 것입니다 겁먹을 만한 수식이죠 많은 그리스 문자들이 보이지만 여기있는 시그마는 분포의 표준편차입니다 이 차트를 가지고 그것이 무엇을 의미하는지 알아볼 것입니다 이 차트를 가지고 그것이 무엇을 의미하는지 알아볼 것입니다 표준편차가 일반적으로 무엇을 의미하는지는 알겠지만 이것은 확률밀도함수인 이 분포의 표준편차입니다 이것은 확률밀도함수인 이 분포의 표준편차입니다 그리고 확률밀도함수에 관한 영상을 다시 한번 보기를 권합니다 왜냐하면 이 동영상은 이산확률분포인 이항분포에서 더 나아가는 과정이기 때문입니다 이항분포에서 5가 나올 확률을 알고 싶다면 히스토그램이나 막대그래프에서 5를 찾아서 값을 읽으면 바로 확률을 알 수 있습니다 그러나 연속확률분포 또는 연속확률밀도함수에서는 그러나 연속확률분포 또는 연속확률밀도함수에서는 딱 5에서의 확률을 알 수는 없습니다 4.5에서 5.5 사이를 가질 수 있는 확률처럼 4.5에서 5.5 사이를 가질 수 있는 확률처럼 어떤 범위에서의 확률을 구할 수 있습니다 단순히 그래프의 함숫값을 읽는 것으로 확률을 구할 수 없다는 것입니다 확률은 이 곡선 아래의 넓이로 구할 수 있습니다 지금 색칠하고 있는 영역처럼 말이죠 미적분을 알고 있다면 확률밀도함수 p(x)가 미적분을 알고 있다면 확률밀도함수 p(x)가 항상 정규분포일 필요는 없다는 것을 알겠지만 거의 대부분 정규분포를 따르기 때문에 확률을 구하려면 예를 들어 4.5에서 5.5 사이의 확률을 구하려면 내일 4.5에서 5.5 인치 사이의 비가 올 확률 이라고 해보죠 내일 4.5에서 5.5 인치 사이의 비가 올 확률 이라고 해보죠 내일 4.5에서 5.5 인치 사이의 비가 올 확률 이라고 해보죠 그 확률은 4.5에서 5.5까지 이 확률밀도함수p(x)를 x에 대해 적분한 것과 같습니다 이 확률밀도함수p(x)를 x에 대해 적분한 것과 같습니다 이 넓이이죠 아직 미적분을 모른다면 미적분 재생목록에 있는 동영상을 보기를 권합니다 어쨋든 이건 이 곡선 밑의 넓이를 뜻하는 것 뿐입니다 어쨋든 이건 이 곡선 밑의 넓이를 뜻하는 것 뿐입니다 사실 정규분포의 경우 이것을 풀어서 계산하는 것은 쉬운 일이 아닙니다 사실 정규분포의 경우 이것을 풀어서 계산하는 것은 쉬운 일이 아닙니다 그래서 근삿값으로 계산합니다 정확하게 계산하지 못하는 것에 대해 기분 나빠할 필요는 없습니다 어떻게 이것을 적분하냐고 고민할 필요가 없다는 거죠 이것을 위한 함수가 이미 있고 그 근사값을 구할 수 있습니다 근사값을 구하는 한가지 방법은 적분의 근삿값을 구하는 것입니다 예를 들어 이 연두색 영역은 사다리꼴에 가깝습니다 그래서 여러분은 이 영역을 사다리꼴의 넓이로 구할 수 있습니다 윗변과 아랫변을 더해서 2로 나누고 높이를 구하는 방법으로 말입니다 연두색을 너무 많이 칠했네요 다른 색깔로 설명하겠습니다 아니면 영역 중간의 높이를 구해서 밑변으로 곱해도 됩니다 그렇다면 직사각형의 넓이를 구할 수 있겠죠 이것 또한 적분의 근삿값이 될 수 있습니다 이것 또한 적분의 근삿값이 될 수 있습니다 오른쪽에 조금 튀어 나온 부분이 있지만 왼쪽에는 조금 부족한 부분이 있기 때문에 꽤 가까운 근삿값이 될 수 있습니다 다른 영상에서도 이런 식의 방법을 사용했습니다 곡선 아래의 넓이를 근사시키고 이항분포가 결국 정규분포가 된다는 것을 알려주기 위해서죠 만약 아주 많은 시행을 한다면요 정규분포에서 재미있는 부분은 이미 말했는지 모르겠지만 위에 있는 수식이 아래에 있는 그래프입니다 다르게 말하면 이것을 중심극한정리라고 부릅니다 중심극한정리는 이 세상에서 가장 중요하고 흥미로운 것들 중 하나입니다 여기서 증명하지는 않겠습니다 동전 던지기에 관한 영상을 보면 알 수 있겠지만 동전 던지기에 관한 영상을 보면 알 수 있겠지만 동전을 아주 많이 던진다면 동전을 던지는 시행들은 서로 독립입니다 그리고 각 시행을 모두 더하면 예를 들어 앞면이 나왔을 때 1점을 얻는다고 하고 그 점수를 모두 합한다면 시행이 무한대에 가까워질 때 정규분포에 가까워질 것입니다 여기서 재미있는 것은 각각의 시행은 여기서는 동전을 던지는 시행 하나하나는 정규분포를 따르지 않아도 된다는 것입니다 분자의 상호작용을 생각해 보면 하나하나의 시행에서 화합물 x가 y와 상호작용할 때의 결과는 항상 정규분포를 따르지 않아도 된다는 것입니다 그러나 이러한 상호작용을 수백 개, 수천 개 더한다면 갑자기 그 결과는 정규분포를 따르게 될 것입니다 갑자기 그 결과는 정규분포를 따르게 될 것입니다 이것이 정규분포가 중요한 이유입니다 자연현상에서 항상 나타나기 때문이죠 만약 아주 복잡한 것에서 자료를 수집한다면 그리고 그 자료가 아주 많아 무한대에 가까운 개별적이고 독립적인 시행의 합이라면 그것은 정규분포를 따른다고 가정해도 좋습니다 어떤 때가 좋은 가정이고 안 좋은 가정인지는 어떤 때가 좋은 가정이고 안 좋은 가정인지는 다른 영상에서 말씀드리겠습니다 이 수식을 조금 간단하게 만들어 봅시다 다시 써 보죠 위의 식은 위키피디아에서 볼 수 있는 식이고 이렇게 쓸 수 있습니다 exp()는 e^()라는 뜻입니다 여기 전부를 옮겨 줍니다 여기 전부를 옮겨 줍니다 이것은 표준편차이고 표준편차의 제곱은 분산이죠? 이제 이 함수를 어떻게 사용하는지 배워 봅시다 이렇게 많은 그리스 문자들이 있는데 어떻게 할까요? 함수 p(x)는 정규분포함수의 높이를 나타냅니다 예를 들어 사람들이 제 집을 기준으로 얼마나 북쪽에 사는지에 관한 분포가 있다고 해봅시다 관한 분포가 있다고 해봅시다 관한 분포가 있다고 해봅시다 관한 분포가 있다고 해봅시다 별로네요 5피트 9인치보다 더 큰 사람들의 키라고 해보죠 가운데 이 값이 0이 아니라 5피트 9인치라고 해 봅시다 여기에서 무엇을 알 수 있나면 여기에서 무엇을 알 수 있나면 여기에서 무엇을 알 수 있나면 평균보다 대략 5인치 큰 사람을 고르는 확률을 찾는다고 한다면 평균보다 대략 5인치 큰 사람을 고르는 확률을 찾는다고 한다면 x 자리에 5를 대입하고 x 자리에 5를 대입하고 표본을 많이 뽑았기 때문에 표준편차를 알 수 있습니다 표준편차의 제곱인 분산도 알 수 있습니다 평균도 알 수 있죠 그러므로 x에 5를 대입하기만 하면 함수의 높이를 알 수 있습니다 그리고 이제 범위를 지정해야 합니다 평균보다 정확히 5인치 큰 사람은 몇 명이냐고 말할 수는 없으니까요 평균보다 정확히 5인치 큰 사람은 몇 명이냐고 말할 수는 없으니까요 평균보다 4.9인치에서 5.1인치 큰 사람이 몇 명이냐고 물어야 합니다 무조건 범위를 지정해야 합니다 왜냐하면 정확히 5피트 9인치가 되는 것은 거의 불가능하기 때문입니다 인치의 정의조차도 그렇게 정확하게 정의될 수 없습니다 이런 식으로 이 함수를 이용할 수 있습니다 이것은 자연 현상을 설명할 때도 굉장히 중요하게 쓰이지만 이것은 자연 현상을 설명할 때도 굉장히 중요하게 쓰이지만 모든 추론 통계학에도 그렇습니다 그러므로 이 식에 최대한 익숙해지는 것이 필요합니다 그러므로 이 식에 최대한 익숙해지는 것이 필요합니다 그것이 가능하게 하기 위해 이 식을 가지고 좀 놀아보도록 하겠습니다 어떻게 모든 것이 돌아가는지를 보여드리겠습니다 어떻게 모든 것이 돌아가는지를 보여드리겠습니다 그리고 이것을 외우기 편하게 이 식을 변형시켜 보겠습니다 분모에 있는 시그마를 제곱근 안에 넣어보죠 즉 표준편차를 제곱근 안에 넣어 보면 1/√(2πσ²)에 이런 식으로 적힌 것은 한 번도 본 적이 없지만 더 나은 직관을 제공합니다 σ²는 항상 σ²라고 쓰는데 사실 분삽입니다 그리고 분산을 먼저 구해야 표준편차를 계산할 수 있죠 흥미롭네요 그리고 exp( ) 괄호 안에 있는 것은 e^-1/2에 이 둘 모두 제곱되어 있으니까 ((x - μ)/σ)²로 나타낼 수 있습니다 이제 좀 정리되어 보이나요? 이것은 무엇이죠? x - μ는 평균에서 x가 어떤 점에서 얼마나 떨어져 있는지 나타냅니다 x - μ는 평균에서 x가 어떤 점에서 얼마나 떨어져 있는지 나타냅니다 이 점을 잡아보죠 x - μ에서 μ는 평균입니다 이 거리이고요 그리고 그것을 표준편차로 나눕니다 이 거리이죠 따라서 이것은 평균에서 표준편차의 몇 배 떨어져 있는지 나타냅니다 따라서 이것은 평균에서 표준편차의 몇 배 떨어져 있는지 나타냅니다 이것을 z-점수라고 부릅니다 그건 다른 동영상에서 다루어 보겠습니다 어쨌든 이 전체를 제곱합니다 그리고 -1/2로 곱하죠 다시 써 볼게요 e^-½a는 e^a^-½과 같습니다 e^a^-½과 같습니다 지수가 있는 식에다 또 지수를 씌운다면 지수가 있는 식에다 또 지수를 씌운다면 그 두 지수를 곱할 수 있죠 그러면 이것은 이렇게 다시 쓸 수 있습니다 1/√(2πσ²) 1/√(2πσ²) 지금은 그냥 이 식을 가지고 놀고 있습니다 직관적으로 이해하기 위해서요 직관적으로 이해하기 위해서요 이게 왜 존재하는지 다른 이유를 알고 있다면 이메일로 보내주세요 이게 왜 존재하는지 다른 이유를 알고 있다면 이메일로 보내주세요 저는 π와 e가 있는 이 식으로 수많은 현상들을 설명할 수 있다는게 굉장히 멋지다고 생각합니다 π와 e가 또 같이 나왔습니다 e^iπ = -1에서처럼 말이죠 우리 우주에 대한 것을 알려줍니다 어쨌든 이 식을 마저 써 보겠습니다 e^((x - μ)/σ)²^-½이라고 쓸 수 있습니다 e^((x - μ)/σ)²^-½이라고 쓸 수 있습니다 어떤 수의 -1/2 제곱은 그 수에 제곱근을 씌운 것의 역수와 같습니다 어떤 수의 -1/2 제곱은 그 수에 제곱근을 씌운 것의 역수와 같습니다 그러면 여기에 이렇게 다시 써 봅시다 1/√(2πσ²e^(z-점수)²)라고요 1/√(2πσ²e^(z-점수)²)라고요 이게 z라고 하면 z는 평균에서 표준편차 몇 배만큼 떨어져 있느냐를 의미합니다 z는 평균에서 표준편차 몇 배만큼 떨어져 있느냐를 의미합니다 갑자기 식이 굉장히 단순해졌죠? 분산에 2π를 곱하고 e^z²를 곱해 줍니다 e^z²를 곱해 줍니다 e^z²를 곱해 줍니다 이것에 제곱근을 씌우고 역수를 취하면 정규분포가 되는 것이죠 결국 제가 이렇게 한 것은 이 식이 훨씬 깔끔하고 식 변형이 재밌기 때문입니다 또한 식을 변형하는동안 다양한 형태의 식을 봤기 때문에 나중에 다른 형태의 식을 보더라도 다양한 형태의 식을 봤기 때문에 나중에 다른 형태의 식을 보더라도 정규분포인지를 알아볼 수 있을 것입니다 정규분포인지를 알아볼 수 있을 것입니다 정규분포인지를 알아볼 수 있을 것입니다 이제 이 정규분포를 가지고 놀아 봅시다 이제 이 정규분포를 가지고 놀아 봅시다 이 스프레드시트에 정규분포를 그렸습니다 이 청록색 칸에서 값을 바꿔서 집어넣을 수 있습니다 지금 그려진 곡선은 평균이 0이고 표준편차가 4이고 분산도 적어놓긴 했습니다만 분산도 적어놓긴 했습니다만 분산은 그냥 표준편차를 제곱한 것과 같죠 그렇다면 평균을 바꾸면 어떻게 될까요? 만약 평균이 0에서 5로 바뀐다면 어떻게 될까요? 그래프가 오른쪽으로 5만큼 이동했죠? 원래 0에 중심이 있었는데 오른쪽으로 옮겨갔네요 만약 평균을 -5로 바꾼다면 어떻게 될까요? 종모양 곡선이 중심에서 5만큼 왼쪽으로 이동하네요 이제 표준편차를 바꾼다면 어떻게 될까요? 이제 표준편차를 바꾼다면 어떻게 될까요? 이제 표준편차를 바꾼다면 어떻게 될까요? 분산은 평균으로부터의 제곱 거리 평균입니다 표준편차는 분산의 제곱근이고요 그러므로 정확히는 아니지만 평균에서 떨어진 평균 거리를 의미하는 지표입니다 그러므로 표준편차가 작을수록 많은 값들이 평균에 가까워질 것입니다 더 좁은 그래프를 얻게 되겠죠 진짜 그렇게 되는지 한 번 해봅시다 표준편차가 2가 된다면 어떻게 될까요? 그래프가 평균에 더 쏠려 있는 것을 확인할 수 있죠? 그래프가 평균에 더 쏠려 있는 것을 확인할 수 있죠? 그리고 표준편차를 10으로 키운다면 굉장히 납작한 그래프를 얻을 수 있습니다 그래프의 양 끝은 무한대로 갑니다 큰 차이점 중 하나입니다 이항분포는 언제나 유한하죠 유한한 수의 값만 가질 수 있습니다 그러나 정규분포는 실수선 전체에서 정의됩니다 그러므로 평균이 -5이고 표준편차가 10이면 1000을 얻을 확률은 굉장히 낮습니다 그러나 확률이 있기는 합니다 제 몸의 모든 원자들이 완벽하게 배열되어서 제 몸의 모든 원자들이 완벽하게 배열되어서 제 몸이 앉아있는 의자를 통과할 확률이 존재하기는 합니다 정말 불가능해 보이고 아마 우주가 없어질 때까지 일어나지 않겠지만 가능은 합니다 그리고 그것은 정규분포로 나타날 수 있습니다 모든 것이 일어날 수 있기 때문입니다 아무리 불가능해보여도 말이죠 영상 초반에 제가 정규분포에서는 그래프의 함숫값을 읽기만 해서는 안 된다고 말했습니다 펜 설정을 좀 바꿀게요 곡선 아래 두 점 사이의 영역을 알아내야 하죠 곡선 아래 두 점 사이의 영역을 알아내야 하죠 이런 분포에서 0을 얻을 확률을 묻는다면 이 그래프가 무슨 현상을 나타내는 것인지는 모르지만 0이 일어났다는 것은 알 수 있습니다 만약 정확히 0에서의 확률을 묻는다면 확률은 0입니다 0을 너무 많이 써서 헷갈리겠네요 딱 0에서의 확률이 0인 이유는 0에서는 영역이 없기 때문입니다 선일 뿐이죠 반드시 범위를 지정해야 합니다 청록색 칸에 직접 대입해보도록 하죠 범위가 주어진 확률을 구해봅시다 청록색 칸에 직접 대입해보도록 하죠 범위가 주어진 확률을 구해봅시다 -0.005에서 +0.05까지의 확률을 구해봅시다 -0.005에서 +0.005까지의 확률을 구해봅시다 반올림된 값이 나오네요 확률은 0에 가깝습니다 -1에서 1 사이의 확률을 구해보겠습니다 7%가 나오네요 어떻게 이렇게 계산했는지 곧 보여 드리겠습니다 어떻게 이렇게 계산했는지 곧 보여 드리겠습니다 방금 무엇을 했냐면 -1에서 1까지 엑셀이 어떻게 계산한 것인지 곧 알려드리겠습니다 약 이쯤의 -1에서 1까지 곡선 아래의 영역을 계산할 것입니다 이 영역을 구하는 것입니다 미적분을 안다면 -1에서 1까지 이 함수를 적분하는 것입니다 표준편차가 10이고 평균이 -5인 이 함수입니다 표준편차가 10이고 평균이 -5인 이 함수입니다 대입해 보죠 그러니까 지금 그려져 있는대로 이 정규분포함수에서의 확률을 계산하는 것입니다 이 정규분포함수에서의 확률을 계산하는 것입니다 이 정규분포함수에서의 확률을 계산하는 것입니다 표준편차 10에 √(2π)를 곱하고 e^-½에 x에서 평균을 뺀 값을 곱하는데 e^-½에 x에서 평균을 뺀 값을 곱하는데 지금 평균은 음수죠? 여기서 평균은 -5입니다 그러므로 x + 5라고 쓸 수 있고요 표준편차로 나누어 제곱해 줍니다 분산과 같죠 이 함수를 x에 대해 -1에서 1까지 적분합니다 이걸 계산하면 이게 나옵니다 7%가 나옵니다 0.07이라고도 표현할 수 있죠 불행하게도 이 식을 적분해 정확한 값을 계산하기는 힘듭니다 미적분을 아는 사람들에게도 말이죠 그래서 보통 이 값은 근삿값으로 구합니다 이 적분을 쉽게 하는 방법은 아주 쉽지는 않습니다만 누적분포함수라는 새로운 함수를 정의하는 방법입니다 누적분포함수라는 새로운 함수를 정의하는 방법입니다 이 노란 영역의 넓이를 쉽게 구할 수 있는 도구죠 누적분포함수가 무엇이냐면 CDF(x)라고 하겠습니다 x에 대한 함수이고 곡선 아래의 영역을 알려주는 함수입니다 예를 들어 x가 여기 있다고 해봅시다 예를 들어 x가 여기 있다고 해봅시다 CDF(x)는 x까지의 곡선 아래의 넓이를 알려줍니다 다르게 표현하자면 x보다 작은 값을 가질 확률을 알려준다고도 할 수 있습니다 즉 음의 무한대에서 x까지의 확률밀도함수를 적분한 것이라고 할 수 있죠 x까지의 확률밀도함수를 적분한 것이라고 할 수 있죠 엑셀 정규분포함수 NORMDIST를 사용하면 엑셀 정규분포함수 NORMDIST를 사용하면 x값, 평균, 표준편차를 넣고 x값, 평균, 표준편차를 넣고 x값, 평균, 표준편차를 넣고 누적분포를 원하면 TRUE 누적분포를 원하면 TRUE 그냥 정규분포를 원하면 FALSE라고 씁니다 그냥 정규분포를 원하면 FALSE라고 씁니다 만약 이 그래프를 그리고 싶으면 대문자로 FALSE 를 넣어줘야 하고 누적분포함수를 그리고 싶다면 여기 밑에 그려 놓았는데 조금 내려가서 조금 내려가서 이 함수가 누적분포함수입니다 엑셀에 TRUE를 넣으면 이 함수를 얻게 됩니다 이것이 누적분포함수입니다 위의 그래프가 정규분포이고 이 그래프가 누적분포입니다 그렇다면 예를 들어 만약 20보다 작은 값을 가질 확률을 무엇일까요? 만약 20보다 작은 값을 가질 확률을 무엇일까요? 이 분포에서 20보다 작은 어떤 값이라도 가질 수 있습니다 여기 있는 누적분포에서 20에 해당하는 함숫값을 보면 여기에 도달합니다 20보다 작은 값을 가질 확률은 꽤 크다는 것을 알 수 있습니다 거의 100%에 가깝죠 말이 됩니다 이 곡선 아래의 대부분의 영역은 20보다 작기 때문이죠 만약 -5보다 작은 값을 가질 확률을 알고 싶다면 만약 -5보다 작은 값을 가질 확률을 알고 싶다면 -5가 평균이었으므로 결과의 반이 -5보다 클 것이고 나머지 반이 그보다 작을 것입니다 여기를 보면 이 지점이 50%라는 것을 확인할 수 있습니다 그러므로 -5보다 작은 값을 가질 확률은 정확히 50%입니다 그러므로 -5보다 작은 값을 가질 확률은 정확히 50%입니다 만약 -1에서 1 사이의 값을 가질 확률을 알고 싶다면 펜 모드로 돌아가고요 -1보다 작거나 같은 값을 가질 확률을 먼저 구합니다 -1보다 작거나 같은 값을 가질 확률을 먼저 구합니다 지금 색칠하는 영역 전체를 구하는 것이죠 그리고 나서 1보다 작거나 같은 값을 가질 확률을 구합니다 그리고 나서 1보다 작거나 같은 값을 가질 확률을 구합니다 그리고 나서 1보다 작거나 같은 값을 가질 확률을 구합니다 분홍색으로 색칠하는 영역이죠 그리고 분홍색 영역에서 노란색 영역을 뺍니다 그럼 지금 색칠하는 영역이 남게 되겠죠 이것이 제가 스프레드시트로 구한 값입니다 이것이 제가 스프레드시트로 구한 값입니다 아래로 내려가보겠습니다 컴퓨터가 좀 느리네요 컴퓨터가 좀 느리네요 방금 한 것은 여기 1에서의 누적분포함숫값과 방금 한 것은 여기 1에서의 누적분포함숫값과 여기 있는 -1에서의 누적분포함숫값을 찾았습니다 여기 있는 -1에서의 누적분포함숫값을 찾았습니다 그리고 그 둘의 차이 이 값에서 이값은 뺀 것이 이 값에서 이값은 뺀 것이 이 두 수 사이의 확률을 알려줍니다 다르게 말하면 그리고 스프레드시트를 가지고 놀면서 엑셀 수식 등을 탐구해보기를 추천합니다 -1에서 1 사이의 이 영역입니다 굉장히 자주 나타나는 것이 또 있는데 표준편차 몇 배 안에 있을 확률을 묻는 것입니다 가운데 있는 세로선은 평균을 의미하고 양쪽에 있는 두 개의 선은 표준편차 하나 아래와 표준편차 하나 위를 나타낸 것입니다 평균에서 표준편차 하나만큼 떨어질 확률을 구하라고 한다면 평균에서 표준편차 하나만큼 떨어질 확률을 구하라고 한다면 아주 쉽죠 이걸 클릭하고 어디 사이의 확률이냐면 평균이 -5이므로 평균에서 표준편차 하나 아래는 -15입니다 평균에서 표준편차 하나 위는 5입니다 평균에서 표준편차 하나 위는 5입니다 5에서 15사이가 되겠죠 68.3%가 나오네요 항상 그렇습니다 평균에서 표준편차 하나만큼 떨어진 확률을 구하면 항상 이 값이 나올 것입니다 정규분포임을 가정했을 때 말입니다 68.3%라는 숫자는 이 곡선 아래의 영역을 나타냅니다 누적분포함수를 사용해 구했습니다 누적분포함수를 사용해 구했습니다 아래로 내려가보죠 아래로 내려갈 때마다 펜 기능을 해제해야 하네요 +5에서의 함숫값을 읽고 여기가 표준편차 하나 위에 있는 값이었죠 이쯤이겠네요 대략 80에서 90%정도 되어 보이네요 그리고 평균에서 표준편차 하나 밑에 있는 -15에서의 함숫값을 읽으면 약 15%정도네요 15, 16, 17%인가요? 18%라고 합시다 중요한 것은 이 값에서 이 값을 빼면 5와 -15 사이의 확률을 구할 수 있다는 것입니다 왜냐하면 이 함숫값이 대입한 값보다 더 작을 확률을 가리키기 때문이죠 누적분포함수에서 이 함숫값이 의미하는 것은 이 함숫값이 의미하는 것은 위로 올라가보겠습니다 위로 올라가보겠습니다 5의 함숫값은 지금 색칠하는 곡선 아래의 영역을 가리킵니다 지금 색칠하는 곡선 아래의 영역을 가리킵니다 5보다 작거나 같을 확률을 의미하죠 5보다 작거나 같을 확률을 의미하죠 여기서 계산한 -15의 함숫값는 이것보다 작을 확률을 의미합니다 만약 이 부분을 더 큰 부분에서 빼게 된다면 지금 표시하는 이 영역이 남게 됩니다 이 스프레드시트를 더 잘 이해하기 위해서는 이것을 가지고 놀면서 여러가지 값을 넣어 보아야 합니다 이것을 가지고 놀면서 여러가지 값을 넣어 보아야 합니다 평균이 -5였는데 5로 바꾸어 봅시다 그래프가 오른쪽으로 움직였습니다 평균이 5가 되도록 오른쪽으로 움직였죠? 평균이 5가 되도록 오른쪽으로 움직였죠? 펜으로 바꿀게요 펜으로 바꿀게요 표준편차를 더 작게 만든다면 그래프 전체가 약간 더 좁아집니다 표준편차를 6으로 바꿔보겠습니다 훨씬 좁은 그래프가 되었죠? 2로 바꾸면 더 좁아집니다 이제 제가 다 어떻게 한 것인지 알 수 있도록 이 시트와 공식을 계속 가지고 놀아 보세요 이 시트와 공식을 계속 가지고 놀아 보세요 그리고 누적분포함수에 대한 직관을 키워 보기 바랍니다 이것이 이항분포와는 어떤 연관이 있는지도 많이 고민해보세요 지난 동영상에서 그 이야기를 했었죠 이 표를 그리기 위해서는 -20에서 20 사이의 값들을 1씩 증가시켰습니다 그냥 1씩 증가하도록 결정했습니다 연속적인 곡선은 아닌 것이죠 사실 1씩 커지는 불연속적인 값을 대입해서 점을 찍고 선으로 이은 것입니다 그리고 각 점이 평균에서 떨어진 거리를 구했습니다 예를 들어 0 - 5는 이 거리이고요 표를 보묜 -20은 평균보다 25만큼 작습니다 이런 식으로 했고 그리고 구한 값을 표준편차로 나누었습니다 이건 z점수입니다 이 값은 -20이 평균에서 표준편차 몇 배만큼 떨어져 있는지를 알려줍니다 이것은 평균에서 표준편차의 12.5배 밑으로 떨어져 있다는 말입니다 그리고 이 값을 p(x)에 대입해서 높이를 구했습니다 그리고 이 값을 p(x)에 대입해서 높이를 구했습니다 예를 들어 -20에서는 높이가 굉장히 작습니다 -2는 조금 더 높죠 그래프에 표시하자면 이 정도입니다 이런 식으로 이 값을 구할 수 있습니다 그리고 확률을 구하기 위해서는 누적분포함수를 이용합니다 누적분포함수는 주어진 값보다 더 작을 확률을 의미하므로 -20의 경우에는 굉장히 작습니다 그래도 0은 아닙니다 여기서는 0처럼 보이지만 반올림했기 때문에 그렇습니다 0.0001 같은 아주 작은 값이 나올 것입니다 -1000보다 작을 확률도 작지만 존재한다는 것입니다 여러분이 알고 있어야 할 또다른 직관적인 개념은 곡선 전체의 영역에서 이 함수를 적분하면 1이어야만 한다는 것입니다 모든 확률을 의미하는 것이니까요 여기서 대입해서 알아봅시다 양쪽에 굉장히 작은 값과 굉장히 큰 값을 각각 대입해주면 보세요 100%가 나왔습니다 물론 진짜 100%가 나오려면 음의무한대에서 양의 무한대까지를 적분해야합니다 지금 구한 것은 100%로 반올림한 것이죠 아마 저 값은 99.999999% 같은 값일 겁니다 이것은 어떻게 계산하냐면 이 점의 누적분포함숫값을 구하고 그 값에서 이 점의 누적분포함숫값을 빼면 됩니다 그 값에서 이 점의 누적분포함숫값을 빼면 됩니다 그 값에서 이 점의 누적분포함숫값을 빼면 됩니다 거기서 이 100%라는 숫자가 나온 것이죠 어쨌든, 이것이 정규분포에 대한 좋은 느낌을 가지는 계기가 되었으면 합니다 이 스프레드시트를 꼭 가지고 놀기를 권합니다 아니면 직접 이런 스프레드시트를 만들어보는 것도 좋습니다 나중에 예제로 이런 식의 스프레드시트를 다른 모델의 입력값을 넣는데 사용해 볼 것입니다 금융 모델을 한 번 생각해보죠 만약 우리의 수입이 특정한 기댓값 근처에서 정규분포를 따른다고 하면 순이익의 분포는 무엇일까요? 이런 식으로 100여가지의 다른 예시들을 생각할 수 있을 겁니다 어쨌든, 다음 영상에서 봅시다