If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

표본표준편차와 편향

표준편차와 편향을 계산하는 예제를 살펴봅시다. 만든 이: 살만 칸 선생님

동영상 대본

예를 들어 우리가 수박 농사꾼이고 수박 안에 있는 씨앗의 분포를 알고 싶다고 합시다 수박 안에 있는 씨앗의 분포를 알고 싶다고 합시다 아마도 씨가 적은 수박을 개발하고 싶을 수도 있지만, 이를 위해서는 조사의 과정이 필요합니다 그리고 수박을 수박밭이나 수박농장에서 바로 열어보고 싶지는 않을 겁니다 왜냐하면 최대한 많이 팔아야 하기 때문입니다 대신 적은 개수의 수박을 이용해서 전체 수박을 예측할 수 있는 표본을 만들어야 하고, 이 과정에서는 여러분이 통계로 계산하여서 모수의 범위를 잘 추정할 수 있어야 합니다 그럼 시작해 보겠습니다 여러분이 수박에서 임의로 조그마한 덩어리를 꺼낸 뒤 씨앗의 개수를 세는 방법을 이용하면 됩니다 꺼낸 뒤 씨앗의 개수를 세는 방법을 이용하면 됩니다 그렇다면 이렇게 8개의 표본이 생기게 됩니다 첫 번째 표본에는 4개의 씨앗이 있습니다 다음으로 3, 5, 7, 2, 9, 11, 7개의 씨앗이 있습니다 이 숫자들이 표본이고, 이를 시각화하도록 하겠습니다 만약 이 그림이 모든 덩어리의 모수라면 이 정육각형의 덩어리는 수박 농장 전체에서 따온 것으로 생각됩니다 저는 아주 작은 표본을 그리는 것입니다 아주 작은 표본을 그리는 것입니다 아마도 여기 1, 000, 000개가 있을 수도 있습니다 농장에서 백만 개의 수박 덩어리가 만들어 질 수도 있지만 저는 그저 표본화를 하는 것이기 때문에 N = 1, 000, 000이고 n = 8입니다 그리고 다시 우리는 더 많은 표본을 원할 것이고 수학을 쉽게 할 것입니다 이제 우리가 측정해야 할 통계를 알아보겠습니다 첫 번째 측정 방법은 집중 경향성을 구하는 것입니다 그리고 이는 산술평균을 이용합니다 하지만 여기서 우리는 표본 평균을 이용해서 모수 평균을 추정할 것입니다 그렇다면 표본 평균이 뭐가 됩니까? 사실, 우리가 해야 할 것은 모든 측정값들을 더해서 도수만큼 나누게 하는 방법입니다 계산기를 꺼내도록 하겠습니다 사실 계산기는 필요 없을 듯합니다 봅시다 4+3은 7입니다 7+5는 12입니다 12+7은 19입니다 19+2는 21, +9는 30, +11은 41, +7은 48입니다 그렇게 저는 8개의 지점에서 48인 값을 받게 됩니다 일이 잘 풀리고 있습니다 48 ÷ 8은 6입니다 따라서 표본 평균은 6입니다 이 값은 모수 평균이 무엇인지 추정하는 값입니다 하지만 우리는 우리의 모수의 평균으로부터 얼마나 퍼져 있는지 나타낼 것입니다 그래서 우리는 모수의 분산을 표본 분산을 계산하면서 추정할 것입니다 그리고 우리는 적절히 불편 표본 분산을 계산할 것입니다 운이 좋게도 우리는 n-1으로 나누는 이유를 알게 되었습니다 그래서 이제 우리는 불편 표본 분산을 나눌 것입니다 만약에 그런다면 무슨 값이 나오게 됩니까? 만약에 그런다면 무슨 값이 나오게 됩니까? 다른 색을 쓰겠습니다 이 값은 (4-6)²+(3-6)²+(5-6)²+(7-6)² 이 값은 (4-6)²+(3-6)²+(5-6)²+(7-6)² +(2-6)²+(9-6)²+(11-6)+(7-6)² +(2-6)²+(9-6)²+(11-6)+(7-6)² 이 모든 값을 나누면 됩니다 나누는 값은 8이 아니라 8-1로 나눠야 할 것입니다 그래서 7로 나누게 됩니다 조금 더 자세하게 하겠습니다 불편 표본 분산을 저는 s 아래에 n-1을 적어서 더욱 명확하게 n-1로 나눈다는 것을 나타내겠습니다 그러면 값이-- 봅시다, 4-6은 -2이고 이를 제곱하면 4입니다 한 개를 해냈습니다 3-6은 -3입니다 이를 제곱하면 9가 됩니다 5-6의 제곱은 -1의 제곱이고 1입니다 7-6은 1이고, 제곱하면 1입니다 2-6은 -4이고 제곱하면 16입니다 9-6의 제곱은 9가 됩니다 11-6의 제곱은 25입니다 7-6의 제곱은 1입니다 그리고 이 값은 7로 나누게 됩니다 손으로 더할 수 있는지 봅시다 4+9는 13, +1은 14, 15, 31, 40, 65, 66 그래서 이 값은 66 ÷ 7입니다 그리고 이를 나누면 9와 3/7이 됩니다 9와 3/7이라고 적겠습니다 만약 소수점으로 나타내고 싶다면 66 나누기 7을 나타내려면 많은 소수점이 나오게 되고, 둘러 말하면 9.43으로 추정하게 됩니다 이제 불편 표본 분산의 값을 주게 됩니다 그럼 어떻게 표준편차를 나타낼 수 있습니까? 우린 모수표준편차의 추정을 구하고 싶습니다 우린 모수표준편차의 추정을 구하고 싶습니다 사실, 논리적으로 말하자면, 사실 이게 우리의 불편 표본 분산입니다 이 값이 참된 모수 분산 값에 대한 최고의 추정입니다 우리가 모수 표준편차를 받기 위해 모수의 표준편차를 생각할 때 그저 분산의 제곱근을 구하면 됩니다 그래서 표본 표준편차를 구하고 싶다면 그냥 불편 표본 분산의 제곱근을 구하면 되지 않습니까? 구하면 되지 않습니까? 그래서 그게 지금 할 것입니다 이 방법으로 나타내겠습니다 이걸 표본 표준편차라고 부르겠습니다 우린 불편 표본 분산의 제곱근을 이용해서 구할 것입니다 그리고 이건 이 값의 제곱근이 될 것이고 이 때는 계산기가 필요합니다 우리가 방금 집어넣은 값의 제곱근이 될 것이고 두 번째 답이 되겠습니다 마지막 칸이 되겠습니다 그래서 이 값의 제곱근은-- 추정하여서 3.07로 추정할 수 있습니다 이제 저는 여러분에게 비직관적인 것을 알려드리겠습니다 아니면 최소한 순간적으로 비직관적이니, 여러분이 잘 보시길 바랍니다 이 부분은 우리가 이미 가끔씩 말했습니다 사람들은 심지어 시뮬레이션을 만들어서 n-1로 나누면 모수 분산의 불편 추정값을 구할 수 있다는 것을 나타낸 적도 있었습니다 그리고 만약 무언가의 제곱근을 구하려면 이 지점은 좋은 시작점입니다 하지만 실제로 이는 무리함수가 비선형이기 때문에 표본표준편차는-- 이 값은 표본표준편차는-- 이 값은 즉 분산의 제곱근은, 불편 표본 분산을 i=1부터 n까지 더한 뒤 n-1로 나눈 값입니다 이게 우리가 나타내는 값입니다 왜냐하면 무리함수가 비선형이기 때문에 이 값은 모수 표준편차의 불편 추정이 아니라는 것입니다 이 값은 모수 표준편차의 불편 추정이 아니라는 것입니다 그리고 궁금한 사람들에게는 시뮬레이션을 만드는 것을 추천드립니다 하지만 여러분은 아마도 '우리는 모수 분산의 불편 추정을 구하기 위해 n-1로 나누는 것에 대해 많은 고충을 받았습니다 왜 우리는 모수 분산의 불편 추정에 대해서는 고통을 거치지 않는가?'라고 물어볼 것입니다 그리고 모수 표준편차를 구하기 어려운 이유는 우리는 그저 n-1를 n 대신 나누면 되기 때문입니다 이 공식은 모수의 분포의 어떠한 확률에 대해서도 작용합니다 따라서 표준 편차에 대해서도 같은 것을 하면 됩니다 그리 쉽지는 않습니다 사실 모수가 어떻게 분포되어 있느냐에 따라 달라지긴 합니다 그래서, 우리는 그저 표본 표준편차를 공식화합니다 그리고 우리가 많이 쓰는 것은 불편 표본 분산의 제곱근에 근거했습니다 하지만 여러분이 제곱근을 빼면 여러분에게 사용하고 싶은 모수 표준 편차의 결과를 나타냅니다 모수 표준 편차의 결과를 나타냅니다 하지만 이게 우리의 가장 간단한 도구입니다