로딩 중

동영상 대본

두 개의 다른 데이터 세트를 가지고 있다고 합시다 첫번째 세트에는 2,2,4,4 가 있고 다른 세트에는 1,1,6,4 가 있습니다 첫번째로 생각한 것은 "각각의 데이터 세트의 대푯값이 되는 숫자가 있을까?" 인데요 대푯값을 찾는 방법 중 하나가 평균을 구하는 것입니다 그럼, 각 데이터 세트의 평균을 구해봅시다 첫 번째 데이터 그룹에서의 평균은 그저 숫자들을 다 더하고... 2 더하기 2 더 하기 4 더 하기 4 그것을 변량의 수(데이터의 갯수)로 나눕니다 우리는 하나, 둘, 셋, 네 개의 숫자를 가지고 있으니 분모에 4를 쓰고 분자는 2 더하기 2는 4, 더하기 4는 8, 더하기 4는 12 12 나누기 4가 되므로 평균은 3입니다 이것을 수직선 위에 나타낼 수 있는지 확인해봅시다 몇개의 점을 위에 그려서 값을 시각화 할 것입니다 0, 1, 2, 3, 4, 5 두 개의 2가 있고... 그냥 노란색으로 하겠습니다 한 개의 2가 있고, 또다른 2가 있습니다 그냥 여기에 점을 그려놓도록 할게요 그리고 두 개의 4가 있습니다 바로 여기에 한 개의 4, 또다른 4가 있죠 평균을 3으로 계산했었는데 중심경향성의 값, 3입니다 여기에 3을 놓도록 하겠습니다 점선으로 표시할게요 저기에 평균이 있습니다 조금이나마 시각화를 해보았죠 평균이 데이터들의 중심임을 알 수 있습니다 꽤...말이 되죠 ? 다른 데이터 세트에도 해봅시다 여기서의 평균은 분자는 1 + 1 + 6 + 4 변량이 4개이므로 분모는 4 2 더하기 6 은 8, 8 더하기 4는 12 12 나누기 4는 마찬가지로 3이네요 이 데이터 세트도 같은 평균을 가지고 있군요 변량들은 다르지만 평균은 같습니다 하지만 이 두 개의 데이터 세트는 서로 다른 것 같습니다 수직선을 그려서 차이점을 눈으로 확인해보죠 이번엔 6까지 그려야 하네요 차례대로 0, 1, 2, 3, 4, 5, 6 하나 더 붙일게요 ,7이라 합시다 1이 하나 있고, 1이 하나 더 있고 6이 있고, 그리고 4가 있습니다 평균이 3이라고 계산했었죠 평균을 중심값으로 측정해보면 중심점, 또는 평균으로 쓰는 중심점의 값은 같은데 데이터 세트들은 달라 보입니다 어떻게 다른 걸까요? 변동성, 변동의 개념에 대해 얘기를 했었죠 이 데이터 세트가 훨씬 퍼져있는 듯이 보입니다 이 변량의 값들이 대체적으로 저 변량의 값들보다 평균과 더 떨어져 있는 것처럼 보이네요 이건 통계학에서 흥미롭게 여기는 질문입니다 그저 평균과 같은 대푯값이 아니라 변동성의 값도 고려해봐야 합니다 변동성에 대해 생각하는 간단한 방법은 평균으로부터 각 변량이 평균적으로 얼마나 떨어져 있는지 보는 것입니다 조금 어렵게 들릴 수도 있겠는데요 하지만 그것이 무엇을 뜻하는지 곧 알아낼 것입니다 "mean"이라는 단어를 남용하지 않을게요 (영어에서는 '뜻하다'와 '평균'을 둘 다 'mean'으로 나타냅니다) 평균적으로 각 변량이 평균에서 얼마나 멀리 있는지 알고 싶습니다 지금 계산하려고 하는 방법은 '(절대) 평균 편차'라고 합니다 줄여서 MAD라고도 합니다 변량이 얼마나 평균으로부터 벗어나 있는지 이 벗어난 거리, 즉 절대 편차의 평균을 재는 방법입니다 두 개의 2는 각각 평균으로부터 1씩 떨어져 있습니다 +1인지 -1인지는 상관없고 그저 평균으로부터 1 떨어져 있습니다 그리고 편차들의 평균을 구합니다 무엇을 뜻하는 걸까요? 또 'mean'을 남용하고 있군요, 하하 첫번째 데이터 세트의 절대 평균 편차를 구합시다 평균이 무엇인지 구할 수 있었습니다 평균은 3 이었죠 평균으로부터 각 변량의 편차는 얼마일까요? 첫번째 2 를 가져와서 2 빼기 평균의 절댓값을 구하면 이것이 절대 편차가 됩니다 또다른 2 를 가져와서 그것의 3 으로부터의 절대 편차를 구합니다 식에 절댓값을 씌우는 것은, 2가 평균으로부터 얼마나 떨어져 있는지를 나타내 줍니다 이 경우엔 계산하기가 쉽군요 4,그리고 4가 한 개 더 있네요 평균인 3으로부터의 4의 절대 편차를 구하고 4가 하나 더 있으므로 그것을 한 번 더 해줍니다 절대 편차를 구하므로 식에 절댓값을 씌워주는 것입니다 그리고 이 전체 식을 변량의 갯수로 나눕니다 계산해 봅시다 2-3 은 -1이고, 절댓값을 씌우면 편차는 1 이구요 2-3 은 -1이고, 절댓값을 씌우면 편차는 1 입니다 수직선을 보면 2 가, 절대 편차인 1만큼 평균으로부터 떨어져 있다는 걸 알수 있죠 4-3 은 1 이고 절댓값을 씌우면 편차는 1입니다 4도 마찬가지로 3 에서 1 만큼 떨어져 있습니다 4-3은 1이고 절댓값을 씌우면 편차는 또 1 이네요 이 경우에는 모든 변량이 평균으로부터 정확히 1 만큼 떨어져 있습니다 우리는 평균으로부터의 거리를 구하므로 절댓값을 씌웠기 때문에 편차는 항상 양수로 나옵니다 4개의 변량의 (절대) 편차를 다 더하면 4이므로 4로 나누어 (절대) 평균 편차를 구하면 1이 나옵니다 변량들이 평균으로부터 떨어진 거리의 평균이 1 이라고 생각하면 됩니다 보시다시피 변량들이 정확히 1만큼 평균에서 떨어져 있네요 이젠 이 데이터 세트의 (절대) 평균 편차도 구해봅시다 공간을 좀 만들고 시작할게요 먼저 스스로 평균 편차를 계산해 보는 것도 좋은 생각입니다! 이제 계산해 봅시다 (절대) 평균 편차는, 줄여서 MAD는 각 변량의 (절대) 편차를 더해주고 1-3의 절댓값(첫번째 변량의 편차) 더하기 1-3의 절댓값(두번째 변량의 편차) 더하기 6-3의 절댓값(세번째 변량의 편차) 더하기 4-3의 절댓값(네번째 변량의 편차) 변량의 갯수인 4로 나누어줍니다 1-3은 -2이고 절댓값을 씌우면 편차는 2, 수직선에서 보면 3 에서 2 만큼 떨어져있다는 것을 알 수 있죠 왼쪽이든 오른쪽이든 상관없이 절대 편차를 구하는 것입니다 그리고 또 다른 1-3은 -2이고 절댓값을 씌우면 편차는 2 평균으로부터 2 떨어져 있습니다 6-3은 3이고 절댓값을 씌우면 편차는 3 6은 평균으로부터 3만큼 오른쪽으로 갑니다 다시한번 말하지만, 왼쪽 오른쪽은 상관 없죠 4-3은 1이고 절댓값을 씌우면 편차는 1 보시다시피 3으로부터 오른쪽으로 1만큼 떨어져있습니다 이제 계산해봅시다 2 + 2 + 3 + 1 = 8 8 나누기 4를 하면 2가 나옵니다 오른쪽 데이터 세트의 경우, (절대) 편차의 평균이 2 이고 왼쪽 데이터 세트는 (절대) 편차의 평균이 1 입니다 두 세트는 평균이 3으로 같지만 오른쪽 세트는 더 넓게 퍼져 있습니다 왜냐하면, 오른쪽 세트의 변량은 대체적으로 평균 3 으로부터 떨어진 거리가 2 인 반면에 왼쪽 세트의 변량은 평균으로부터 떨어진 거리의 평균이 1 입니다 왼쪽 세트의 (절대) 평균 편차는 1이고 오른쪽 세트의 (절대) 평균 편차는 2이므로 초록색 데이터 세트가 평균으로부터 더 넓게 퍼져 있음을 알 수 있죠