If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

자료 집합에서 이상치 판단하기

사분위수 범위(IQR)를 이용하여 자료 집합에서 이상치를 판단하세요.

동영상 대본

숫자 15개가 있고 이 숫자들의 이상치에 대해 생각해 볼 것입니다 이것에 도움을 주고자 이 숫자들의 분포를 시각화할 것입니다 이것에 도움을 주고자 이 숫자들의 분포를 시각화할 것입니다 그럼 해봅시다 따라서 이러한 수직선에 1에서 19까지의 모든 숫자들이 있습니다 1이 2개 있고 1이 2개 있고 6이 1개 있고 6을 여기다 둡시다 13이 2개가 있습니다 13이 2개가 있습니다 따라서 여기다가 표시할겁니다 14는 3개가 있습니다 따라서 14 14 14 15는 2개 있기에 15 15 16은 1개 있습니다 16을 여기다 둘 것입니다 18은 3개 있습니다 하나, 둘, 셋 하나 둘 그리고 셋 마지막으로 19가 있습니다 여기에 19를 둡니다 이 분포를 보면 시각적으로 수의 분포를 보게 되면 이 분포의 가장 중요한 부분은 바로 이 부분일 것입니다 따라서 어떤 사람들은 3개의 이상치가 있다고 생각할 수 있고 이 2개의 1과 1개의 6 말입니다 어떤 사람들은 보니까 6은 꽤 가까운 것 같은데 두 개의 숫자 1만 이상치인 것 같다고 생각할 수도 있습니다 이것들은 상식적인 대답일 수 있습니다 하지만 생각을 통일하고자 통계학자들은 가끔 규칙을 사용할 때도 있습니다 사분이수범위의 1.5배를 넘어가는 모든 것들 즉 Q1보다 작거나 Q3보다 큰 모든 것들을 이상치라고 정의합니다 제가 한 이야기가 무엇일까요? 그럼 일단 실제로 중앙값과 Q1과 Q3를 구해봅시다 그러면 사분위수 범위를 알 수 있습니다 그러면 이것을 이용하여 이상치를 알 수 있을 것입니다 만약 이 모든 것들이 이해가 되었다면 이 영상을 잠시 멈추고 스스로 구해볼 것을 권해드립니다 아니면 제가 대신 풀어드릴 겁니다 그럼 여기서 중앙값은 무엇일까요 중앙값이란 분포의 중앙에 있는 수입니다 15개의 숫자가 있으므로 중앙에 있는 숫자는 양 옆으로 숫자 7개가 있을 것입니다 즉 8번째 숫자일 것입니다 하나, 둘, 셋, 넷, 다섯, 여섯, 일곱 맞죠? 따라서 이것이 중앙값이 될 것입니다 그러면 우측에도 하나, 둘, 셋, 넷, 다섯, 여섯, 일곱개의 숫자들이 있습니다 따라서 이것이 Q2라고 지칭되는 중앙값이 될 것입니다 이것이 바로 중앙값입니다 그럼 Q1은 무엇일까요 일단 Q1은 이 첫 그룹의 중앙에 있습니다 첫 그룹은 7개의 숫자가 있습니다 따라서 중앙은 4번째 숫자일 것입니다 좌측에는 3개 우측에도 3개의 숫자가 있을 것입니다 따라서 이것이 Q1입니다 Q3는 위의 그룹의 중앙에 있습니다 Q3는 위의 그룹의 중앙에 있습니다 이 또한 7개의 숫자가 있을텐데 그것의 중간은 여기에 위치할 것입니다 3개씩 양쪽에 분포해 있습니다 따라서 이 값이 Q3입니다 그러면 사분범위는 무엇이 될까요? 사분위수 범위는 사분위수 범위는 바로 Q3 빼기 Q1 즉 18 빼기 13일 것입니다 18과 13 사이의 차 즉 18 -13은 5가 될 것입니다 따라서 이상치를 구하려면 이상치는 곧 이상치는 곧 이상치는 Q1 - (1.5 × 사분위수 범위)보다 작은 Q1 - (1.5 × 사분위수 범위)보다 작은 Q1 - (1.5 × 사분위수 범위)보다 작은 값들일 것입니다 이것 또한 절대적 법칙은 아니고 통계학자들이 이상치에 대한 더 나은 정의에 대해 고민하다 대한 더 나은 정의에 대해 고민하다 Q1 - (1.5 × 사분위수 범위)보다 작은 값들을 이상치라 정의해서 나온 식입니다 작은 값들을 이상치라 정의해서 나온 식입니다 혹은 Q3 + (1.5 × 사분위수 범위)보다 큰값을 이상치로 정의할 수 있습니다 Q3 + (1.5 × 사분위수 범위)보다 큰값을 이상치로 정의할 수 있습니다 Q3 + (1.5 × 사분위수 범위)보다 큰값을 이상치로 정의할 수 있습니다 다시 말하지만 이것은 어느 정도 맞아 보였기에 정해진 것입니다 어떤 사람은 1.6을 곱해야 한다 주장할 수 있습니다 혹은 1 또는 2와 같은 값을 곱해야 한다 라고 할 수 있습니다 하지만 1.5가 대부분이 납득하는 값입니다 따라서 이 값들이 얼마인지 알아봅시다 Q1은 이미 알고 있습니다 따라서 이것은 13 빼기 (1.5 × 사분위수 범위)일 것입니다 사분위수 범위는 5이기 때문에 1.5 × 5 즉, 7.5가 나옵니다 따라서 이 값은 7.5입니다 13 - 7.5는 얼마죠? 13 - 7은 6이므로 여기다 0.5를 빼주면 5.5가 됩니다 따라서 이제는 이상치를 이상치를 이상치를 5.5보다 작은 값들이라 할 수 있습니다 혹은 Q3은 18이므로 이 값은 7.5가 되고 18 더하기 7.5는 25.5이기 때문에 25.5보다 더 큰 값들을 이상치라 할 수 있습니다 25.5보다 더 큰 값들을 이상치라 할 수 있습니다 25.5보다 더 큰 값들을 이상치라 할 수 있습니다 따라서 이를 바탕으로 이상치에 대한 수치적인 정의를 내릴 수 있습니다 우리는 대충 느낌적으로 음 이것은 이상치이고, 저것은 아닌것 같아 하는게 아닙니다 이 논리를 바탕으로 하면 2개의 이상치를 구할 수 있습니다 이 2개의 1만 5.5보다 작습니다 이 2개의 1만 5.5보다 작습니다 여기가 바로 그 임게점입니다 따라서 이 6은 턱걸이로 범위 안에 든 것입니다 그리고 상한에는 이상치가 없습니다 하나 더 생각해야 할 것은 바로 Q1, 중앙값, 범위를 기반으로 해 상자 그림을 그리는 것입니다 이상치에 대해 고려해 그릴 수도 이상치에 대해 고려해 그릴 수도 고려하지 않은채 그릴 수도 있습니다 따라서 그리는 방법이 여러가지입니다 그럼 이제 이것을 다 지워봅시다 이것은 이미 다 구했습니다 다 지워봅시다 그리고 이제 상자 그림을 그려봅시다 여기에 하나 더 아니 2개 더 수직선을 그릴 것입니다 첫번째 하나 더 추가하면 두번째 만약 고전적인 상자 그림을 그리면 만약 고전적인 상자 그림을 그리면 일단 중앙값은 14이고 그냥 두 방법 다 해봅시다 중앙값은 14입니다 중앙값은 14입니다 Q1은 13이고 Q1은 13이고 Q1은 13이고 Q3은 18입니다 Q3은 18입니다 Q3은 18입니다 따라서 이것이 상자 부분입니다 차라리 이것을 실제 상자처럼 그려봅시다 이렇게 말입니다 이렇게 말입니다 이것이 상자입니다 이 또한 상자입니다 여기까지 모든 과정은 동일합니다 이상치들을 고려하고 싶지 않다면 여기서 범위는 무엇일까요 1에서 19까지의 숫자들이 있습니다 어떤 사람은 1에서 시작해서 따라서 전체 범위는 좀 더 제대로 그려봅시다 1에서 부터 1에서 부터 19까지일 것입니다 따라서 이 경우는 모든 수를 포함하고 있습니다 두 이상치 또한 포함하고 있습니다 하지만 만약 이 두 이상치를 포함하고 싶지 않다면 이상치임을 제대로 드러내기 위해 포함시키지 말아 봅시다 그러면 이상치가 아닌 것들만 포함시키게 되면 6에서 시작하게 되는데 왜냐하면 6은 자료 집합 안에 있지만 이상치가 아니기 때문입니다 좀 더 이쁘게 만들어 봅시다 그러면 이제 6에서 시작하여 19까지 갈 것입니다 6에서 시작하여 19까지 갈 것입니다 또 이상치가 있다는 것을 표현하기 위해 이상치를 여기에 표시할 것입니다 다시 말하지만 이것은 같은 자료 집합에 대해 이상치를 없엔 상자 그림입니다 이 표는 이상치가 어디에 존재하는지 명확히 표현해주고 있습니다