If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용
현재 시간:0:00전체 재생 길이:9:34

동영상 대본

이 영상에서 배울 것은 자료의 분포를 구상화하는 방식과 그 구상화를 분석하는 방법입니다 결과적으로 밀도 곡선이라 알려진 개념에 도달할 것입니다 결과적으로 밀도 곡선이라 알려진 개념에 도달할 것입니다 우선 여러 개념을 복습하기 위하여 간단한 예시로 시작합시다 16명의 학생에게 지난 30일 동안 하루 몇 잔의 물을 마셨는지를 센 후 지난 30일 동안 하루 몇 잔의 물을 마셨는지를 센 후 평균값을 계산하라 한다 가정합시다 여기 있는 자료점은 한 학생이 평균적으로 하루 0.5잔의 물을 마셨다 알려줍니다 한 학생이 평균적으로 하루 0.5잔의 물을 마셨다 알려줍니다 그 학생은 아마 극심한 탈수증세를 보이겠네요 이 학생은 지난 30일 동안 평균 하루에 8.1잔의 물을 마셨네요 아마 좀 더 수분섭취를 충분히 하였을 것 입니다 이런 상황을 구상화하고 싶으면 빈도주상도를 그릴 수 있습니다 여러 범주를 만들어서요 첫 번째 범주는 0보다 크거나 같고 1보다 작은 자료점들을 위할 것이고 두 개의 자료점들이 이 범주에 들어가는 걸 볼 수 있습니다 그래서 여기 있는 막대기가 2까지 올라와 있습니다 이 범주는 속한 점들이 3보다 크거나 같고 4보다는 작습니다 여기서 주의할 것은 4개의 자료점들이 이 범주에 속해 있습니다 그리고 빈도주상도에도 막대기의 높이가 예상대로 4인 걸 볼 수 있습니다 그리하여 이것은 분포를 시각적으로 알아보는 좋은 방법입니다 하지만 각 범주에 들어가는 자료의 백분율에 대하여 좀 더 관심을 가질 수 있습니다 이런 상황에서는 훨씬 많은 자료점들을 갖고 있을 때 특히 흥미로워집니다 만약 1600432507개의 자료점을 갖고 있다면 각 범주에 속하는 정확한 개수를 아는 것만은 그렇게 유용하진 않습니다 각 범주에 속하는 백분율이 훨씬 더 유용합니다 그리하여 상대 빈도주상도를 그려볼 수 있습니다 그리하여 상대 빈도주상도를 그려볼 수 있습니다 여기 보면 같은 자료를 나타내고 있습니다 하지만 첫 번째 범주를 보면 막대기의 높이가 2가 아니라 12.5%입니다 왜일까요? 왜냐하면 16개 중 2개의 점이 이 범주에 속하기 때문입니다 2/16는 1/8이고 즉 12.5%입니다 여기 있는 막대기를 보면 높이가 4개의 점을 위한 4가 아니라 이제 25%라는 것을 알 수 있습니다 하지만 이 둘은 같은 것을 나타냅니다 16개 중 4개의 점이 이 범주 안에 속한다는 것을요 4/16는 1/4이고 즉 25%입니다 그리하여 이 두 종류의 빈도주상도는 매우 유용하여 자주 쓰이는 것을 볼 것입니다 하지만 엄청나게 많은 자료점을 가진 상황도 있습니다 그렇다면 좀 더 세분된 범주들을 원할 것입니다 여기서 할 수 있는 것은 범주들을 좀 더 세분화하는 것입니다 예를 들어 한 잔의 넓이가 아닌 예를 들어 한 잔의 넓이가 아닌 반 잔의 넓이로 정할 수 있습니다 그리하여 이 첫 범주는 0보다 크거나 같고 0.5보다 작을 것일 수 있고 더 명확한 묘사를 제공할 것입니다 이제 16개의 자료점보다 많이 있는 상황을 추정합니다 이제 16개의 자료점보다 많이 있는 상황을 추정합니다 간혹 1600만 개의 자료점들을 갖고 있을 수 있죠 왼쪽에는 백분율이 있을 것입니다 하지만 그것에 만족하지 않을 수 있습니다 더 세분되었으면 할 수 있죠 그리하여 각 범주를 1/4잔으로 정합니다 그리하여 각 범주를 1/4잔으로 정합니다 하지만 그것 역시 만족스럽지 않을 수 있죠 계속 더 세분되었으면 하죠 계속 진행하다 보면 어떻게 되는지 예측할 수 있겠죠 무한개의 범주를 가진 상태에 도달할 수 있습니다 무한개의 범주를 가진 상태에 도달할 수 있습니다 그리고 각 범주는 무한적으로 얇을 것입니다 아주 얇아 막대기들의 꼭대기를 이으면 아주 얇아 막대기들의 꼭대기를 이으면 곡선이 생길 정도로요 이런 종류의 곡선은 통계학에서 실제로 사용됩니다 그리고 영상 초반부에 약속했듯이 언급한 밀도 곡선입니다 밀도 곡선이 중요한 이유는 자료점들이 연속체에서 그 어떤 값도 가질 수 있는 분포의 구상화이기 때문입니다 넓은 통들에 대충 던져진 게 아니라는 거죠 이런 그래프를 어떻게 해석해야 할까요? 0부터 9까지의 전체 간격을 본다면 아무도 하루 평균 9잔 이상 마시지 않았다는 가정하에 1600만 개의 자료점을 가지고 있다 하여도 이 간격의 곡선 아래 면적은 100% 또는 1.0입니다 어떤 밀도 곡선에서도 성립되는 사실입니다 곡선의 전체 넓이는 100%라는 거죠 모든 자료점을 나타냅니다 그리고 밀도 곡선은 절대로 음수값을 가질 수 없습니다 곡선이 x축 밑으로 내려가는 등의 이상한 현상들은 보지 못 할 것입니다 이러한 조건 성립 후 어떻게 밀도 곡선을 사용할지 생각해봅시다 만약 자료 중 몇 퍼센트가 2와 4잔 사이에 속하는지 알고 싶다면 해당 간격을 볼 것입니다 2에서 4까지 가서 여기 있는 이 간격을 보고 이 곡선 아래 있는 면적을 계산할 것입니다 이 넓이는 0보다 크거나 같을 것이고 100%보다는 작거나 같을 것입니다 대충 예상해보자면 대략 전체 넓이의 40% 정도 돼 보이네요 대략 전체 넓이의 40% 정도 돼 보이네요 대략 데이터의 40%가 이 간격에 속한다 할 수 있습니다 만약 자료 중 3보다 큰 점들의 백분율이 무엇이냐 물었을 때 그렇다면 이 면적을 볼 것이고 대략 50% 정도 돼 보이네요 하지만 다시 한번 말하자면 추정만 하는 것입니다 하지만 추정치만으로도 밀도 곡선이 어떻게 유용한지 보이기 시작합니다 현실에서는 통계학자들은 주로 밀도 곡선의 정보를 나타내는 표를 가지고 있습니다 컴퓨터 프로그램이나 자동화를 위한 도구를 가지고 있기도 하죠 그리고 잘 알려진 유형의 밀도 곡선들도 있습니다 나중에 알아볼 유명한 종형 곡선은 매우 정밀한 데이터 점들을 많이 갖고있고 정확한 넓이를 계산할 수 있는 방법들을 가지고 있습니다 마지막으로 다루고 싶은 것은 밀도 곡선에 대한 핵심적인 오해입니다 만약 대략 자료의 몇 퍼센트가 정확히 하루 평균 3잔을 나타내냐 물으면 여기서 '정확히' 라는 것은 정말로 '정확히'를 뜻합니다 3.000에서 0이 무한대로 가는 수 말이죠 정확한 숫자 3말입니다 여기서 이 값이 3이라고 말하고 싶을 수도 있습니다 곡선에서 일치하는 점을 봐봅시다 대략 0.2 또는 조금 더 높아 보이네요 그리하여 20% 또는 20%보다 조금 더 높다 말할 수 있습니다 하지만 이 가정은 틀렸습니다 기억해보면 한 간격의 속하는 점들의 백분율은 곡선의 높이가 아닙니다 그 간격에 속하는 곡선 밑 넓이이죠 한 개의 정확한 값을 다룬다면 예시에 있는 정확한 숫자 3처럼요 곡선 아래 넓이는 존재하지 않습니다 여기 그린 3위의 수직선은 너비를 가지고 있지 않고 실제로 현실에서 볼 수 있는 현상입니다 1600만 명의 사람들을 조사했어도 한 명이라도 하루 평균 정확히 3잔을 마실 가능성은 아주 적습니다 단 한 원자라도 많거나 적지 않은 정확한 3잔을 말합니다 2.9와 3.1 사이에 사람들은 많을 수 있지만 그 누구도 하루 정확히 3잔을 마시지는 않습니다 누군가가 하루 평균 3잔을 마신다고 할 때 누군가가 하루 평균 3잔을 마신다고 할 때 그것은 어림잡은 추정값일 것입니다 3.001이나 2.99999 또는 3.15 아니면 다른 아무 값이겠죠 그리하여 대신 이 간격에 속하는 백분율이 무엇인지 말할 수 있습니다 2.9보다 크거나 같거나 3.1보다 작거나 같을 수 있겠죠 그리하여 간격이 주어진다면 실제로 넓이를 볼 수 있습니다 2.9에서 3.1까지 볼 때 실제 너비가 있는 간격을 갖고 있고 그리하여 노란색으로 채운 대략 이 부분의 넓이일 것입니다 넓이를 사각형으로 추정할 수 있고 곡선의 윗부분이 평평하진 않지만 대략 0.2 높이를 가진 사각형과 비슷하다고 할 수 있습니다 너비는 무엇일까요? 2.9에서 3.1까지 본다면 너비는 0.2가 될 것이고 이 넓이는 사각형의 넓이를 예측하여 넓이를 추정할 수 있을 것입니다 0.2 x 0.2는 0.04라는 넓이 또는 대략 자료의 4%가 이 간격에 속한다고 할 수 있습니다