If you're seeing this message, it means we're having trouble loading external resources on our website.

웹 필터가 올바르게 작동하지 않으면 도메인 *. kastatic.org*.kasandbox.org이 차단되어 있는지 확인하세요.

주요 내용

참고: 비율 추론에 필요한 조건

한 비율(신뢰구간 구축 혹은 유의성 검정)에 대한 추론을 수행하고자 할 때, 몇 가지 조건에 따라 방법의 정확도가 달라집니다. 구간 혹은 검정에 대하여 실제로 계산하기 전에, 이 조건들이 만족하는지 확인하는 것이 중요합니다. 그렇지 않으면 계산과 결론은 타당하지 않게 됩니다.
한 비율에 대한 추론에 필요한 조건은 다음과 같습니다:
  • 임의성: 자료는 임의표본 혹은 무작위 실험으로부터 나와야 합니다.
  • 일반성: p^의 표본분포는 정규분포를 따라야 합니다. 적어도 성공 횟수와 실패 횟수가 10이 되어야 합니다.
  • 독립성: 각각의 관측값은 독립이어야 합니다. 비복원추출을 한다면, 표본의 크기는 모집단의 10%를 초과하면 안됩니다.
이 조건들을 좀 더 깊게 살펴봅시다.

임의성 조건

임의표본은 모집단으로부터 편견이 없는 자료를 제공합니다. 표본이 임의추출되지 않았을 때, 자료에 편견이 형성되므로, 모집단에 대하여 추론할 때 위험할 수 있습니다.
구체적으로, 표본비율은 모비율의 편견 없는 추정치입니다. 예를 들어, 캔디 한 바구니가 있는데 그 중 50%가 오렌지색이고 여기서 임의표본을 추출한다면, 어떤 표본에는 오렌지색이 50% 넘게 있을 것이고 어떤 표본은 그렇지 않을 것입니다. 하지만 평균적으로, 표본에서의 오렌지 사탕의 비율은 50%로 동일합니다. 임의표본인 가정 하에 이 특징을 μp^=p로 나타낼 수 있습니다.
이것은 표본이 임의추출되지 않았다면 일어나지 않습니다. 편향된 표본은 부정확한 결과를 낳으므로, 신뢰구간을 형성하거나 유의성 검정을 시행할 수 없습니다.

일반성 조건

p^의 표본분포는 성공과 실패의 기댓값이 적어도 10이라면 정규분포를 따릅니다. 이는 표본의 크기 n이 충분히 클 때 발생합니다. 이에 대한 증명은 AP 통계학의 범위를 넘어가지만, 표본분포를 배우는 단계에서 이 조건이 유효하다는 직관과 검증을 할 수 있습니다.
따라서 다음 조건을 만족해야 합니다:
성공 기댓값 : np10실패 기댓값: n(1p)10
신뢰구간을 형성할 때, p값은 필요없고, 대신 표본 자료에서 성공과 실패 관측값을 세서 둘 다 확실하게 10이 넘어야 합니다. 유의성 검정을 한다면, 표본의 크기 n과 가정한 값 p를 사용하여 성공과 실패 기댓값을 계산해야 합니다.

독립성 조건

p^의 표준편차를 구하는 공식을 사용하기 위해서, 각각의 관측값이 독립이어야 합니다. 비복원추출을 할 때, 관측값이 빠지면서 모집단이 변화하기 때문에 각 관측값은 엄밀히 말하자면 독립이 아닙니다.
하지만 10% 조건에 따르면, 표본이 모집단의 10% 이하일 때 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않으므로 각 관측값은 독립이라고 할 수 있습니다. 예를 들어, 표본의 크기가 n=150이라면, 모집단의 크기는 적어도 N=1500이 되어야 합니다.
이를 통해 p^의 표준편차에 대한 공식을 사용할 수 있습니다:
σp^=p(1p)n
유의성 검정에서, 표본의 크기 n과 가정한 값 p를 사용합니다.
p에 대한 신뢰구간을 만든다면, p의 실제 값을 모르므로, p의 추정치로 p^를 대입합니다. 이렇게 할 때, 이것을 표준편차와 구분하기 위해 p^표준오차라고 부릅니다.
따라서 p^의 표준오차에 대한 공식은 다음과 같습니다:
σp^p^(1p^)n