- 표본 추출 오류(sampling error)는 랜덤 표본의 통계와 실제 모집단 값 사이의 불일치를 의미한다. 그러나 이 "오류"는 단순히 모집단의 어떤 요소가 표본에 속하게 되는가에 기인한다.
- 즉, 표본오차는 자연적인 우연인자를 말하는 것이지, 설계가 부실하고 실행이 잘 안 되어 있는 실험에 의한 측정오류나 오류는 아니다.
- 우리는 실험의 실행을 통제할 수 있지만, 자연적인 것은 어느 정도 피할 수 없는 오류를 범한다.
예제)
- 샘플링 오류의 예시: 코인을 6번 던지고 {HHHHHH}를 획득하였다.
- 코인의 앞면이 50% 나올 것으로 예상하는데, 무엇이 잘못되었는가?
- 총 N = 64개의 가능성이 있지만, 20개만이 정확히 3개의 앞면과 3개의 뒷면을 포함하고 있다. 이와는 대조적으로 정확히 6개의 앞면을 포함하는 결과는 단 한 가지뿐이어서 드문 사건이다.(그러나 불가능하지는 않다.)
- 그럼에도 불구하고, 3개의 앞면(어떤 순서로든)은 이 모집단에서 가장 빈번한 요소로서, 평균이기도 하다.
- 무작위 샘플링 때문에 이러한 대표적인 샘플 중 하나인 {HTHTT}를 관찰하지 못한 것이지, 모집단의 평균이 실제로 3이 아니기 때문이 아니다.
- 우연의 법칙과 사건의 실제 상태가 결합되어 표본 추출과정에 항상 작용하고 있는 자연적인 힘을 만들어낸다. 따라서 동일한 모집단에서 추출한 다른 표본의 평균은 우연에 의해 '실제' 평균을 중심으로 달라질 것으로 예상된다.
(The laws of chance combined with the true state of affairs create a natural force that is always operating on the sampling process. Consequently, the means of different samples taken from the same population are expected to vary around the 'true' mean just by chance.)
* http://www.montefiore.ulg.ac.be/~kvansteen/MATH0008-2/ac20112012/Class4/Chapter4_ac1112_v5a2.pdf
'Statistics' 카테고리의 다른 글
Confidence Interval (0) | 2020.05.25 |
---|---|
Goodness-of-fit test (0) | 2020.05.19 |
Systematic and Chance factor (0) | 2020.05.19 |
Chances and Probability (0) | 2020.05.19 |
Random and independent samples (0) | 2020.05.19 |
댓글