본문 바로가기
Statistics

Sampling

by wycho 2020. 6. 30.

데이터 분석을 하다보면 sampling을 해야할 상황이 많다. 그러다보면 terminology를 명확히 할 필요가 있다.

 

[ Sampling ]

Random sampling(probability sampling)이란 가정을 많이 한다. 이것은 population의 distribution을 알고 있을 때, 즉 전체 sample이 얼만큼 있는지 알고 있을 때, random하게 sample을 뽑는다. 이렇게 선택된 sample이 population을 대표할 수 있다면 가장 좋은 sampling이 되는 것이고, 그렇지 못할 경우 variation은 sampling error가 된다.

 

Random assignment는 random하게 선택한 상태에 따라 labeling하는 것이다. 예를 들어, 동전을 던져 앞면이 나오면 control 그룹이라고 하고, 뒷면이 나오면 treatment 그룹이라고 하는 것이다. 다른 예로, 100명이 있다고 하면 random  generator를 이용해서 random하게 50명에는 control그룹, 50명에는 treatment그룹으로 assign하는 것이다. 동전던지기와 같은 경우, 그룹의 사이즈가 다를 수 있지만 sampling을 많이 할 수록 차이는 줄어들게 된다.

 

Non-random sampling(nonprobability sampling)은 random sampling과 다르게 convenience, consecutive, snowball, purpositive sampling하는 방법이다.

 

Sampling은 왜 하는 것일까?

특정 확률밀도함수의 평균값(기대값)을 계산하거나, 특정 확률값을 계산하려는 이유가 있다.

 

 

Reference 

- https://en.wikipedia.org/wiki/Simple_random_sample

- https://en.wikipedia.org/wiki/Nonprobability_sampling

- https://www.statology.org/random-selection-vs-random-assignment/

 

 

'Statistics' 카테고리의 다른 글

Bayesian inference  (0) 2020.08.03
Discrete probability distribution  (0) 2020.07.07
Linear vs Nonlinear Model  (0) 2020.06.24
Predicted R-square  (0) 2020.05.29
F-statistics  (0) 2020.05.28

댓글