Coding/확률통계

sampling and sources of bias

수코일지 2024. 3. 11. 18:09

1. 표본화 기법

- Simple random sample (SRS) : 단순 임의추출
모집단에서 사례를 임의로 선택하여 각 사례가 고르게 선택될 수 있도록 한다

- Stratified sample : 층화추출
모집단을 계층이라고 하는 동질의 그룹으로 나눈 다음, 각 계층 내에서 임의로 표본화한다


- Cluster sample : 군집추출
모집단을 군집들로 나누고 몇 개의 군집을 임의로 표본화한 후, 이들 군집 내에서 모든 관측을 표본화한다
층화추출과 달리, 군집 내부는 이질적이나 각 군집은 서로가 유사하여 몇몇 군집에서 표본화하는 것만으로도 충분


- Multistage sample : 다단 추출
군집 추출에서 또 다른 한 단계를 더 추가한다. 모집단을 군집으로 나누고 몇 개의 군집을 임으로 표본화한 후 이러한 군집 내에서 관찰을 임의로 표본화한다

=> 군집추출 및 다단 추출을 사용하는 것은 경제적이기 때문!

2. 모든 사람을 포함하지 않고 sample을 통해 통계를 나누는 이유

-  어떤 사람들은 찾기가 어렵거나 측정이 어려울 수 있으며 이러한 사람들은 모집단의 나머지 사람들과 다를 수도 있다. 

ex) 미국 인구주택에서 이민자들의 답변이 제대로 입력되지 않는 경험

- 인구수가 그대로 유지 되지 않기 때문이다. 완벽한 측정이 불가능하다. 

표본화는 자연스러운 일