본문 바로가기
mathematics

Statistics - 표본추출

by 앵남(Andy) 2021. 10. 19.

글 개요

이번 포스팅은 모집단에서 표본을 추출할 때 표본을 어떻게 추출 해야하는지를 알아보겠습니다.

 

글 본문

일단, 표본을 추출할 때 두가지 방법이 존재합니다. 

1. 확률표본추출 

2. 비확률 표본추출

 

확률표본추출(Probability sampling)

모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출방법

====> 표본추출틀(Sampling frame, 표집틀)이 필요합니다.

 

예를들어 모집단: {1, 2, 3, 4, 5} 에서 2개의 표본을 추출하는 방법

 어떤 개체가 표본으로 뽑힐 확률은? 2/5 

특정한 표본이 선정될 확률을 토대로 추정오차를 과학적으로 설명

 

비확률표본추출(non-probability sampling)

특정 표본이 선정될 확률을 알 수 없습니다.

  - 추론결과의 정확도(precision) X 

 

예를들어 편의추출, 유의추출, 할당추출 

편의추출: 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사

유의추출: 전문가 선택 

할당추출: 그룹 내 조사대상 선택

  - 랜덤화 과정이 없다. 

할당추출은 내가 조사할 대상을 보고 나누는것 예를들어 남여별로 차이가 존재 나누고 연령별 다를거 같다 나누고 이렇게 조사할 대상을 나누는 것이다. 할당추출은 랜덤화과정이 없습니다. 랜덤화 과정이 없다는 것은 무작위로 표본을 선택하는게 없다는 것입니다. 조사하는 사람이 임의로 선택해서 조사해야합니다.

 

목표모집단(target population)

관심대상이 되는 모든 기본단위들의 집합 시공간상 명확하게 정의된 연구대상 집단 

조사시점, 지리적인 경계, 연령 기준등등 

예를들어 수도권 거주 고등학생 학부모 조사

학부모에 대한 표본추출틀이 필요하지만 모호합니다. 그래서 조사모집단이 나왔습니다. 조사모집단은 표본추출틀안에 있는 것들이 조사모집단입니다.

조사모집단(survey population)

조사가능모집단(accessible popluation)

현실적인 제약 고려 표본추출 대상 기본단위들의 집합

표본추출틀을 통해 추출될 수 있는 기본단위들의 집합

예 전화여론조사: 전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인

 

확률표본추출방법 

1. 단순확률추출법(Simple random sampling)

2. 계층추출방법(Systematic sampling)

3. 층화확률추출방법(Stratified random sampling)

4. 집락추출방법(Cluster sampling)

 

 

단순확률추출방법(Simple random sampling)

크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출합니다.

모든 단위들이 표본에 선택될 확률이 동일하다. 

 

예 가구조사: P(이니네 집 추출) = n/N 

 

계통표본추출방법(Systematic sampling)

표집틀에서 처음 1 ~ k번째 단위들 중 하나를 랜덤하게 선택한 다음에 매 k간격으로 단위들을 표본추출합니다. 

 

추출간격 K설정, N/n또는 정확도를 고려 결정

1 ~ K에서 난수 하나를 선택해서 시작점을 선정

시작점에서 K를 반복적으로 더해서 표본추출

예 모집단 크기 500 표본크기 50   k설정 --> 500/50  = 10 

1 ~ 10사이 난수 하나 선택 예를들어 3  k간격으로 단위들을 추출 

3 13, 23, 43, 53 .....493 총 50개 추출 그렇다면 1 ~ 10 사이 시작점으로 선택될 확률은 1/10

 

층화확률추출방법(Stratified random sampling)

모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출

부모집단(subpopulation)의 구성 내역을 알고있어야 합니다. 

 

모집단이 특성들로 나누어집니다. 이런것들이 부모집단이라고 하고 각각 비율을 가지고 있습니다. 각각 특성들에서 무작위로 추출합니다. 

그래서 구성내역을 알고 있어야 합니다. 구성내역은 부모집단이 차지하고 있는 비율 입니다. 

이렇게 각 층에서 독립적으로 표본을 추출합니다. 추출방법은 단순확률 표본추출법을 이용합니다.

 

집락표본추출(cluster sampling)

소로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사합니다.

 

예를들어 서울시 고등학생 월평균 사교육비용 추정

SRS:

  추출틀: 서울시 전체 고등학생 명단 - > 작성비용 과다

  조사대상: 서울 전역에 산재됨 -> 조사비용 과다

 

집락 추출:

   1단계: 고등학교추출(PSU primary sampling unit)

   2단계: 학생추출(학급->학생)

 

집락추출에서 서울시전체고등학교 리스트는 쉽게 구할 수 있습니다. 이들중 무작위로 고등학교를 추출하고(프라이머리 샘플링 유닛) 이들중 각 학급을 뽑고 학급에서 학생들을 뽑는 단계입니다. 

 

집락표본추출를 활용하는 이유는 조사단위에 대한 표집틀을 확보하기가 어렵습니다. 상대적으로 집락에 대한 표집틀은 확보는 쉽습니다.

 

조사단위들이 산재되어 관측비용증가 --> 지역적으로 집중되도록 표본을 추출합니다.

 

결론

모집단을 대표할 수 있는 표본을 추출할 때 사용하는 방법은 확률표본추출방법 밖에 없습니다. 

확률표본추출방법은 단순확률추출법, 계층추출법, 증화추출법, 집락추출법이 있습니다.

댓글