페이지

2018년 1월 16일 화요일

1. 통계 분석 개요

가. 통계학의 정의
우리는 일상생활에서각종 통계를 접하며 살고 있다. 일상적으로 접하는 통계는 매일 발표되는 일기예보와 물가.실업률.GNP 등과 같은 경제통계, 각 정당에 대한 지지도 조사나 가족법 개정에 대한 의식조사와 같은 사회조사 분석통계, 새로운 희귀병 치표제의 임상실험 결과와 같은 실험결과 분석통계 등 다양한 형태를 갖고 있다. 통계학을 한마디로 정의하기는 어렵지만 통계학은 자료로부터 유용한 정보를 이끌어 내는 학문이라는 데 대부분의 통계학자들이 동의할 것이다. 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다.

나. 모집단과 표본
자료로부터 유용한 정보를 이끌어 낼 때 해당 정보에 대한 대상이 있다. 정당에 대한 지지도에 관해 논의한다면 구체적으로 대한민국 전체 국민들의 지지도, 유권자들의 지지도, 또는 서울에 거주하는 유권자의 지지도를 일컫는 것인지를 확실하게 하는 것은 매우 중요하다. 이 때 유용한 정보의 대상이 되는 것을 모집단이라고 한다. 즉 모집단은 우리가 알고자 하는 전체를 의미한다. 모집단을 구성하는 개체를 추출단위 혹은 원소라고 한다.
모집단에 대해 조사하는 방법에는 총조사(census)와 표본조서로 나눈다. 충조사는 모집단의 개체 모두를 조사하는 방법으로 많은 비용과 시간이 소요되므로 '인구주택총조사'등 특별한 경우를 제외하고는 실시되지 않는다. 따라서 일부분만 조사하여 모집단에 대해 추론하는 것이 보통인데, 이런한 조사를 표본조사라고 하고 이 때 조사하는 모집단의 일부분을 표본(sample)이라 한다. 모집단에 대해 알고자 하는 값을 모수(parameter)라고 하고, 모수를 추론하기 위해 구하는 표본의 값들을 통계량(statistic)이라 한다.
모집단은 유한 모집단과 무한 모집단으로 나뉜다. 유한 모집단은 유한 개의 개체로 이루어진 모집단이고, 무한 모집단은 무한 개의 개체로 이루어진 모집단으로 보통 개념적으로 상정된 모집단을 지칭한다.

다. 표본추출의 방법
총조사가 아닌 표본조사를 바탕으로 분석한 결과를 사용하거나 이해할 때는 모집단의 정의, 표본의 크기, 조사방법(면접조사, 우편조사, 전화조사, 이메일 조사 등), 조사기간, 표본추출 방법을 명확하게 밝히거나 확인해야 한다. 이러한 사항들에 따라 분석 결과의 해석은 큰 차이가 발생할 수 있다. 이중에서도 표본조사에서 가장 주용한 것은 모집단을 대표할 수 있는 표본 추출이다. 표본을 추출하는 방법에는 여러 가지가 있지만 가장 대표적인 방법으로는 단순랜덤추출법(simple random sampling), 계통추출법(systematic sampling), 집락추출법(stratifiied sampling)등이 있다. 실무에서는 이 방법들을 혼합해 사용하고 있다.

- 단순랜덤추출법: N개의 원소로 구성된 모집단에서 n개(n<= N)의 표본을 추출할 때 각 원소에 1, 2, 3, ....N까지의 번호를 부여한다. 여기서 n 개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다.

-계통추출법:모집단의 모든 원소들에게 1, 2, 3, .....N의 일련번호를 부여하고 이를 순서대로 나영한 후에 K개(K=N/n)씩 n개의 구간으로 나눈다. 첫 구간(1, 2, 3,..,K)에서 하나를 임의로선택한 후에 K개씩 뛰어서 표본을 추출한다.

- 집락추출법: 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 일부 집락을 랜덤으로 선택된 각 집락에서 표본을 임의로 선택한다.

- 층화추출법: 상당이 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다.

표본조사 이외에 자료를 수집하는 방법으로 실험이 있다. 표본조사가 대상 집단의 일부를 추출해 어떤 현상을 관측 또는 조사해 자료를 수집하는 방법인데 비해, 실험이란 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법이다. 새로운 강의방법이 기존의 강의방법에 비해 쇼과적인지를 확인하기 위해 임의의 2개 학급을 선정해 새로운 강의방법과 기존 강의방법으로 일정기간 강의한 후 시험을 보고 성적을 조사한다.새로운 암 치료제의 효과를 분석하기 위해 암환자 20명을 임의적으로 10명씩 두 집단으로 나누고, 한 집단에는 새로운 암 치료제를 투여하고 다른 집단에는 아무 효과가 없는 가짜약을 투여한 후에 치료효과를 분석하는 등의 방식으로 실험이 실시되고 있다.

라. 자료의 종류
표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로붜 주어진 목적에 적합하도록 관측해 자료를 얻는 것을 측정(measurement)이라고 한다. 측정방법은 크게 명목철도(nominal scale), 순서척도(ordinal scale), 구간척도(interval scale), 비율척도(ration scale)로 구분할 수 있다. 명목척도와 순서척도로 측정된 자료를 질적 자료(qualitative data)라고 하고, 구간척도와 비율척도를 측정된 자료를 양적자료(quantitative data)라고 정의한다.

- 명목철도: 측정 대상이 어느 집단에 속하는지 분퓨할 때 사용되는 척도로, 성별(남, 여) 구분, 출생지(서울특별시, 부산광역시, 경기도 등) 구분 등이 명목척도에 해당된다.

- 순서척도: 측정 대상의 특성이 가지는 서열관계를 관측하는 척도로, 선택사항이 일정한 순서로 돼 있다. 특정 서비스의 선호도를 (아주 좋아한다, 좋아한다, 그저 그렇다, 싫어한다, 아주 싫어한다)로 구분해 묻는 경우에 관측된 자료가 순서척도에 해당된다.

- 구간척도: 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다. 따라서 두 관측값 사이의 비율은 별 의미가 없게 되는 척도로 온도, 지수 등이 구간척도에 해당된다.

- 비율척도: 절대적 기준인 0값이 존재하고 모든 사칙연산이 가능하며 제일 많은 정보를 가지고 있는 척도이다. 무게, 나이, 연간소득, 제품가격 등 숙자로 관측 되는 일반적인 자료의 특성이 비율척도에 해당 된다.


댓글 없음: