글 개요
이번 포스팅은 통계학의 이해 강의 자료의 분류에 대해서 정리하려고 합니다.
글 본문
효과적인 자료분석을 위해 자료를 속성에 따라 분류해 볼 수 있습니다. 통계분석 방법은 자료의 속성과 분석 목적에 따라 달라집니다.
분석방법에서 가정한 조건을 얼마나 만족하는지에 따라 결정할 수 있습니다. 그래서 자료의 속성에 따른 분류가 필요합니다.
변수(Variable)
변수는 일변량 자료(Univariate data): 하나의 변수만 있는 자료와 다변량 자료(Multivariate data):여러 개의 변수로 이루어진 자료 가 존재합니다. 즉, 변수간의 관계가 있을 수 있고 없을 수가 있습니다. 예를들어, 아래 데이터 셋이 있다고 가정합니다.
성 | 비만도 | 신장 | 채중 |
남자 | 정상 | 180 | 75 |
여 | 저체중 | 165 | 47 |
성과 비만도는 관련이 없습니다. 그러나 신장과 체중은 관계가 존재합니다.
자료의 분류
범주형 자료(Categorical Data)
- 명목형 자료(nominal data)
- 순서형 자료(ordinal data)
범주형 자료는 위처럼 두가지가 존재합니다.
명목형 자료는 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시합니다. 예를들어 혈액형 A, B, O, AB이 있다고 가정합니다. 이들을 숫자로 바꿔보면 1, 2, 3, 4로 바꿀 수 있습니다. 1, 2, 3, 4 로 바꾼다고 해서 3 < 4더 큰건 아닙니다. 즉, O형이 AB보다 큰거는 아니라는 소리입니다
다른 예로는 성별로 들자면 남자가 여자보다 크다 여자가 남자보다 크다 이런것 처럼 명목형 자료형을 수치로 바꿨을 때 누가 크고 누가 작은지를 할 수 없습니다.
순서형 자료 순서형 자료는 명목형 자료 반대로 범주의 순서가 상대 비교가 가능합니다. 예를들어 비만도를 비교해보자면 저체중, 정상, 과체중, 비만, 고도비만 이있다고 생각했을 때 비만도는 위로 갈 수 록 비만도가 높다고 표현할 수 있습니다. 또 다른 예로 학점 A, B, C, D, F도 A 학점으로 갈 수 록 매우 좋습니다. 이렇게 순서형 자료는 숫자로 변경해서 누가 크고 작음을 비교할 수 있습니다.
수치형 자료 (Numerical data)
- 이산자료(Discrete data)
- 연속형자료(Continuous data)
이산자료형은 셀 수 있는 형태의 자료형을 나타납니다. 예를들어 충치 수, 교통사고 건수, 자녀의 수, 학급 수 처럼 표현하는게 이산자료형 입니다. 또한, 이산자료형은 범주형 자료분석에 사용되기도 합니다.
연속형자료형은 연속적인 속성을 가지는 자료형입니다. 예를들어 신장, 체중, 시간 등등 연속적인 느낌을 가지는 데이터입니다. 연속형자료는 대부분 이산화를 통해 절사된 형태로 표시합니다. 척도에 따라 명목, 순서, 구간, 비율척도로 나눕니다.
이산자료와 연속 자료형은 범주화를 하게되면 때로는 순서형 자료가 될 수 있습니다. 그리고 범주형 자료를 묶어서 보면 이산자료 와 연속자료형이 될 수 있습니다. 다양한 연결고리가 존재합니다. 하지만, 이산자료, 연속자료에서 순서자료로 가게되면 데이터 손실이 있을 수 있습니다. 왜냐하면 데이터를 그룹화를 하면서 실제 정보를 조금씩 손실되기 때문입니다. 그래서 상황에 따라 적절한 방법인지 효율적인 방법인지 자료에 맞게 선택을 해야합니다.
'mathematics' 카테고리의 다른 글
Statistics - 히스토그램(Histogram) (0) | 2021.10.23 |
---|---|
Statistics - 막대그래프(Bar Chart) (0) | 2021.10.23 |
Statistics - 표본추출 (0) | 2021.10.19 |
Statistics- 모집단(Population) 과 표본(Sample) (0) | 2021.10.19 |
기초수학 - 순열과 조합 및 확률 (0) | 2021.09.27 |
댓글