데이터 분석 대상의 자료 특성에 따라 범주형자료와 연속형 자료로 구분

 

범주형 데이터

크기를 갖지 않기때문에 연산 불가능

자료에 포함된 관측값들을 종류별로 세는 것

이를 통해 종류별 비율을 알 수 있고 이결과를 바탕으로 막대 그래프 또는 원그래프등 그릴수있음

table()함수로 벡터 내 범주형 자료의 종류별 도수분포표 계산 가능

table() 함수는 데이터 빈도 분할표를 자동으로 만듬

 

도수분포표 도출하는 코드

도수분포표
univ <- c ("상명대", "대전대", "동의대", "단국대", 
"단국대", "동의대", "우송대", "홍익대", "상명대", 
"원광보건대")
print(univ) #univ 벡터 출력
table(univ) #도수분포표 계산 
table(univ) / length(univ) #비율 출력

table <- table(univ)
barplot(table, main = "재학 대학 분포")

이렇게 막대그래프 그릴수있어열

 

pie(table, main = "재학 대학 분포")

이걸론 원그래프 그릴수있어열

 

 

명목척도: 자료를 이름이나 명칭으로 구분하고 숫자를 부여한 척도 ex) 혈액형

                순서를 매길수 없고, 연산할 수 없음, 단순히 식별을 위해서 숫자를 부여하긴함

서열척도: 개체 간의 특정 속성을 바탕으로 서열 관계를 가지는 척도 ex) 미국이 중국보다  앞서긴하지만 두개를 더할순없                   음 연산 불가!

연속형 데이터

관측값들이 크기를 가지기때문에 범주형 자료에 비해서 다양한 분석 방법이 존재

절사평균: 평균이 자료내에 있는 너뭌 ㅡ거나 작은 관측값에 영향을 받는것을 완화하기 위하여 상하위 20퍼값 제거후 

평균 계산하는것

mean(bmi)  #평균 
median(bmi)  #중앙값 
mean(bmi, trim = 0.2)  #절사평균(상하위 20% 값 제외)

사분위수: 주어진 자료에 값들을 크기순으로 나열했을때 4등분하는 지점에 있는 값들을 의미함

자료의 값을 4등분하면 등분점이 3개가 생기며 각각 1사분위수 2사분위수 3사분위수 라고부름

2사분위수는 중앙값과 동일함 주어진 자료의 값들을 절반으로 나눈 구간이니까

각 구간에는 25퍼의 자료가 존재함 4등분했으니까

bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34) 
quantile(bmi)  #사분위수 계산 
summary(bmi)  #요약통계량

산포: 주어진 자료의 값들이 흩어져있는 정보를 의미함.(분산과 표준편차로 파악)

분산과 표준편차가 작다 -> 자료들의 관측값들이 평균값 주변에 모여있다 
분산과 표준편차가 크다 -> 자료들의 관측값들이 평균값에서 멀리 떨어져있다

bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34) 
var(bmi)  #분산 
sd(bmi)  #표준편차 
range(bmi)  #값의 범위 
diff(bmi)  #최대값과 최소값 간의 차이

boxplot(bmi)

이걸로 산포를 상자그래프로 나타낼수있음

 

상자그래프 보는법

구간척도: 연속적인 숫자로 수량화 할 수 있으며,그 숫자들간의 간격이 동일함 ex) 서울 기온 23도, 도쿄기온 28도같은것

                수령호 할 수 있기 때문에 몇만큼 크고 작다 표현할수있음, 근데 절대적인 0값을 가지고 없다라고 표현불가

                 ex) 시베리아 기온이 0 도라고하면 없다라고는 말 못함 (0도도 기온이니께) 근데 0도? ㅈㄴ춥겠다 ㄷㄷ

비율척도: 연속적인 숫자로 수량화 할수있으며, 그 숫자들간의 비율이 동일함 대소 비교뿐만 아니라 사칙연산도 가능

                이건 절대적인 0값을 가지고 없다라고 표현할수있음 ex) 만약에 어떤 회사 인원이 0명이면 그 회사에는 인원이                   없다고 할수있음 

 

단일변수 자료: 하나의 변수로만 구성된 자료(벡터가 1개)

다중변수 자료: 두개 이상의 변수로 구성된 자료(벡터가 여러개)

 

 

'빅데이터' 카테고리의 다른 글

R텍스트 마이닝  (0) 2022.12.05
데이터 시각화  (0) 2022.12.04
회귀분석  (0) 2022.12.04
다중변수 자료  (0) 2022.12.04

+ Recent posts