데이터 분석 대상의 자료 특성에 따라 범주형자료와 연속형 자료로 구분
범주형 데이터
크기를 갖지 않기때문에 연산 불가능
자료에 포함된 관측값들을 종류별로 세는 것
이를 통해 종류별 비율을 알 수 있고 이결과를 바탕으로 막대 그래프 또는 원그래프등 그릴수있음
table()함수로 벡터 내 범주형 자료의 종류별 도수분포표 계산 가능
table() 함수는 데이터 빈도 분할표를 자동으로 만듬
도수분포표 도출하는 코드
도수분포표
univ <- c ("상명대", "대전대", "동의대", "단국대",
"단국대", "동의대", "우송대", "홍익대", "상명대",
"원광보건대")
print(univ) #univ 벡터 출력
table(univ) #도수분포표 계산
table(univ) / length(univ) #비율 출력
table <- table(univ)
barplot(table, main = "재학 대학 분포")
이렇게 막대그래프 그릴수있어열
pie(table, main = "재학 대학 분포")
이걸론 원그래프 그릴수있어열
명목척도: 자료를 이름이나 명칭으로 구분하고 숫자를 부여한 척도 ex) 혈액형
순서를 매길수 없고, 연산할 수 없음, 단순히 식별을 위해서 숫자를 부여하긴함
서열척도: 개체 간의 특정 속성을 바탕으로 서열 관계를 가지는 척도 ex) 미국이 중국보다 앞서긴하지만 두개를 더할순없 음 연산 불가!
연속형 데이터
관측값들이 크기를 가지기때문에 범주형 자료에 비해서 다양한 분석 방법이 존재
절사평균: 평균이 자료내에 있는 너뭌 ㅡ거나 작은 관측값에 영향을 받는것을 완화하기 위하여 상하위 20퍼값 제거후
평균 계산하는것
mean(bmi) #평균
median(bmi) #중앙값
mean(bmi, trim = 0.2) #절사평균(상하위 20% 값 제외)
사분위수: 주어진 자료에 값들을 크기순으로 나열했을때 4등분하는 지점에 있는 값들을 의미함
자료의 값을 4등분하면 등분점이 3개가 생기며 각각 1사분위수 2사분위수 3사분위수 라고부름
2사분위수는 중앙값과 동일함 주어진 자료의 값들을 절반으로 나눈 구간이니까
각 구간에는 25퍼의 자료가 존재함 4등분했으니까
bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34)
quantile(bmi) #사분위수 계산
summary(bmi) #요약통계량
산포: 주어진 자료의 값들이 흩어져있는 정보를 의미함.(분산과 표준편차로 파악)
분산과 표준편차가 작다 -> 자료들의 관측값들이 평균값 주변에 모여있다
분산과 표준편차가 크다 -> 자료들의 관측값들이 평균값에서 멀리 떨어져있다
bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34)
var(bmi) #분산
sd(bmi) #표준편차
range(bmi) #값의 범위
diff(bmi) #최대값과 최소값 간의 차이
boxplot(bmi)
이걸로 산포를 상자그래프로 나타낼수있음
상자그래프 보는법
구간척도: 연속적인 숫자로 수량화 할 수 있으며,그 숫자들간의 간격이 동일함 ex) 서울 기온 23도, 도쿄기온 28도같은것
수령호 할 수 있기 때문에 몇만큼 크고 작다 표현할수있음, 근데 절대적인 0값을 가지고 없다라고 표현불가
ex) 시베리아 기온이 0 도라고하면 없다라고는 말 못함 (0도도 기온이니께) 근데 0도? ㅈㄴ춥겠다 ㄷㄷ
비율척도: 연속적인 숫자로 수량화 할수있으며, 그 숫자들간의 비율이 동일함 대소 비교뿐만 아니라 사칙연산도 가능
이건 절대적인 0값을 가지고 없다라고 표현할수있음 ex) 만약에 어떤 회사 인원이 0명이면 그 회사에는 인원이 없다고 할수있음
단일변수 자료: 하나의 변수로만 구성된 자료(벡터가 1개)
다중변수 자료: 두개 이상의 변수로 구성된 자료(벡터가 여러개)