텍스트 마이닝 & 워드클라우드

현재까지 숫자 형태의 데이터를 다루는 방법을 학습

데이터 분석 대상 중에는 숫자 뿐만 아니라 문자 형태의 데이터도 있음 ex)이메일 카톡 댓글등

텍스트 마이닝은 문자형 데이터를 분석하는 대표적 방법

명사들의 출현 빈도수를 계산하여 시각화함 -> 이를 단어들이 모여 만들어진 구름처럼 시각화한 것이 워드 클라우드

 

워드클라우드를 활용한 텍스트 마이닝 순서

1.워드클라우드 그래픽 실현을 위한 jre설치 rtools설치

2.텍스트 데이터 생성 및 저장

3.koNlp패키지 설치

4.워드 클라우드 생성

 

텍스트 데이터 생성하기

워드클라우드를 작성할 대상 문서는 일반적으로 텍스트 파일 형태(.txt)로 준비

텍스트 파일의 마지막 문장이 끝나면 반드시 줄바꿈 엔터키를 한후에 저장

파일 저장할땐 인코딩 UTF-8로저장

파일 저장할땐 영어로 이름 설정

 

KONLP자연어 처리 패키지: 자연어처리란 컴퓨터가 사람의 언어를 이해할 수 있도록 처리하는 과정이며, 텍스트 마이닝에서 필수적인 과정

한국어를 자연어 처리로 분석할수 있도록 돕는 패키지임

wordcloud(names(wordcount), 
freq=wordcount, 
scale=c(7,1), 
rot.per=0.25,
단어 빈도수를 바탕으로 개별 단어의 크기를 정하고 
전체 워드클라우드의 크기를 정하고 
90도 돌아간 단어들의 비중(0~1) 
min.freq=1, 워드클라우드에 포함되는 단어의 최소 빈도수 
random.order=F, 
random.color=T,
무작위 배치 유무
단어들의 무작위 색상 지정 유무 
colors=palete) 색상 설정

워드클라우드 생성하기

워드클라우드 2로 더 예쁜 워드클라우드 만들기

library(wordcloud2) 
wordcloud2(wordcount, 
shape = “star”)

 

인터넷 검색어 분석하기

인터넷 검색어를 중심으로 사용자들의 관심사를 분석할 수 있도록 지원해주는 많은 사이트들이 있음 ex)네이버 데이터랩,구글 트렌드

 

공공빅데이터

공공데이터 포털은 가장 풍부한 공공데이터를 제공하는 사이트임

 

요약정리


 JRE 설치 / RTools설치
 텍스트 데이터 생성 및 저장
– 텍스트 파일 형태(.txt)로 준비
– 반드시 줄 바꿈(Enter 키)을 한 후에 저장
– “다른 이름으로 저장”을 선택하고, 인코딩을 UTF-8로 저장 
– 파일명은 영어로 저장 
 KoNLP패키지 설치 
– Sys.setenv()
– install.packages("KoNLP")

워드클라우드생성
– library(KoNLP) 
– library(wordcloud) 
– library(RColorBrewer)
– 변수 <- readLines("위치“) 
– 변수 <- toString(변수) 
– buildDictionary(ext_dic= “woorimalsam”) 
– noun <- extractNoun(변수) 
– wordcount<-table(noun)
- palete<- brewer.pal(색의수, “빨레트 이름”)
- wordcloud(names(wordcount))
-library(wordcloud2)
- wordcloud2(wordcount, shape = “star”)

 

'빅데이터' 카테고리의 다른 글

데이터 시각화  (0) 2022.12.04
회귀분석  (0) 2022.12.04
다중변수 자료  (0) 2022.12.04
데이터 구조파악  (0) 2022.12.03

데이터 시각화는 데이터 분석 결과를 쉽게 이해할수 있도록 시각적으로 표현하는 과정임

데이터를 요약하고, 한눈에 살펴볼수있도록 돕는 시각화가 필수임

 

필수요소

정보 이해를 돕는 데이터 구조 파악

적절한 데이터 표현 기법 사용

효과적인 시각화 디자인

 

실무에서 가장 많이 사용되는 시각화 도구 
treemap(트리맵 생성) 

사각 타일의 형태로 구성 데이터에 존재하는 계층구조 표현가능

treemap() 함수 
treemap(data, 
index=c(“계층구조1”, “계층구조2”), 
vSize = “크기 기준변수”)

install.packages("treemap") #패키지 설치 
library(treemap) #패키지 불러오기 
data("GNI2014") #데이터 불러오기 
head(GNI2014) #데이터 확인하기
treemap(GNI2014, 
index = c("continent", "iso3"), #계층구조 설정 
vSize = "population", #타일 크기 
vColor = "GNI", #타일 색상 
type = "value", #타일 컬러링 방법 
bg.labels = "yellow", #레이블 배경색 
title = "세계 GNI") #트리맵 제목


symbols(버블차트 생성) 

산점도 위에 버블의 크기로 정보를 표시하는 시각화 방법

별도의 패키지 설치 안해도됌

symbols() 함수 
symbols(x축 변수, y축 변수, 
circles = 원 기준 변수)

state <- data.frame(state.x77) #매트릭스 -> 데이터프레임 변환 
symbols(state$Illiteracy, state$Murder, #원의 x, y 좌표의 열 
circles = state$Population, #원의 반지름 열 
inches = 0.3, #원의 크기 조절 값 
fg = "white", #원의 테두리 색 
bg = "lightgray", #원의 바탕색 
lwd = 1.5, #원의 테두리 두께 
xlab = "문맹률", #x축 범례 
ylab = "살인율", #y축 범례 
main = "문맹률과 살인율 버블차트") #버블차트 제목

text(state$Illiteracy, state$Murder, #텍스트가 출력될 x, y 좌표 
rownames(state), #출력할 텍스트 
cex = 0.6, #폰트 크기 
col = "brown") #폰트 컬러


mosaicplot(모자이크 플롯 생성) 

다중변수 범주형 데이터에 대해 각 변수의 그룹별 비율을 면적으로 표시하여 정보를 전달

mosaicplot() 함수 
mosaicplot(~ x축변수+ y축변수, 
data = 데이터프레임)

data(mtcars)
mosaicplot(~gear+vs, 
data = mtcars, 
color = TRUE, 
main = "Gear & Vs")

 


ggplot(데이터 시각화 통합 도구)

기본함수를 사용해 그래프를 그릴수있지만, 더욱 심미적인 그래프 작업을 위해 ggplot패키지를 주로 사용

install.packages("ggplot2") 
library(ggplot2)

기본구조

ggplot(data = 데이터프레임, aes(x=x축 변수, y=y축 변수)) # 그래프 틀
+ <geom_FUNCTION>(stat=“identity”, width =수치, fill ="컬러") # 그래프 형태

 

막대 그래프

범주형 변수에 대한 값의 빈도 개수를 표시하는 그래프

library(ggplot2) #ggplot 패키기 가져오기 
month <- c(1, 2, 3, 4, 5, 6) #월 벡터 
weight <- c(40, 48, 47, 45, 43, 39) #몸무게 벡터 
df <- data.frame(month, weight) #월 & 몸무게 데이터프레임
ggplot(data=df, aes(x = month, y = weight)) #x, y축 지정 
+ geom_bar(stat = "identity", width = 0.8, fill = "steelblue") 
#막대 높이, 막대 폭, 막대 색상 지정하여 그래프 생성

선그래프

무언가가 지속적으로 변화하는것을 기록할때 유용

library(ggplot2) 
head(Orange)
ggplot(data= Orange, 
aes(x = age, y = circumference)) # 그래프 작성 대상 지정 
+ geom_line(aes(color = Tree)) # 선그래프 생성

 

산점도

변수간의 상관관계를 표현하기 위해 사용

평균에서 벗어난 이상치 값 파악할때 유용

data(mtcars) 
library(ggplot2)
ggplot(data=mtcars, aes(x = hp, y = mpg)) 
+ geom_point()

 

상자 그래프

연속형 변수에 대한 데이터 분포를 표시

최소 최대값을 표시하며 분포와 이상치를 찾는데 특화됨

library(ggplot2) 
ggplot(data=mtcars, aes(y = hp)) + geom_boxplot()

 

차원축소란 고차원 데이터를 2-3차원으로 축소하는 기법

차원축소 이유 : 2~3차원으로 축소된 데이터로 산점도를 작성하여 데이터 분포 확인을 위해 
차원축소 방법 : 3차원 상의 물체를 빛에 비추면 그림자가 생기는 것과 비슷한 방법 활용

 

Rtsne() 함수 사용

library(Rtsne) 
library(ggplot2) 
library(survival) 
cancer <- gbsg[, c("age", "size", "grade", "nodes")]  #gbsg 데이터셋 중 필요한 열만 추출 
grade <- cancer$grade #grade 열 추출
#4차원 데이터를 2차원으로 축소하기
tsne <- Rtsne(cancer, dim = 2, perplexity = 10, check_duplicates = FALSE)
#차원축소 결과 시각화
tsneDF <- data.frame(tsne$Y) 
ggplot(data=tsneDF, aes(x=X1, y=X2, color = grade)) + geom_point(size = 2)

 

요약정리

 

데이터 시각화
– 트리맵 treemap() 함수
treemap(data, index=c(“계층구조1”, “계층구조2”), vSize=“크기 기준변수”) 
– 버블차트 symbols() 함수
symbols(x축 변수, y축 변수, circles = 원 기준 변수) 
– 모자이크 플롯 mosaicplot() 함수
mosaicplot(~ x축 변수 + y축 변수, data = 데이터프레임)

 

ggplot
ggplot(data = 데이터프레임, aes(x=x축 변수, y=y축 변수)) # 그래프 틀 
+ <geom_FUNCTION>(stat=“identity”, width =수치, fill ="컬러") # 그래프 형태 
– geom_FUNCTION

geom_bar: 막대 그래프 
geom_line: 선 그래프 
gom_point: 산점도 
geom_boxplot: 상자 그래프

 

차원 축소
– Rtsne(데이터프레임, dim = 차원 수, perplexity = 10, check_duplicate= F)

'빅데이터' 카테고리의 다른 글

R텍스트 마이닝  (0) 2022.12.05
회귀분석  (0) 2022.12.04
다중변수 자료  (0) 2022.12.04
데이터 구조파악  (0) 2022.12.03

회귀분석(회귀  이론을 기초로 독립변수가 종속변수에 미치는 영향을 파악하여 예측모형을 도출하는 통계적 방법)의 시초는 아버지와 아들의 키 연관성 연구에서 부터 시작됌

아들의 키가 아버지의 키 수준으로 얼마나 회귀하는지 찾기 위한 연구

 

독립변수: 어떠한 현상을 설명할때 현상의 발생에 영향을 미치는 요인

종속변수: 독립변수의 영향에 따라 결정되는 요인

예측모형: 독립변수와 종속변수에 해당하는 자료를 모아 관계를 분석하고, 이를 예측할수있는 통게적 방법으로 정리한것

 

식사량 운동량 수면시간은 독립변수이고

체중감소량은 종속변수이다

 

회귀식 : 독립변수와 종속변수 사이의 관계를 수학식으로 표현 
단순회귀 : 독립변수의 1개인 경우
다중회귀 : 독립변수가 2개 이상인 경우
로지스틱 회귀 : 종속변수의 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우, 이를
분석하기 위해 사용하는 통계적 방법
분류 : 데이터로부터 어떠한 범주를 예측하는 작업

 

 

단순회귀분석 개념
독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하여 예측에 활용하는 통계적 방법 
독립변수와 종속변수에 대해 수집한 데이터를 활용하여, 인과관계를 가장 잘 설명하는
w와 b를 찾는 게 단순회귀분석의 목표

단순회귀식 
y=wx + b (w, b는 상수)
x -> 독립변수(영향을 주는 값) 
y -> 종속변수(영향을 받는 값) 
w -> 단순회귀선의 기울기
b -> 단순회귀선의 절편(y축과 단순회귀선이 닿는 지점)

w의 값에따라서 기울기가 달라짐

 

(기존 mtcars 데이터를 통해, 차량 중량을 바탕으로 연비를 예측하는 모형 만들기)

data(mtcars) 
plot(mpg~wt, data = mtcars)  #차량 중량(x)과 연비(y) 간의 산점도를 통해 선형관계 확인
model <- lm(mpg~wt, mtcars) #회귀모형 생성하기 
abline(model)  #회귀선을 산점도 위에 표시
coef(model)[1] # 회귀결과 추출 : b값을 출력(37.28) 
coef(model)[2]  # 회귀결과 추출 : w값을 출력(-5.34)

차량중량 – 연비 단순회귀분석 회귀식
𝑚𝑝𝑔 = −5.34 ∗𝑤𝑡+37.28

 

(새로운 차량 중량 값을 대입하여, 연비 값을 예측해보기)

b <- coef(model)[1]  #b값 대입 
w <- coef(model)[2]  #w값 대입 
wtSample <- 3.8  #예측하고자 하는 독립변수 대입
equation <- w * wtSample + b  #회귀식 만들기 
print(equation)  #회귀식에 독립변수 대입한 결과 출력

 

회귀 모형 오차구하기

회귀모형의 예측값과 실제값의 차이

wtData <- mtcars[,"wt"]  #전체 차량 중량 데이터 선택
mpgPred <- w * wtData + b  #wtData를 회귀선에 대입하여 전체 차량 연비 예측값 도출 
mpgData <- mtcars[, "mpg"]  #전체 차량 연비 데이터 선택
compare <- data.frame(mpgPred, mpgData, mpgPred – mpgData)
#차량 연비 예측값, 차량 연비 실제값, 예측값과 실제값 간의 차이 계산값을 담은 데이터프레임 생성 
colnames(compare) <- c("예상", "실제", "오차")  #데이터프레임 열 이름 재정의 
head(compare)

 

다중회귀분석: 여러 개의 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하여, 예측에 활용하는
통계적 방법

y=w1x1 + w2x2 + w3x3 + … wnxn +b (w, b는 상수)
x-> 독립변수(영향을 주는 값) 
y-> 종속변수(영향을 받는 값) 
 w-> 회귀계수(회귀선의 기울기)
b-> 회귀상수(y축과 회귀선이 닿는 지점)

 

다중회귀분석의 주의사항!

독립변수와 종속변수간의 높은 상관관계

선택한 독립변수간에는 서로 낮은 상관관계를 보여야함 (다중공선성 문제가 발생가능)

독립변수 개수는 적을수록 유리

 

다중공선성은 독립변수들이 서로간에 강한 상관관계가 있어 상호 영햐을 줘서 종속변수 예측 값에 부정적인 영향을 주는 현상을 말함 -> 종속변수 추정에 오류를 발생시킬수있음

 

다중회귀분석

data(mtcars)
colnames(데이터프레임) <- c(“”, “”, “”,…)
• 데이터프레임 열 명칭 재설정
df <- data.frame(mtcars$wt, mtcars$disp, mtcars$hp) 
#독립변수 데이터들을 바탕으로 DF 생성
colnames(df) <- c("중량", "배기량", "마력")  #DF 열 명칭 재설정
plot(df, pch = 16, col = "blue", main = "산점도 매트릭스")  #3:3 산점도 매트릭스 그리기
model <- lm(mpg ~ wt + disp + hp, data = mtcars)  #다중회귀분석 예측모형 만들기 
summary(model)  #예측모형 결과 도출

R-square는 다중선형회귀모형이 mpg를 얼마나 잘 설명하는지 나타냄. 0.65 이상이면 잘 설명하는 것으로 간주함.

stepAIC() 함수를 통해 유의미한 독립변수 만으로 회귀모형을 만드는 변수선택을 진행하여, 새로운 회귀모형을 만들고 최종 회귀식 도출

 

요약정리

 

회귀분석 이해
– 독립변수 / 종속 변수 / 예측모형 
– 단순회귀 / 다중회귀

 

lm() 함수
– 회귀분석에 필수적인 함수
– lm(formula, data) / lm(y축 변수~x축 변수, 데이터프레임)

 

단순회귀분석
– 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하여 예측에 활용하는 통계적 방법 
– y=wx + b (w, b는 상수)
data(데이터프레임) 
plot(y축 변수~x축 변수, data=데이터프레임) 
lm(y축 변수~x축 변수, 데이터프레임) 
abline(회귀식l) 
coef(회귀식) [1] b값 출력 [2] w값 출력

 

다중회귀분석
– 여러 개의 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하여,예측에 활용하는 통계적 방법 
– y=w1x1+ w2x2+ w3x3+ …wnxn+b (w, b는 상수)
data(데이터프레임) 
data.frame(데이터프레임$변수1, 데이터프레임$변수2, 데이터프레임$변수3) 
colnames(뉴데이터프레임) <- c(변경할 문구)
lm(y축 변수~x축 변수1+x축 변수2+x축 변수3+...,, 데이터프레임) 
library(MASS) 
stepAIC(회귀식) 
summary(회귀모델) 

'빅데이터' 카테고리의 다른 글

R텍스트 마이닝  (0) 2022.12.05
데이터 시각화  (0) 2022.12.04
다중변수 자료  (0) 2022.12.04
데이터 구조파악  (0) 2022.12.03

다중변수 자료 탐색에는 산점도와 상관분석이있다.

산점도(scatter plot)는 2개의 변수로 구성된 자료의 분포를 알아보는 그래프, 관측단위별 값들의 분포를 통해서 2개의 변수 사이의 관계를 파악하는 것이다. 

산점도 그리는법

print(mtcars) 
wt <- mtcars$wt 
mpg <- mtcars$mpg 
plot(wt, mpg)
data(mtcars) 
wt <- mtcars$wt 
mpg <- mtcars$mpg 
plot(wt, mpg,
# R 제공 mtcars 데이터셋 
# 중량 자료 
# 연비 자료 
# 2개 변수 (x축, y축) 
main = "중량-연비 산점도", # 제목 
xlab = "중량(wt)", 
ylab = "연비(mpg)", 
col = "red", 
pch = 19)


# x축 레이블 
# y축 레이블 
# point 컬러 
# point 종류

산점도로 3개 이상의 변수사이의 관계도 파악 가능

다중산점도 그리는법

vars <- c("mpg", "disp", "drat", "wt")  # 대상 변수 
target <- mtcars[,vars]  # 데이터프레임에서 위의 변수명을 가진 열 선택 
head(target)  # 데이터프레임 확인 
pairs(target, main = "Multi Plots”) # 다중 산점도 생성

 

상관분석은 두 변수간의 관계를 분석하기 위해 사용됨

변수는 연속형 자료만 가능함(저번에 배운 구간척도, 비율척도)

ex) 키의 변화는 몸무게의 변화와 관계가 있는가? 가설: 키가 커지면 몸무게가 늘어난다

 

상관계수 r은 x와 y사 함께 변하는 정도/x와 y가 각각변하는 정도

두 변수간 X와 Y가 완전히 동일하면 상관계수 r은 +1 (양의상관관계)
두 변수간 X와 Y가 반대방향으로 완전히 동일하면 상관계수 r은 -1 (음의 상관관계) 
두 변수간 X와 Y가 상관성이 없으면 상관계수 r은 0

 

 

 

 

 

 

상관분석 

plot() 함수
plot() 함수는 x와 y의 2개 축을 기준으로 좌표를 찍듯이 그리는 컨셉을 
가지는 함수
예시. plot(2,1)
plot() 함수는 산점도(scatter plot)를 그리는 함수 
plot(벡터2(Y)~ 벡터1(X), data=데이터프레임)

 

데이터프레임을 생성하고 산점도
음주정도(beers)에 따라 혈중알코올농도(bal)가 변하는 정도

beers <- c(5, 2, 9, 8, 3, 7, 3, 5, 3, 5)
bal <- c(0.1, 0.03, 0.19, 0.12, 0.04, 0.095, 0.07, 0.06, 0.02, 0.05) 
ca <- data.frame(beers, bal) 
print(ca)
plot(bal~beers, data=ca) # 산점도

lm()함수는 리니어 모델의 약자로 선형모델을 맞추는데 사용

lm()함수는 y=ax+b형태의 1차식이며 두변수의 선형 관계를 가장 잘 나타낼수있는 선의 식을 자동으로 찾는역할을함

adline()함수- 그래프위에 선을 추가하고싶은경우 사용

lm(벡터2~벡터1, data=데이터프레임) # 회귀식 도출 
abline(회귀식) # 회귀선 그리기
camodel <- lm(bal~beers, data=ca) 
abline(camodel)

이런식으로 사용하면 됨,

 

cor()함수 = 상관계수를 구하는 함수

cor(beers,bal)

이런식으로 상관계수를 구함

기본값은 피어슨 상관계수임

 

상관계수 상관관계
± 0.9 이상 상관관계가 아주 높다 
± 0.7 ~ 0.9 상관관계가 높다 
± 0.4 ~ 0.7 상관관계가 있다 
± 0.2 ~ 0.4 상관관계가 있으나 낮다 
± 0.2 미만 상관관계가 거의 없다

 

선그래프

두개의 변수중 하나가 시간을 나타내는 값일때 사용함.

시계열 자료- 시간의 변화에  따라 자료의 증감추이를 확인

 

선그래프를 작성하는 함수는 산점도를 작성할때 사용한 plot()함수인데 여기서 매개변수 type의 값을 l로 하면 선그래프가 작성됨.

month <- 1:12
cold <- c(5,8,7,9,4,6,12,13,8,6,6,4) 
plot(month, # x data 
cold, # y data 
main=“감기 환자 통계”, # 제목 
type=“l”, # 그래프의 종류 선택(알파벳) Line 
lty=1, # 선의 종류(Line Type) 선택 
lwd=1, # 선의 굵기 선택 
xlab=“month”, # x축 레이블 
ylab=“cold patients”) # y축 레이블

 

복수 선그래프를 나타낼때

lines()함수를 이용하면됨 

lines()함수는 좌표의 점들을 이어서 선을 그리는 함수임 plot()함수로 작성한 그래프 위에 선을 겹쳐서 그리는 역할

month <- 1:12
cold1 <- c(5,8,7,9,4,6,12,13,8,6,6,4) 
cold2 <- c(4,6,5,8,7,8,10,11,6,5,7,3) 
plot(month, # x data 
cold1, # y data 
main=“감기 환자 통계”, # 제목 
type=“b”, # 그래프의 종류 선택(알파벳) Line 
lty=1, # 선의 종류(Line Type) 선택 
lwd=1, # 선의 굵기 선택 
col=“red”, # 선의 색 선택(빨강) 
xlab=“month”, # x축 레이블 
ylab=“cold patients” # y축 레이블 
ylim=c(1,15))# y축 값의 (하한, 상한)
lines(month, # x data 
cold2, # y data 
type=“b”, # 선의 종류 선택 
col=“blue”) # 선의 색 선택(파랑)

요약 정리

 

산점도

-plot(x축,y축)

-main/xlab/ylab/col/pch

 

다중산점도

-pairs(target, main = "Multi Plots”)

-target <- 데이터프레임[,vars]

 

상관분석

-연속형 자료로만 가능

-plot()함수 #산점도

-lm(벡터2~벡터1, data=데이터프레임) # 회귀식 도출

-abline(회귀식)#회귀선 그리기

 

상관계수

– r = X와 Y가 함께 변하는 정도
– cor(벡터1,벡터2)  # 상관계수 계산
– r은 +1 (양의상관관계) / R은 -1 (음의 상관관계) / R은 0

 

선그래프

– plot() 함수 # 산점도
– lines() 함수 # plot() 함수로 작성한 그래프 위에 선을 겹쳐서 그리는 역할

'빅데이터' 카테고리의 다른 글

R텍스트 마이닝  (0) 2022.12.05
데이터 시각화  (0) 2022.12.04
회귀분석  (0) 2022.12.04
데이터 구조파악  (0) 2022.12.03

데이터 분석 대상의 자료 특성에 따라 범주형자료와 연속형 자료로 구분

 

범주형 데이터

크기를 갖지 않기때문에 연산 불가능

자료에 포함된 관측값들을 종류별로 세는 것

이를 통해 종류별 비율을 알 수 있고 이결과를 바탕으로 막대 그래프 또는 원그래프등 그릴수있음

table()함수로 벡터 내 범주형 자료의 종류별 도수분포표 계산 가능

table() 함수는 데이터 빈도 분할표를 자동으로 만듬

 

도수분포표 도출하는 코드

도수분포표
univ <- c ("상명대", "대전대", "동의대", "단국대", 
"단국대", "동의대", "우송대", "홍익대", "상명대", 
"원광보건대")
print(univ) #univ 벡터 출력
table(univ) #도수분포표 계산 
table(univ) / length(univ) #비율 출력

table <- table(univ)
barplot(table, main = "재학 대학 분포")

이렇게 막대그래프 그릴수있어열

 

pie(table, main = "재학 대학 분포")

이걸론 원그래프 그릴수있어열

 

 

명목척도: 자료를 이름이나 명칭으로 구분하고 숫자를 부여한 척도 ex) 혈액형

                순서를 매길수 없고, 연산할 수 없음, 단순히 식별을 위해서 숫자를 부여하긴함

서열척도: 개체 간의 특정 속성을 바탕으로 서열 관계를 가지는 척도 ex) 미국이 중국보다  앞서긴하지만 두개를 더할순없                   음 연산 불가!

연속형 데이터

관측값들이 크기를 가지기때문에 범주형 자료에 비해서 다양한 분석 방법이 존재

절사평균: 평균이 자료내에 있는 너뭌 ㅡ거나 작은 관측값에 영향을 받는것을 완화하기 위하여 상하위 20퍼값 제거후 

평균 계산하는것

mean(bmi)  #평균 
median(bmi)  #중앙값 
mean(bmi, trim = 0.2)  #절사평균(상하위 20% 값 제외)

사분위수: 주어진 자료에 값들을 크기순으로 나열했을때 4등분하는 지점에 있는 값들을 의미함

자료의 값을 4등분하면 등분점이 3개가 생기며 각각 1사분위수 2사분위수 3사분위수 라고부름

2사분위수는 중앙값과 동일함 주어진 자료의 값들을 절반으로 나눈 구간이니까

각 구간에는 25퍼의 자료가 존재함 4등분했으니까

bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34) 
quantile(bmi)  #사분위수 계산 
summary(bmi)  #요약통계량

산포: 주어진 자료의 값들이 흩어져있는 정보를 의미함.(분산과 표준편차로 파악)

분산과 표준편차가 작다 -> 자료들의 관측값들이 평균값 주변에 모여있다 
분산과 표준편차가 크다 -> 자료들의 관측값들이 평균값에서 멀리 떨어져있다

bmi <- c(12.1, 12.8, 15, 19, 22, 28, 31.1, 34) 
var(bmi)  #분산 
sd(bmi)  #표준편차 
range(bmi)  #값의 범위 
diff(bmi)  #최대값과 최소값 간의 차이

boxplot(bmi)

이걸로 산포를 상자그래프로 나타낼수있음

 

상자그래프 보는법

구간척도: 연속적인 숫자로 수량화 할 수 있으며,그 숫자들간의 간격이 동일함 ex) 서울 기온 23도, 도쿄기온 28도같은것

                수령호 할 수 있기 때문에 몇만큼 크고 작다 표현할수있음, 근데 절대적인 0값을 가지고 없다라고 표현불가

                 ex) 시베리아 기온이 0 도라고하면 없다라고는 말 못함 (0도도 기온이니께) 근데 0도? ㅈㄴ춥겠다 ㄷㄷ

비율척도: 연속적인 숫자로 수량화 할수있으며, 그 숫자들간의 비율이 동일함 대소 비교뿐만 아니라 사칙연산도 가능

                이건 절대적인 0값을 가지고 없다라고 표현할수있음 ex) 만약에 어떤 회사 인원이 0명이면 그 회사에는 인원이                   없다고 할수있음 

 

단일변수 자료: 하나의 변수로만 구성된 자료(벡터가 1개)

다중변수 자료: 두개 이상의 변수로 구성된 자료(벡터가 여러개)

 

 

'빅데이터' 카테고리의 다른 글

R텍스트 마이닝  (0) 2022.12.05
데이터 시각화  (0) 2022.12.04
회귀분석  (0) 2022.12.04
다중변수 자료  (0) 2022.12.04

+ Recent posts