텍스트 마이닝 & 워드클라우드
현재까지 숫자 형태의 데이터를 다루는 방법을 학습
데이터 분석 대상 중에는 숫자 뿐만 아니라 문자 형태의 데이터도 있음 ex)이메일 카톡 댓글등
텍스트 마이닝은 문자형 데이터를 분석하는 대표적 방법
명사들의 출현 빈도수를 계산하여 시각화함 -> 이를 단어들이 모여 만들어진 구름처럼 시각화한 것이 워드 클라우드
워드클라우드를 활용한 텍스트 마이닝 순서
1.워드클라우드 그래픽 실현을 위한 jre설치 rtools설치
2.텍스트 데이터 생성 및 저장
3.koNlp패키지 설치
4.워드 클라우드 생성
텍스트 데이터 생성하기
워드클라우드를 작성할 대상 문서는 일반적으로 텍스트 파일 형태(.txt)로 준비
텍스트 파일의 마지막 문장이 끝나면 반드시 줄바꿈 엔터키를 한후에 저장
파일 저장할땐 인코딩 UTF-8로저장
파일 저장할땐 영어로 이름 설정
KONLP자연어 처리 패키지: 자연어처리란 컴퓨터가 사람의 언어를 이해할 수 있도록 처리하는 과정이며, 텍스트 마이닝에서 필수적인 과정
한국어를 자연어 처리로 분석할수 있도록 돕는 패키지임
wordcloud(names(wordcount),
freq=wordcount,
scale=c(7,1),
rot.per=0.25,
단어 빈도수를 바탕으로 개별 단어의 크기를 정하고
전체 워드클라우드의 크기를 정하고
90도 돌아간 단어들의 비중(0~1)
min.freq=1, 워드클라우드에 포함되는 단어의 최소 빈도수
random.order=F,
random.color=T,
무작위 배치 유무
단어들의 무작위 색상 지정 유무
colors=palete) 색상 설정
워드클라우드 생성하기
워드클라우드 2로 더 예쁜 워드클라우드 만들기
library(wordcloud2)
wordcloud2(wordcount,
shape = “star”)
인터넷 검색어 분석하기
인터넷 검색어를 중심으로 사용자들의 관심사를 분석할 수 있도록 지원해주는 많은 사이트들이 있음 ex)네이버 데이터랩,구글 트렌드
공공빅데이터
공공데이터 포털은 가장 풍부한 공공데이터를 제공하는 사이트임
요약정리
JRE 설치 / RTools설치
텍스트 데이터 생성 및 저장
– 텍스트 파일 형태(.txt)로 준비
– 반드시 줄 바꿈(Enter 키)을 한 후에 저장
– “다른 이름으로 저장”을 선택하고, 인코딩을 UTF-8로 저장
– 파일명은 영어로 저장
KoNLP패키지 설치
– Sys.setenv()
– install.packages("KoNLP")
워드클라우드생성
– library(KoNLP)
– library(wordcloud)
– library(RColorBrewer)
– 변수 <- readLines("위치“)
– 변수 <- toString(변수)
– buildDictionary(ext_dic= “woorimalsam”)
– noun <- extractNoun(변수)
– wordcount<-table(noun)
- palete<- brewer.pal(색의수, “빨레트 이름”)
- wordcloud(names(wordcount))
-library(wordcloud2)
- wordcloud2(wordcount, shape = “star”)