감성 분석은 말 그대로 어떤 텍스트에 대한 감성을 분석하는 것이다. > 긍정 , 중립, 부정 (또는 긍정, 부정으로만 나눌 때도 있음) 이러한 감성을 분류하는 척도를 "극성"이라고 하며 감성의 정도를 의미한다. 보통은 아래의 기준으로 감성을 분류한다. 0 : 중립 양수 : 긍정 음수 : 부정 감성분석 방법론 감성 분석 하는 방법으로는 크게 2가지로 나눌 수 있다. 1. 어휘 기반 : 감성 사전 구축 감성을 표현할 수 있는 명사, 동사, 형용사를 대상으로 모든 단어에 긍정 혹은 부정의 감성을 붙여 감성 사전을 먼저 구축한 후 이를 기반으로 텍스트에 대한 감성 분석 진행 ( 이때 감성 사전은 직접 구축할 수도 있고, 누군가가 이미 구축한 사전을 가져와서 사용할 수도 있다 ) 텍스트에 대한 감성을 계산하는 방..
이번에는 토픽모델링에 대해 공부한 내용을 회고하고자 한다. 토픽모델링은 주로 LDA 모델을 이용한다. LDA LDA는 LatentDirichletAllocation의 약자로, 문서들이 쓰여질 때, 그 문서를 구성하는 몇 개의 토픽이 존재하며 각 토픽은 단어의 집합으로 구성되어있다를 가정으로 한다. 여기서 가정은 가정일 뿐, 각 문서에서 토픽이 무엇이고 각 토픽은 어떤 단어들로 이루어졌다는 사실이 명시적으로 드러나지는 않는다. 그래서 '내재된 주제 혹은 토픽'이라고 부르며 LDA는 이와 같이 내재된 토픽들을 유추하고자 하는 통계적 방법론이라고 부를 수 있다. 이때, 토픽은 문서마다 개별적으로 전혀 다른 토픽이 있는 것이 아니라 전체 말뭉치를 관통하는 토픽들이 있으며, 문서는 이러한 공통적인 토픽들이 다양한..
이번 포스트에서는 "자연어 전처리 기초"에 대해 정리하고자 한다. deep daiv 텍스트 마이닝 스터디 팟팅!😊😊자연어 처리는 아래와 같이 크게 4가지 단계로 나눌 수 있다. 1. 정제(processing) :특수문자뿐만 아니라 분석에 불필요한 불용어(stopwords)등을 제거하는 단계 2. 토큰화(tokenize) 단어 또는 문장을 기준으로 토큰화하는 작업(분류하는 작업?) 보통 단어를 기준으로 토큰화를 진행 3. 정규화(normalize) 같은 의미의 동일한 단어임에도 불구하고 다른 형태로 쓰였을 경우 이를, 단어의 원형으로 통일시키는 작업 4. 품사태킹(pos_tagging) 단어와 품사를 매치시키는 작업Sentence Tokenize : 문장을 기준으로 토큰화 하는 작업 : 주어진 텍스트를 "..