이번 글에서는 "카운트 기반의 문서 표현"에 대해 복습도 할겸 정리하고자 한다 카운트 기반의 문서표현이란❓ 문서의 의미를 반영해 벡터를 만드는 건데 쉽게 말하자면 문서마다의 단어의 빈도수를 세고, 이를 통해 각각의 문서 및 텍스트를 이해하는 거라고 볼 수 있다. 그러기 위해서는 텍스트를 우리가 다룰 수 있는 수치 형태로 변환해야 하는데 이때, 수치는 그 텍스트의 "특성"을 이용하면 된다. 텍스트에서 특성이란❓ 단어를 의미하는 것이고, 특성의 값은 해당 단어의 빈도수를 의미한다. 우리는 이렇게 정의한 특성과 해당 특성이 가지는 값으로 텍스트를 구분할 수 있다. 이때, 모든 문서의 특서이 같아야 서로 비교할 수 있다는 점을 고려하여 동일한 단어들로 특성을 표현해야 한다. 즉 예를 들어 모든 문서에 대한 단어..
이번 포스트에서는 "자연어 전처리 기초"에 대해 정리하고자 한다. deep daiv 텍스트 마이닝 스터디 팟팅!😊😊자연어 처리는 아래와 같이 크게 4가지 단계로 나눌 수 있다. 1. 정제(processing) :특수문자뿐만 아니라 분석에 불필요한 불용어(stopwords)등을 제거하는 단계 2. 토큰화(tokenize) 단어 또는 문장을 기준으로 토큰화하는 작업(분류하는 작업?) 보통 단어를 기준으로 토큰화를 진행 3. 정규화(normalize) 같은 의미의 동일한 단어임에도 불구하고 다른 형태로 쓰였을 경우 이를, 단어의 원형으로 통일시키는 작업 4. 품사태킹(pos_tagging) 단어와 품사를 매치시키는 작업Sentence Tokenize : 문장을 기준으로 토큰화 하는 작업 : 주어진 텍스트를 "..