N-GRAM

Language Modeling - Language Model은 텍스트에 확률을 할당하는 시스템으로 생각할 수 있다. (문장의 단어 x(1), x(2) , ... x(t) 가 주어졌을 때 다음에 올 단어 x(t+1) 의 확률) - 예를 들어 텍스트의 일부 x(1),x(2),...,x(t)를 가지고 있을 때, Language Model에 따라 이 텍스트가 발생할 확률(자연스러운 문장일 확률)은 다음과 같다. ⇒ 단어의 시퀀스(문장)에 대해서 얼마나 자연스러운 문장인지를 확률을 이용해 예측한다. 활용 문장의 확률 또는 단어의 등장 확률을 예측 기계번역, 음성인식, 자동완성(ex. 구글 검색) n-gram Language Models - Deep Learning 이전에 Language Model에 주로 사용된..
문서분류❓ 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업을 의미 예를 들어 몇개의 뉴스가 있다면 이 뉴스들을 어떤 카테고리의 뉴스인지, 가령 정치, 환경 등등으로 분류하는 것을 말한다. 머신러닝으로도 문서 분류할 수 있는데 문서분류는 지도학습으로 분류가 된다. 즉, 모델 학습을 위해서는 모든 문서 또는 텍스트에 대해서 라벨이나 분류 카테고리가 있어야 한다는 뜻이다.뉴스 데이터를 가지고 한번 실습해보고자 한다.from sklearn.datasets import fetch_20newsgroups #20개의 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'] #학..