자연어처리

수행기간 2023-04 ~ 2023-11 깃헙 : https://github.com/pej0918/AI_Voice_Phishing_Detection_Solution_Utilizing_NLP_Algorithms GitHub - pej0918/AI_Voice_Phishing_Detection_Solution_Utilizing_NLP_Algorithms: 🐟 2023 Kibwa Project by Piranha : NLP 알고 🐟 2023 Kibwa Project by Piranha : NLP 알고리즘을 활용한 AI 보이스피싱 탐지 솔루션 🐟 - GitHub - pej0918/AI_Voice_Phishing_Detection_Solution_Utilizing_NLP_Algorithms: 🐟 2023 Kibwa..
Named Entity Recognition(NER) 문장 단어의 이름을 찾고 구분하는 작업 단순하게 구현하면 context window를 활용하여 다음과 같이 구현 가능 개체명을 기준으로 동사와 기타 단어들이 관계를 맺는 구조로 이어지기 때문에, 즉 문법적으로 중요한 품사로 해석되어 문맥을 파악하는데 핵심 역할을 하므로 NER 은 NLP task 에서 중요하게 간주된다. 👉 NER 에 자주 쓰이는 모델 : CRF, RNN 한계점 - 문장내에서 사용되는 entity 의 정확한 개체를 분류하기 어려운 한계점 👉 문맥까지 고려하는 window classification 방법론 등장 Idea : 중심 단어와 주변 단어들을 함께 분류 문제에 활용하는 방법 Method1 : 단어벡터의 평균으로 게산한다. but ..
Word2Vec U는 context word들에 대한 vectors, V는 center word에 대한 vector가 된다. one-hot encoding 된 vector와의 곱 연산을 통해 word vector를 획득한다. Optimization은 GD 알고리즘을 사용한다 했지만, 일반적으로 이는 비효율적이다. 왜냐하면 매 update 마다 모든 word의 gradient를 계산하는 것은 시간이 매우 오래걸리기 때문이다. 그러므로 gradient descent 대신 stochastic gradient descent를 사용한다. Stochastice gradient descent는 모든 word에 대한 gradient를 계산하여 update 하는 것이 아닌 하나의 word 또는 mini-batch siz..
How do we represent the meaning of word? 1. WordNet 동의어(synonym) 및 언어의 상하관계(hypernyms)를 담고있는 사전. But, WordNet은 아래와 같은 몇가지 문제점이 가지고 있음. 뉘앙스를 반영하지 못함.(e.g. proficient는 특정 context에서만 good과 동의어 관계) 새로운 단어 반영이 어려움.(e.g. wicked, badass 등) → 업데이트가 불가능! 주관적임. human labor, 즉 인간의 손을 거쳐야 함. 정확한 word similarity를 계산할 수 없음. 2. One-Hot vector Word를 discrete symbol로 여기는 방식. 특정 단어의 위치에 해당하는 숫자만 1이고 나머지는 0으로 표시. ..
이번 포스트에서는 "자연어 전처리 기초"에 대해 정리하고자 한다. deep daiv 텍스트 마이닝 스터디 팟팅!😊😊자연어 처리는 아래와 같이 크게 4가지 단계로 나눌 수 있다. 1. 정제(processing) :특수문자뿐만 아니라 분석에 불필요한 불용어(stopwords)등을 제거하는 단계 2. 토큰화(tokenize) 단어 또는 문장을 기준으로 토큰화하는 작업(분류하는 작업?) 보통 단어를 기준으로 토큰화를 진행 3. 정규화(normalize) 같은 의미의 동일한 단어임에도 불구하고 다른 형태로 쓰였을 경우 이를, 단어의 원형으로 통일시키는 작업 4. 품사태킹(pos_tagging) 단어와 품사를 매치시키는 작업Sentence Tokenize : 문장을 기준으로 토큰화 하는 작업 : 주어진 텍스트를 "..
Ju_pyter
'자연어처리' 태그의 글 목록