✍️ STUDY

이제까지 우린 학습 데이터로부터 손실 값을 구해서 모델의 학습 여부를 판단했다. 이를 다른 표현으로 학습 오차라고 부른다. >그런데 만약 학습 데이터에 잘못된 레이블이 있다면.. 또는 의도치 않게 편향이 존재한다면 어떻게 될까?그렇다면 언더피팅은 무엇일까?f*를 근사하는 것이다. 하지만 그림에서 확인할 수 있듯이 이 데이터셋은 편향 또는 노이즈를 포함하고 있기도 하다. 이때, 왼쪽과 같이 선형 모델로 이 데이터를 모델링하고자 한다면 잘 동작하지 않을 것이다. 선형 모델은 이 데이터를 학습하기에 너무 수용능력이 작기때문이다. 따라서 이러한 경우에 언더피팅이 발생하게 된다. 또는 오른쪽 그림과 같이 너무 복잡한 형태의 함수로 근사할 수도 있을 것이다. 하지만 이 경우에는 아마 지나친 일반화가 이루어진것이라고..
이번 글에서는 "최적화"에 대해 공부한 내용을 회고 하고자한다. 최적화란? 최적화를 말하기 전 먼저 "하이퍼 파라미터"에 대해 이야기 해보자! 하이퍼 파리미터는 모델의 성능에 크게 영향을 끼치지만 자동으로 최적화되지 않는 파라미터를 의미한다. 즉, 사용자가 직접 값들을 설정해야 하는 중요한 변수를 의미한다. 학습률, 미니배치 크기, 심층신경망의 깊이, 너비등이 하이퍼파라미터에 속한다. 우리는 모델의 성능을 끌어올리기 위해서는 하이퍼파라미터의 잘 설정해주는 것이 매우 중요한데, 경사하강법과 같이 자동으로 자동으로 찾아주는 방법이 없기 때문에 사용자가 직접 실험을 통해 성능을 지켜보면서 값을 튜닝해야 한다. 적응형 학습률 학습률은 모델을 학습하는데 매우 중요한 파라미터, 하이퍼 파라미터라고 할 수 있다. 학..
이미지, 음성, 텍스트등과 같은 데이터들은 비선형 데이터일 뿐만 아니라 높은 차원의 데이터이다. 선형 모델로 이러한 데이터들을 다루는 데에는 한계가 존재 이러한 문제들을 심층신경망이 해결할 수 있다. 심층신경망? 비선형 데이터를 풀기 위해서 계층을 깊게 쌓아올린 것이다. 이때 서로 다른 선형 계층을 깊게 쌓아 구성할 수 있다. 이때, 여러개의 선형 계층을 쌓아올려봤자 결과로 또 다른 선형계층이 나올 뿐..! 따라서 이러한 방법으로는 비선형 문제를 풀 수 없다. >그렇다면 어떻게 해결할 수 있을까?심층신경망 학습은 어떻게 할까?심층신경망이 너무 깊어지면?y=ReLU(x)=max(0,x) 음수 구간에서는 전부 0의 값을 가지고, 양수 구간에서는 전부 기울기가 1인 형태가 된다. 하지만, 음수 구간에서 전부 ..
세상에는 많은 종류의 데이터가 있다. 우리는 데이터를 모아서 알수 없는 함수 f* 를 근사하고 싶어 한다. > 그렇다면 어떤 모델로 그 함수를 근사할 수 있을까?W와 b를 가중치 파라미터로 갖고 있다는 말이다. 모델의 가중치 파라미터들의 집합을 이제 θ라고 표현하도록 하겠다. θ ={ W ,b } 이름이 선형계층이듯이 선형관계 데이터를 주로 나타낼 때 사용이 된다. 예를 들어 키와 몸무게를 생각해보자. 보통은 키가 크면 몸무게가 많이 나간다. 또는 공부량과 성적간의 관계를 생각해보면 마찬가지다. 이러한 관계를 "선형 관계"라고 말한다. 선형회귀 선형적 관계를 가진 데이터들을 예측하는 문제를 선형회귀라고 부른다. 아래 사진을 보자 파란색 점이 실제 데이터를 의미하며 빨간 점선은 이러한 파란색 점들의 선형 ..
감성 분석은 말 그대로 어떤 텍스트에 대한 감성을 분석하는 것이다. > 긍정 , 중립, 부정 (또는 긍정, 부정으로만 나눌 때도 있음) 이러한 감성을 분류하는 척도를 "극성"이라고 하며 감성의 정도를 의미한다. 보통은 아래의 기준으로 감성을 분류한다. 0 : 중립 양수 : 긍정 음수 : 부정 감성분석 방법론 감성 분석 하는 방법으로는 크게 2가지로 나눌 수 있다. 1. 어휘 기반 : 감성 사전 구축 감성을 표현할 수 있는 명사, 동사, 형용사를 대상으로 모든 단어에 긍정 혹은 부정의 감성을 붙여 감성 사전을 먼저 구축한 후 이를 기반으로 텍스트에 대한 감성 분석 진행 ( 이때 감성 사전은 직접 구축할 수도 있고, 누군가가 이미 구축한 사전을 가져와서 사용할 수도 있다 ) 텍스트에 대한 감성을 계산하는 방..
이번에는 토픽모델링에 대해 공부한 내용을 회고하고자 한다. 토픽모델링은 주로 LDA 모델을 이용한다. LDA LDA는 LatentDirichletAllocation의 약자로, 문서들이 쓰여질 때, 그 문서를 구성하는 몇 개의 토픽이 존재하며 각 토픽은 단어의 집합으로 구성되어있다를 가정으로 한다. 여기서 가정은 가정일 뿐, 각 문서에서 토픽이 무엇이고 각 토픽은 어떤 단어들로 이루어졌다는 사실이 명시적으로 드러나지는 않는다. 그래서 '내재된 주제 혹은 토픽'이라고 부르며 LDA는 이와 같이 내재된 토픽들을 유추하고자 하는 통계적 방법론이라고 부를 수 있다. 이때, 토픽은 문서마다 개별적으로 전혀 다른 토픽이 있는 것이 아니라 전체 말뭉치를 관통하는 토픽들이 있으며, 문서는 이러한 공통적인 토픽들이 다양한..
오늘은 차원 축소에 대해 스터디를 한 것을 회고하고자 한다. 차원은 특성(피쳐)의 개수와 연관이 있는데 만약 차원이 너무 커지면 데이터의 크기가 커지게 되고, 이는 데이터 간의 거리가 멀어지게끔 만들어 준다. 데이터의 거리가 멀어지면 거리 기반 알고리즘(예를 들어 knn) 성능이 떨어지게 된다 이처럼 차원이 커지면 전체적으로 알고리즘의 성능이 떨어질 뿐만 아니라 희소행렬이 되어서 정확도가 떨어지게 된다. 그렇다면 우리는 이를 방지하기 위해 차원을 축소해야 한다. 차원축소 방법에는 크게 2가지로 나눌 수 있다. 1. 특성 선택 : 라쏘회귀와 가티 계수(회귀계수)가 0인 피쳐들은 다 제거하거나 또는 우리가 빈도수를 기반으로 너무 적거나 너무 많은 단어들을 제거했던 과정이 특성 선택에 해당 2. 특성 추출 :..
문서분류❓ 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업을 의미 예를 들어 몇개의 뉴스가 있다면 이 뉴스들을 어떤 카테고리의 뉴스인지, 가령 정치, 환경 등등으로 분류하는 것을 말한다. 머신러닝으로도 문서 분류할 수 있는데 문서분류는 지도학습으로 분류가 된다. 즉, 모델 학습을 위해서는 모든 문서 또는 텍스트에 대해서 라벨이나 분류 카테고리가 있어야 한다는 뜻이다.뉴스 데이터를 가지고 한번 실습해보고자 한다.from sklearn.datasets import fetch_20newsgroups #20개의 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'] #학..
Ju_pyter
'✍️ STUDY' 카테고리의 글 목록 (2 Page)