1탄에 이어서 2탄으로 돌아왔습니다,,
https://pej2834.tistory.com/31
KoBERT로 다중 감정 분류 성능 개선을 위한 FineTuning 도전, 1탄
사용자 일기에 대한 다중 감정 분류를 진행하기 위해 KoBERT 파인튜닝 과정을 기록하겠습니다!✍️✍️ KoBERT모델을 아래 공식 링크를 참고하여 불러오면 됩니다. https://github.com/SKTBrain/KoBERT GitHub -
pej2834.tistory.com
1탄에서 많은 삽질을 했었는데요...
2탄에서는 드디어!!!!!! KoBERT모델 성능을 개선했습니다!!!🔥🔥
1탄에서 사용한 데이터셋 이외에 또 다른 데이터셋을 추가하여 모델 학습을 진행했습니다.
추가 학습 데이터로는 아래 데이터를 사용했는데요!
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=263
AI-Hub
분야미분류 유형 오디오 조회수 : 8,311 다운로드 : 825 용량 : 다운로드 관심데이터 등록 관심 50
aihub.or.kr
데이터 형식은 아래와 같이 생겼는데요
여기서 발화문과 상황만 사용하여 기존 데이터와 형식을 통일 시켰습니다.
데이터 라벨링도 기존 데이터와 통일시켰습니다!
- fear = 0
- surprise = 1
- angry, anger = 2
- sadness, sad = 3
- neutral = 4
- happiness = 5
- disgust = 6
최종 데이터 분포도는 아래와 같았습니다.
6번과 4번 레이블이 다른 레이블보다 현저히 적은 것을 확인할 수 있었는데요!
1탄과 동일하게 평가지표를 macro- f1score를 사용하였습니다.
그 결과 train f1score는 0.99, test f1 score는 0.85로 매우 높은 수치를 보인 것을 확인할 수 있었습니다!
1탄과 비교하면 엄청 개선이 된 것을 확인할 수 있었습니다!🥹
네.. 결론은 데이터셋에 문제가 있던 거 같습니다..🥹
그래도.. 데이터 구조도 커스텀해보고.. 의미있던.. 튜닝 과정이라고 생각합니다..^0^
이 글이 저와 같이 Kobert를 튜닝하는 과정에서 문제가 생긴 분들에게 도움이 되기를 바라며.. 여기서 마치겠습니다!
'💭 Ideation > NLP' 카테고리의 다른 글
KoBERT로 다중 감정 분류 성능 개선을 위한 FineTuning 도전, 1탄 (0) | 2023.11.24 |
---|