논문 링크 : https://arxiv.org/abs/2006.16228 BackGroud 기존 연구들의 한계점을 살펴보자. 모달리티 간의 관계를 충분히 고려하지 않음 이전 연구들은 종종 시각, 음향, 언어 등의 다중 모달 데이터를 독립적으로 처리하거나 제한적인 방식으로만 고려하여 모달리티 간의 복잡한 상호작용을 충분히 반영하지 못했다. 성능 제한 기존 다중 모달 학습 방법은 종종 성능이 한정되거나 일부 모달리티에 치우친 결과를 얻는 경우가 있었으며, 다양한 모달리티 간의 상호작용을 고려한 효과적인 표현 학습이 부족했다. 모달리티 간의 특성 미고려 기존 연구들은 종종 시각, 음향, 언어 등의 모달리티 간의 특성과 세부적인 차이를 고려하지 않고 일반적인 방식으로 다루어서 세밀한 표현을 유지하기 어려웠다. ..
논문 : https://arxiv.org/pdf/2305.05665.pdf Key Point pair가 존재하지 않는 데이터를 이미지를 통해 정렬하여 (I,M1), (I,M2)에 대해 (M1,M2)가 정렬되어 각각의 모달리티와 이미지를 정렬하는 것이 서로 다른 모달리티도 정렬되는 현상을 발견 제안 방법론 본 논문의 모델 IMAGEBIND는 6가지 각 modalities를 하나의 representation space에서 표현하는 것이 목표이다. 이러한 시도는 CLIP이 가장 유명한 연구 중 하나인데, 원래는 이미지와 텍스트는 각기 다른 space에 존재하기 때문에 서로 관계를 측정할 수가 없었다. 하지만, CLIP에서 해당 데이터들을, 즉 이미지와 텍스트를 Joint Embedding Space에 보내 유..
CLIP 논문을 읽고 핵심 내용만 정리함. 논문 링크: https://arxiv.org/abs/2103.00020 모델 등장 배경 Vision Model은 전통적으로 이미지를 입력받아 어떻게 모델을 구성하면 더 좋은 표현을 학습하는지를 고민해왔으며, 그덕분에 날이 갈수록 발전함. 하지만 이미지만 학습한 모델은 고질적으로 일반화 능력이 부족하고 작은 노이즈에도 취약한 약점을 보임. 한편 Language Model은 Vision Model 보다 한 발 앞서 나아가는 형태로 발전 이에, “Vision Model도 LLM과 같은 방향으로 간다면 한 단계 더 발전할 수 있지 않을까?”라는 고민을 하게 되고, “데이터셋이라도 아주 크게 만들어서 학습한다면 지금의 Vision Model의 한계를 넘어설 수 있지 않을..