ImageBind

IMAGEBIND: One Embedding Space To Bind Them All

2024.02.12· 📜 Paper/Multi-Modal

논문 : https://arxiv.org/pdf/2305.05665.pdf Key Point pair가 존재하지 않는 데이터를 이미지를 통해 정렬하여 (I,M1), (I,M2)에 대해 (M1,M2)가 정렬되어 각각의 모달리티와 이미지를 정렬하는 것이 서로 다른 모달리티도 정렬되는 현상을 발견 제안 방법론 본 논문의 모델 IMAGEBIND는 6가지 각 modalities를 하나의 representation space에서 표현하는 것이 목표이다. 이러한 시도는 CLIP이 가장 유명한 연구 중 하나인데, 원래는 이미지와 텍스트는 각기 다른 space에 존재하기 때문에 서로 관계를 측정할 수가 없었다. 하지만, CLIP에서 해당 데이터들을, 즉 이미지와 텍스트를 Joint Embedding Space에 보내 유..

티스토리툴바