
논문 링크 : https://arxiv.org/abs/2006.16228 BackGroud 기존 연구들의 한계점을 살펴보자. 모달리티 간의 관계를 충분히 고려하지 않음 이전 연구들은 종종 시각, 음향, 언어 등의 다중 모달 데이터를 독립적으로 처리하거나 제한적인 방식으로만 고려하여 모달리티 간의 복잡한 상호작용을 충분히 반영하지 못했다. 성능 제한 기존 다중 모달 학습 방법은 종종 성능이 한정되거나 일부 모달리티에 치우친 결과를 얻는 경우가 있었으며, 다양한 모달리티 간의 상호작용을 고려한 효과적인 표현 학습이 부족했다. 모달리티 간의 특성 미고려 기존 연구들은 종종 시각, 음향, 언어 등의 모달리티 간의 특성과 세부적인 차이를 고려하지 않고 일반적인 방식으로 다루어서 세밀한 표현을 유지하기 어려웠다. ..