
CLIP 논문을 읽고 핵심 내용만 정리함. 논문 링크: https://arxiv.org/abs/2103.00020 모델 등장 배경 Vision Model은 전통적으로 이미지를 입력받아 어떻게 모델을 구성하면 더 좋은 표현을 학습하는지를 고민해왔으며, 그덕분에 날이 갈수록 발전함. 하지만 이미지만 학습한 모델은 고질적으로 일반화 능력이 부족하고 작은 노이즈에도 취약한 약점을 보임. 한편 Language Model은 Vision Model 보다 한 발 앞서 나아가는 형태로 발전 이에, “Vision Model도 LLM과 같은 방향으로 간다면 한 단계 더 발전할 수 있지 않을까?”라는 고민을 하게 되고, “데이터셋이라도 아주 크게 만들어서 학습한다면 지금의 Vision Model의 한계를 넘어설 수 있지 않을..