A Survey of Vision-Language Pre-Trained Models 📍 Summary Pre-training은 처음에 computer vision에서 유용하다고 밝혀졌는데, Transformer와 BERT의 등장 이후 NLP에서도 만연하게 사용되었다. 이는 Transformer가 long range dependency를 model하는 강력한 능력 덕분에 Pretrained Language Models (PLM)의 backbone이 되었다. 이후, vision과 language modalities를 모두 model하는 Vision-Language Pre-Trained Models이 연구되었다. 📍 VL-PTM의 3단계 1. image와 text의 의미를 유지한 채 latent represe..