본문 바로가기

Paper Review/Multi-Modal2

[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (2022) Paper: https://arxiv.org/pdf/2201.12086AbstractVision-Language Pre-training(VLP)는 vision-language task의 성능을 향상시켰다.그러나, understanding-based tasks 혹은 generation-based tasks 둘 중 하나에서만 뛰어나다.게다가, 성능 향상은 주로 image-text pair의 noisy web data를 사용하여 dataset scale을 확장하였지만, 이는 최적의 지도 학습 방식이 아니다.본 논문에서는 새로운 VLP 프레임워크인 BLIP을 제안한다.이는 vision-language understanding 그리고 generation tasks 둘 다 뛰어나다.BLIP은 caption을 boo.. 2025. 3. 12.
[논문 리뷰] CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021) Paper: https://arxiv.org/pdf/2103.00020Introduction and Motivating WorkComputer Vision 분야에서는 특정 카테고리 내에서 [Image,Label]과 같이 고정된 형태의 데이터를 이용해 학습한다.고정된 형태의 데이터를 사용하는 것은 이미지에 대해 간단하고 짧은 text를 label로 사용한다는 뜻으로, 이는 일반화 성능과 다른 task에서의 사용 가능성을 제한한다.따라서, 이미지에 대해 보다 상세한 설명을 담은 raw text를 label로 사용하여 이를 해결할 수 있을 것이다. NLP 분야에서는 raw text를 이용하여 pre-training하는 방식으로 발전해왔다.또한, "text-to-text" 방식으로 task에 구애받지 않고(t.. 2025. 3. 12.