본문 바로가기

전체 글88

[논문 리뷰] ViT: An Image is Worth 16x16 Words: Transformer for Image Recognition at Scale (2021) Paper: https://arxiv.org/pdf/2010.11929Self-Attention을 기반으로 한 Transformer는 NLP 분야에서 computational efficiency와 scalability로 인해 훌륭한 성능을 보여주었다.Scalability가 좋기 때문에, 대규모 데이터셋에 대해서도 학습이 가능하다.이러한 특징으로, Transformer를 기반으로 한 GPT와 BERT같은 LLM 모델들이 나올 수 있었다.1. IntroductionTransformer의 핵심이라고 할 수 있는 Self-Attention은 Computer Vision 분야에도 적용을 하려는 시도가 있었다.그러나 CNN과 Self-Attention의 결합은 이론적으로는 효율적이지만, 특수한 attention 패.. 2025. 3. 12.
[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (2022) Paper: https://arxiv.org/pdf/2201.12086AbstractVision-Language Pre-training(VLP)는 vision-language task의 성능을 향상시켰다.그러나, understanding-based tasks 혹은 generation-based tasks 둘 중 하나에서만 뛰어나다.게다가, 성능 향상은 주로 image-text pair의 noisy web data를 사용하여 dataset scale을 확장하였지만, 이는 최적의 지도 학습 방식이 아니다.본 논문에서는 새로운 VLP 프레임워크인 BLIP을 제안한다.이는 vision-language understanding 그리고 generation tasks 둘 다 뛰어나다.BLIP은 caption을 boo.. 2025. 3. 12.
[논문 리뷰] CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021) Paper: https://arxiv.org/pdf/2103.00020Introduction and Motivating WorkComputer Vision 분야에서는 특정 카테고리 내에서 [Image,Label]과 같이 고정된 형태의 데이터를 이용해 학습한다.고정된 형태의 데이터를 사용하는 것은 이미지에 대해 간단하고 짧은 text를 label로 사용한다는 뜻으로, 이는 일반화 성능과 다른 task에서의 사용 가능성을 제한한다.따라서, 이미지에 대해 보다 상세한 설명을 담은 raw text를 label로 사용하여 이를 해결할 수 있을 것이다. NLP 분야에서는 raw text를 이용하여 pre-training하는 방식으로 발전해왔다.또한, "text-to-text" 방식으로 task에 구애받지 않고(t.. 2025. 3. 12.
[논문 리뷰] Transformer: Attention Is All You Need (2017) Paper: https://arxiv.org/pdf/1706.03762Transformer란 기존의 RNN 구조를 사용하지 않고 Attention Mechanism으로만 구성한 모델이다.Encoder-Decoder 구조의 seq2seq 모델이다. 이전에는 Attention Mechanism을 이용하여 RNN 계열 모델의 성능을 향상시켜왔다.RNN의 구조적인 특징으로는 $t$시점의 hidden state인 $h_t$가 이전 시점의 hidden state인 $h_{t-1}$를 참고하여 생성된다는 점이다.그러나, 이런 방식은 병렬성을 배제하게 되기 때문에 메모리 제약이 발생한다.또한, 문장이 길어질수록 Long-Term Dependency problem으로 인해 학습이 잘 되지 않는 경우가 발생한다.위의 문제.. 2025. 2. 14.
무단횡단 보행자 Detection 성능 향상 1. Raw DatasetSegmentation DatasetImages: 396개, Labels: 396개 (mask images)구분형식비고라벨 파일[이미지 파일명].png이미지 파일명(확장자 제외)과 동일한 이름의 png파일클래스 IDInteger0: 배경(인도, 건물 등), 1: 도로, 2: 횡단보도, 3: 캡션Detection Dataset1차 데이터셋2차 데이터셋Images: 794개, Labels: 794개Images: 3130개, Labels: 3130개 구분형식비고라벨 파일[이미지 파일명].txt이미지 파일명(확장자 제외)과 동일한 이름의 txt 파일Bbox 표기[클래스 ID] [중심 X] [중심 Y] [너비 W] [높이 H]빈칸으로 구분하며 클래스 ID는 정수이다. 바운딩 박스의 중심 .. 2024. 11. 19.
[논문 리뷰] GAN: Generative Adversarial Nets (2014) Paper: https://arxiv.org/pdf/1406.2661GAN은 adversarial process를 통해 생성 모델을 평가하는 새로운 framework이다.이는 이름에서도 알 수 있듯이, 두 모델 간의 '적대적(경쟁적) 관계'를 이용하여 서로 발전하는 형태를 구현해 높은 성능의 생성 모델을 만들어 낼 수 있었다.AbstractGenerative Model(생성 모델), GD가 구별하지 못하도록 training data의 분포를 모사한다.Discriminative Model(판별 모델), DSample data가 G로부터 나온 데이터가 아닌, 실제 training data로부터 나온 데이터일 확률을 추정한다. G의 학습 과정은 "sample data가 G로부터 나온 fake data와 실제 .. 2024. 9. 11.