Paper Review/Image Classification10 [논문 리뷰] ViT: An Image is Worth 16x16 Words: Transformer for Image Recognition at Scale (2021) Paper: https://arxiv.org/pdf/2010.11929Self-Attention을 기반으로 한 Transformer는 NLP 분야에서 computational efficiency와 scalability로 인해 훌륭한 성능을 보여주었다.Scalability가 좋기 때문에, 대규모 데이터셋에 대해서도 학습이 가능하다.이러한 특징으로, Transformer를 기반으로 한 GPT와 BERT같은 LLM 모델들이 나올 수 있었다.1. IntroductionTransformer의 핵심이라고 할 수 있는 Self-Attention은 Computer Vision 분야에도 적용을 하려는 시도가 있었다.그러나 CNN과 Self-Attention의 결합은 이론적으로는 효율적이지만, 특수한 attention 패.. 2025. 3. 12. [논문 리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (2019) Paper: https://arxiv.org/pdf/1905.11946EfficientNet은 CNN 모델들을 모델 scaling하는 방법에 대해 실험을 통해 보다 효율적으로 성능을 내는 것에 초점을 맞춘 모델이다. 이때 효율적이라함은 적은 파라미터 수로도 좋은 성능을 내는 것을 의미한다. 위 그래프를 보면 기존의 CNN 모델들 보다 파라미터 수 대비 정확도가 더 높은 것을 볼 수 있다.Compound Model ScalingCNN 모델의 성능을 올리는 방법에는 총 3가지가 존재한다.Width Scaling: Filter의 개수를 늘림Depth Scaling: Layer의 개수를 늘림Resolution Scaling: 해상도를 늘림 저자는 width, depth, resolution 세 가지 변수를 모두.. 2024. 8. 9. [논문 리뷰] MobileNetV2: Inverted Residuals and Linear Bottlenecks (2018) Paper: https://arxiv.org/pdf/1801.04381MobileNetV2는 기존의 MobileNetV1을 개선한 후속 모델이며, 동일하게 경량화에 초점을 둔 모델이다. 그렇기에, MobileNetV1의 핵심인 Depthwise Separable Convolution을 이번에도 역시 사용하였고, 추가적으로 MobileNetV2는 Inverted Residual과 Linear Bottleneck 을 초점으로 성능을 향상시켰다.Depthwise Separable Convolution은 이전 MobileNetV1에서 다뤘기 때문에 이번 글에서는 다루지 않을 예정이다.Linear BottlenecksManifold우선 manifold 개념에 대해서 이해할 필요가 있다.Manifold Learni.. 2024. 8. 7. [논문 리뷰] MobileNetV1: Efficient Convolutional Neural Networks for Mobile Vision Applications (2017) Paper: https://arxiv.org/pdf/1704.04861MobileNetV1 모델은 Depthwise Separable Convolution을 활용하여 모델의 경량화에 초점을 맞추었다.Xception 모델 또한 Depthwise Separable Convolution을 사용하였지만, MobileNetV1과는 다르게 경량화가 아닌 감소한 파라미터 수만큼 층을 쌓아 성능을 올리는 것에 초점을 둔 모델이다.편의상 MobileNetV1을 MobileNet이라 하겠다. 기존 CNN 모델들은 성능은 우수하나, 크기가 너무 커져 고성능의 환경을 필요로 한다는 단점이 있었다.그렇기에, 저자들은 모바일이나 임베디드 시스템 같이 메모리가 제한된 환경에서도 딥러닝 모델을 사용할 수 있도록 파라미터 수를 줄이는.. 2024. 8. 7. [논문 리뷰] Xception: Deep Learning with Depthwise Separable Convolutions (2017) Paper: https://arxiv.org/pdf/1610.02357Xception 모델은 2014년에 Google에서 제안한 GoogLeNet의 Inception module을 기반으로 만들어진 모델이며, Extreme Inception의 줄임말이다.Xception이 Extreme Inception의 줄임말이면서 왜 논문의 제목이 Deep Learning with Depthwise Separable Convolutions인지는 아래의 글을 읽어보면 해소될 것이다.Inception ModuleInception module에 대해 복기해보자면, 핵심 아이디어는 1x1 Conv를 통해 channel correlation을 연산하고 3x3 or 5x5 Conv를 통해 spatial correlation을 연.. 2024. 8. 5. [논문 리뷰] SENet: Squeeze-and-Excitation Networks (2017) Paper: https://arxiv.org/pdf/1709.01507 Abstract본 논문에서는 채널 간의 상호작용에 대해 초점을 맞춘 SE Block을 소개한다.이는 기존의 모델들에 block을 추가하는 것으로 계산량은 약간만 증가한 것에 비해 굉장히 높은 성능 향상을 이뤄냈다.SE BlockSENet은 SE Block이 적용된 네트워크를 의미한다.Convolution layer 뒤에 추가한다. SE Block은 Squeeze와 Excitation 과정을 거쳐 채널 간의 관계를 고려하게 된다.Low-level에서는 클래스와 상관없이 중요한 feature를 추출하고, High-level에서는 클래스와 관련있는 feature를 추출한다.Squeeze 우선 $X$(= Input)가 $F_{tr}$(= C.. 2024. 8. 1. 이전 1 2 다음