본문 바로가기

전체 글89

[논문 리뷰] Xception: Deep Learning with Depthwise Separable Convolutions (2017) Paper: https://arxiv.org/pdf/1610.02357Xception 모델은 2014년에 Google에서 제안한 GoogLeNet의 Inception module을 기반으로 만들어진 모델이며, Extreme Inception의 줄임말이다.Xception이 Extreme Inception의 줄임말이면서 왜 논문의 제목이 Deep Learning with Depthwise Separable Convolutions인지는 아래의 글을 읽어보면 해소될 것이다.Inception ModuleInception module에 대해 복기해보자면, 핵심 아이디어는 1x1 Conv를 통해 channel correlation을 연산하고 3x3 or 5x5 Conv를 통해 spatial correlation을 연.. 2024. 8. 5.
[논문 리뷰] SENet: Squeeze-and-Excitation Networks (2017) Paper: https://arxiv.org/pdf/1709.01507 Abstract본 논문에서는 채널 간의 상호작용에 대해 초점을 맞춘 SE Block을 소개한다.이는 기존의 모델들에 block을 추가하는 것으로 계산량은 약간만 증가한 것에 비해 굉장히 높은 성능 향상을 이뤄냈다.SE BlockSENet은 SE Block이 적용된 네트워크를 의미한다.Convolution layer 뒤에 추가한다. SE Block은 Squeeze와 Excitation 과정을 거쳐 채널 간의 관계를 고려하게 된다.Low-level에서는 클래스와 상관없이 중요한 feature를 추출하고, High-level에서는 클래스와 관련있는 feature를 추출한다.Squeeze 우선 $X$(= Input)가 $F_{tr}$(= C.. 2024. 8. 1.
[논문 리뷰] DenseNet: Densely Connected Convolutional Networks (2017) paper: https://arxiv.org/pdf/1608.06993 Abstract 최근 연구들은 CNN모델이 더 깊고 더욱 정확한 성능을 낼 수 있는 방법에 대해서 input layer와 output layer가 direct로 연결될 수 있는 shorter connection 개념에 집중하여 효율적으로 학습하는 형식으로 발전하고 있다.ResNet의 영향이 컸다고 생각된다. 본 논문에서는 모든 layer들을 연결하는 단순한 패턴의 모델 구조를 제안했다.기존의 CNN 모델들은 L개의 layer가 있을 때 L개의 연결이 있었던 반면에, DenseNet은 각 layer가 그 후속 layer들과 연결되어 총 $\frac{L(L+1)}{2}$개의 연결이 생긴다. (= direct connection) 즉, .. 2024. 7. 30.
[논문 리뷰] VGGNet: Very Deep Convolutional Networks For Large-Scale Image Recognition (2014) Paper: https://arxiv.org/pdf/1409.1556 Abstract 본 연구의 초점은 CNN의 깊이와 large-scale 이미지 데이터셋에 대한 정확도 성능이었다고 한다. 그중에서도 메인 아이디어는 Conv layer에서 3x3 filter를 사용하는 것이었고 이것이 16, 19층의 layer를 쌓으면서 굉장한 성능을 낼 수 있었다고 한다. 또한 이런 성과들로 다른 데이터셋에서도 일반화 시킬 수 있는 결과를 얻었다고 한다.1. Introduction 이전 모델들과는 달리 CNN의 depth에 중점을 두어 연구를 진행하였다. 이때, 모든 layer에 3x3 filter를 동일하게 적용한채로 Conv layer를 점차 추가하여 네트워크의 깊이를 증가시켰다. 2. ConvNet Config.. 2024. 7. 29.
가중치의 초기값 설정 가중치를 평균이 0, 표준편차가 1인 정규분포로 초기화할 때의 각층의 활성화값 분포 (Vanishing Gradient Problem)가중치를 평균이 0, 표준편차가 0.01인 정규분포로 초기화할 때의 각층의 활성화값 분포 (표현력 제한)Vanishing Gradient Problem위의 히스토그램을 보면 표준편차가 너무 클 경우에 분포가 양 극단에 치우친 것을 볼 수 있다.시그모이드의 출력값은 0과 1사이인데 양 극단인 0과 1에 신호가 집중되어 있으므로 아래 그래프에서와 같이 대부분의 신호에서 접선의 기울기가 매우 작은 것을 볼 수 있다. 역전파는 마지막층부터 Affine층과 시그모이드층을 번갈아 가며 진행해 간다. 이때, 시그모이드층에 흘러들어온 미분에 시그모이드층의 미분을 곱한다. 시그모이드층의 .. 2024. 7. 24.
Batch Normalization Normalization정규화란 여러 feature 값의 범위를 사용자가 원하는 범위로 제한하는 것을 의미한다. 그렇다면 왜 정규화를 해야하는 것일까?input data가 (0,1)인 $x_1$과 (0,0.01)인 $x_2$가 있다고 가정해보자. 네트워크 내에서 학습이 진행되게 되면 각 입력값의 파라미터는 다른 척도에 존재하게 된다. 즉, $x_1$과 $x_2$의 feature가 다른 범위에 있기 때문에 학습 가능한 파라미터 $w_1,w_2$가 갖는 값의 범위는 상당히 다르게 된다. 위 그림을 보면 정규화하지 않은 input feature는 왼쪽 그림과 같이 길게 나타나고, 정규화를 한 input feature는 보다 대칭적인 형태를 띈다. 왼쪽 그림은 파라미터가 최적의 값을 찾아가는데 많이 진동하는 모.. 2024. 7. 24.