본문 바로가기

전체 글88

[논문 리뷰] X3D: Expanding Architectures for Efficient Video Recognition (2020) paper: https://arxiv.org/pdf/2004.04730 Architecture Hyper ParameterTemporal duration$$ \gamma_t $$Frame rate$$ \gamma_T $$Spatial resolution$$ \gamma_s $$Width$$ \gamma_w $$Bottleneck width$$ \gamma_b $$Depth$$ \gamma_d $$위의 architecture에서 하이퍼 파라미터 확장이 없다면(모두 1이면) X2D이다. X-Fast클립의 duration을 일정하게 유지하고 frame rate($\frac{1}{\gamma_T}$)를 증가시킴으로 $\gamma_t$(temporal activation size)를 확장X-Temporal클립의 .. 2024. 5. 17.
[논문 리뷰] FCN: Fully Convolutional Networks for Semantic Segmentation (2015) Paper: https://arxiv.org/pdf/1411.4038 Architecture FCN의 핵심 아이디어는 임의의 크기로 input을 받고 그에 상응하는 output을 생성하는 Fully Convolutional Network를 구축하는 것이다.Classification 신경망(AlexNet, GoogLeNet, VGGNet)을 segmentation task에 맞게 fine-tuning하여 사용한다. 이후, coarse layer에서 얻은 semantic information(deep)와 fine layer에서 얻은 appearance information(shallow)를 결합하는 새로운 architecture(skip architecture)를 정의하여 정확하고 자세한 segmentat.. 2024. 5. 17.
[논문 리뷰] ResNet: Deep Residual Learning for Image Recognition (2016) Paper: https://arxiv.org/pdf/1512.03385.pdf CNN을 깊게 쌓는 것은 이미지 분류 분야에서 중요한 문제이다. 실제로, CNN 모델을 사용하여 학습을 하고 난 후에는 low / mid / high level의 feature들이 layer가 깊어짐에 따라서 추출이 되고 layer가 깊어진다 것은 feature들의 level 또한 풍부해질 수 있다는 것을 뜻한다. 그렇다고 layer를 단순히 깊게 쌓기만 한다고 성능이 무작정 올라가는 것은 아니다. 대표적으로 gradient vanishing / exploding같은 문제가 있기 때문이다.그럼에도 ResNet은 VGGNet보다 8배 깊은 152층을 쌓았음에도 성능은 올라가면서 복잡도는 감소한 성과를 보여줬다. Degradat.. 2024. 5. 16.
[논문 리뷰] GoogLeNet(Inception V1): Going deeper with convolutions (2014) Paper: https://arxiv.org/pdf/1409.4842.pdf GoogLeNet은 ILSVRC 2014에서 top-5 error 6.67%로 우승을 차지한 모델이고 22층으로 모델을 VGG-19보다 더 깊게 쌓음으로써 성능을 개선하려고 하였다. 또한, 1x1 Convolution과 Inception module 그리고 FC Layer 대신 Globla Average Pooling이 사용되었다는 점을 눈여겨 볼 수 있다.Architecture GoogLeNet은 합곱 연산 횟수를 15억 번 이하로 유지하도록 지정하여 단순히 학문적인 호기심으로 끝나는 것이 아닌, 합리적인 비용으로 대규모 데이터셋에서도 실사용이 가능하도록 설계하였다. 계산량을 줄이기 위해 사용된 방법 중 1x1 Convolu.. 2024. 5. 16.