본문 바로가기

Deep Learning8

Convolutional Neural Network (합성곱 신경망) 합성곱 신경망은 이미지 인식, 음성 인식 등에 자주 사용된다.특히, 이미지 인식 분야에서 거의 모든 딥러닝 기술에 사용된다.CNN의 등장1989년 '얀 르쿤' 교수의 논문에서 발표되었다.1998년 'Gradient-Based Learning Applied to Document Recognition' 논문에서 LeNet-5를 제시했다.Convolution layer와 Pooling layer를 소개한다.1. CNN 구조 Convolution과 Pooling을 반복해 down-sampling을 한다.전형적인 CNN은 Convolution layer와 Pooling layer를 반복적으로 쌓아서 데이터의 feature를 추출하는 부분과 FC layer와 Softmax 함수를 통해 분류를 하는 부분으로 구성된.. 2024. 8. 26.
Recurrent Neural Network (순환 신경망) 순환 신경망이란?순서가 있는 데이터를 입력으로 받는다.변화하는 입력에 대한 출력을 얻는다.시계열(날씨, 주가 등), 자연어와 같이 시간의 흐름에 따라 변화하고, 그 변화가 의미를 갖는 데이터이다.1. Feed Forward Network VS Recurrent NetworkFeed Forward Network일반적인 구조의 신경망이다.단위 간의 연결을 형성하지 않은 인공신경망이다.고안된 인공신경망의 최초이자 가장 단순한 형태이다.입력층 → 은닉층 → 출력층으로 이어지는 단방향 구조이다.정보는 입력 노드에서 은닉층을 통해 단방향으로만 앞으로 이동한다.출력 노드, 네트워크에 순환이나 루프가 없다.이전 스텝의 출력의 영향을 받지 않는다.Recurrent Network이전 층 또는 스텝의 출력이 다시 입력으로 .. 2024. 8. 25.
가중치의 초기값 설정 가중치를 평균이 0, 표준편차가 1인 정규분포로 초기화할 때의 각층의 활성화값 분포 (Vanishing Gradient Problem)가중치를 평균이 0, 표준편차가 0.01인 정규분포로 초기화할 때의 각층의 활성화값 분포 (표현력 제한)Vanishing Gradient Problem위의 히스토그램을 보면 표준편차가 너무 클 경우에 분포가 양 극단에 치우친 것을 볼 수 있다.시그모이드의 출력값은 0과 1사이인데 양 극단인 0과 1에 신호가 집중되어 있으므로 아래 그래프에서와 같이 대부분의 신호에서 접선의 기울기가 매우 작은 것을 볼 수 있다. 역전파는 마지막층부터 Affine층과 시그모이드층을 번갈아 가며 진행해 간다. 이때, 시그모이드층에 흘러들어온 미분에 시그모이드층의 미분을 곱한다. 시그모이드층의 .. 2024. 7. 24.
Batch Normalization Normalization정규화란 여러 feature 값의 범위를 사용자가 원하는 범위로 제한하는 것을 의미한다. 그렇다면 왜 정규화를 해야하는 것일까?input data가 (0,1)인 $x_1$과 (0,0.01)인 $x_2$가 있다고 가정해보자. 네트워크 내에서 학습이 진행되게 되면 각 입력값의 파라미터는 다른 척도에 존재하게 된다. 즉, $x_1$과 $x_2$의 feature가 다른 범위에 있기 때문에 학습 가능한 파라미터 $w_1,w_2$가 갖는 값의 범위는 상당히 다르게 된다. 위 그림을 보면 정규화하지 않은 input feature는 왼쪽 그림과 같이 길게 나타나고, 정규화를 한 input feature는 보다 대칭적인 형태를 띈다. 왼쪽 그림은 파라미터가 최적의 값을 찾아가는데 많이 진동하는 모.. 2024. 7. 24.
Optimizer 딥러닝 학습 시 최대한 틀리지 않은 방향으로 학습해야 한다. 이는 loss function의 최솟값을 찾는 것을 의미한다.이때, 최솟값을 찾아가는 것(최적화 = Optimization)을 수행하기 위한 알고리즘이 최적화 알고리즘(= Optimizer)이다.옵티마이저는 학습 속도를 빠르고 안정적이게하는 것을 목표로 한다. 아래 이미지는 여러 옵티마이저들이 어떻게 오차의 최저점을 찾아가는지 그래프로 나타낸 것이다.SGD(Stochastic Gradient Descent)다변수 미분 이론에 바탕을 둔 가장 기본이 되는 optimizer이다.다변수 함수 $f : R^n \rightarrow R$을 생각하자.점 $x \in R^n$에서 함수 $f$가 가장 빨리 증가하는 방향은 gradient 방향 $\nabla .. 2024. 7. 17.
계산 그래프 순전파사과 개당 가격사과 개수소비세지불 금액100원2개10%220원($100\times2\times1.1$)역전파1로 출발해서 오른쪽에서 왼쪽으로 흘러간다.곱셈노드는 반대편 값을 엇갈려서 곱해서 흘려 보낸다.덧셈노드는 그냥 흘려 보낸다. (엄밀히 따지면, 1을 곱하는 것)역전파와 미분사과 개당 가격사과 개수소비세지불 금액$x$$m$$t$$f(x,m,t)=xmt$$\frac{\partial f}{\partial x}(x,m,t)=mt$, $\frac{\partial f}{\partial x}(100,2,1.1)=2.2$사과 가격이 오를 때, 전체 지불해야하는 비용은 얼마나 올라가는지$\frac{\partial f}{\partial m}(x,m,t)=xt$, $\frac{\partial f}{\partial.. 2024. 7. 6.