(3 X 3)매우 작은 컨볼루션 필터를 가지고 depth를 16 - 19 가중치 레이어까지 밀어내면서 점점 증가시켰더니 기존보다 성능이 증가하였다.
목적 : 네트워크 깊이가 대규모 이미지 인식 정확도에 어떤 영향을 받는지
Introduction
ConvNets가 컴퓨터 비전 분야에서 의미가 커지고 있다.
ConvNets 성능을 높이기 위한 다양한 연구들이 있지만, 여기서는 depth를 다뤘다.
ILSVRC classification and localization에서 높은 정확도를 가졌으며, 파인튜닝 없이 심플한 파이프라인에서도 좋은 성능을 가진다. 그리고 다른 이미지 데이터 셋에서도 적용이 가능하다.
ConvNet Configurations
먼저 ConvNet의 전형적인 레이아웃의 구성을 설명한다. 그리고 평가에서 사용되는 구체적인 구성을 자세히 설명한다. 다음에서 디자인 선택을 논의하고 선행기술과 비교한다.
2.1 ARCHITECTURE
training 데이터로는 224 x 224 RGB image 사용하였다.
유일한 전처리로는 각 픽셀에서 RGB값을 평균을 뺐다.
conv.layers 필터로 3x3을 사용했다. stride로는 1 pixel을 추가하였다.
Spatial pooling으로는 5개의 max-pooling layer가 몇몇 conv. layer를 따라나왔다. 여기서 Max-pooling은 2x2 pixel window로 stride는 2이다.
3개의 FC(Fully-connected)층으로 conv. layers가 쌓여있다. 처음 두개는 4095채널을 각각 가지고 있으며, 세번째는 1000 way ILSVRC 분류를 수행한다. 따라서 1000개의 채널을 클래스마다 하나씩 다지고 있다. 마지막 층은 soft-max로 이루어져있다.
모든 hidden layer는 비선형성을 갖고있다. Sect.4 에서 보인것과 같이 normalisation은 ILSVRC데이터셋에서 성능 증가를 가져오지 않지만 메모리 소비 및 계산시간 증가를 가져온다.