이 residual 네트워크들이 최적화하기 쉬우며 깊이가 증가해도 정확성이 있다는 것을 보여준다.
깊은 residual 네트워크고 많은 이미지 대회에서 상을 받았다.
1. Introduction
최근 네트워크의 깊이가 상당히 중요하다는 것이 입증되었으며, ImageNet에서 좋은 성적을 거둔 모델들도 16 ~ 30층까지 있는 "very deep"모델들이었다.
과연 레이어가 많이 쌓일수록 잘 학습하기 더 쉬울까?
여기서 처음부터 수렴을 방해하는 vanishing/exploding gradients문제가 있다.
그러나 이것은 초기값을 정규화하고 역전파와 함께 SGD가 수렴을 시작할 수 있게 하는 중간 정규화 레이어들로 해결한다.
더 깊은 네트워크가 수렴을 시작할 수 있을 때, 성능이 저하될 수 있다. 이는 오버피팅때문이 아니라 적절하게 깊은 모델은 높은 훈련error를 유발한다.
이것은 모든 시스템이 최적화하기 쉬운것은 아니라는 것을 나타낸다.
여기에 추가된 레이어는 identity mapping을 하고 다른 레이어들은 학습된 shallower 모델을 복사하느 구조적인 해결방안이 있다. 이 해결방안으로 deeper 모델은 shallower 모델보다 더 높은 학습error를 보이면 안된다.
논문에서 이 degradation problem을 deep residual learning framework를 소개에 언급한다. 기존 매핑에 쌓여진 레이어가 직접 맞기를 바라기보다는, 그 레이어들이 residual 매핑에 맞출수 있도록 허용한다.
H(x)를 기존 요구된 매핑함수라고 할 때, 쌓인 nonlinear 레이어들을 다른 매핑(F(x) = H(x) - x)에 맞춘다. 그래서 H(x)는 다시 F(x) + x로 재구성된다.
극도로 identity 매핑이 최적이라면, 비선형레이어 스택에 identity 매핑을 맞추는 것보다 residual을 0으로 하는게 더 쉬울 수 있다.
F(x) + x는 Feedforward에서 "shortcut connections"에 의해 실현될 수 있다.
shortcut connections는 1개 이상의 레이어를 스킵하는 것이다. 이는 identity mapping으로 간단히 구현된다. 그리고 여기서의 output은 레이어 스택의 output에 더해진다.(그림2)
Identity shortcut connections는 파라미터추가나 계산 복잡성을 더하지 않으며 SGD로 end-to-end까지 역전파가능하다. 그리고 자주 사용되는 라이브러리들로 쉽게 구현 가능하다.
다른 데이터셋으로도 높은 성능을 보여줄 수 있으며 ImageNet에서 사용한 가장 깊은 152레이어에서도 VGG보다더 낮은 complexity를 가진다.
다른 vision이나 vision이 아닌문제에서도 적용가능 할 수 있기를 기대한다.
2. Related Work
Residual Representations
PDE(Partial Differential Equation)을 해결하기 위해 널리 쓰이는 Multigird 방법은 다양한 스케일의 서브 문제들로 재구성한다.
Multigrid를 대체하는 계층적 basis preconditioning이 있다.이는 두 가지 스케일 사이에서 residual vector들을 표현하는 변수에 의지한다.
이 방법들은 최적화를 간단하게 할수있는 좋은 개조와 조건이다.
Shortcut Connections
Shortcut connections은 오랜기간 동안 연구되어져 왔다.
여러가지 역할로 사용되다가 현재 "highway networks"로 gate함수들과 함께 shortcut connections를 표현한다. 이 gates는 data-dependent하고 파라미터를 가지고 있다.
반대로 우리의 identity shortcuts는 파라미터-free이다.
gate된 shortcut이 "closed"되면(0에 가까워지면), highway에 있는 레이어는 non-residual function을 의미한다. 반대로 우리의 공식은 항상 residual 함수들을 학습하고 identity shortcuts가 절대 closed 되지 않는다.