Residual Connection (잔차 연결)

- 딥러닝 구조인 Transformer에서 Residual Connection은 레이어를 통해 계산한 아웃풋에 원래 인풋을 더하는 부분을 말함

- 그냥 shortcut 추가하는게 레이어를 무작정 깊게 쌓는 것보다 성능이 좋음

- 보통 뉴럴 네트워크는 레이어를 더 깊게 쌓을수록 high-level의 피처들을 잘 포착해서 학습함

- 그럼 이런 생각이 들 수 있음 "레이어를 많이 쌓을수록 성능이 올라가겠네?"

- 그런데 레이어가 어느 수준을 넘어서서 쌓이면 역기능이 발생함

- 역전파(backpropergation) 과정에서 손실 함수(loss function)의 기울기(gradient)를 구하기 위해서는 각 레이어에서 계산한 미분값을 곱해야함 (chain-rule)

- 활성화 함수(activation function)는 input에 대한 대개 미분값이 1 이하임

- W < 1인 경우 : gradient를 구하기 위해 작은 값들을 계속 곱하는 일이 발생함 → Vanishing gradient 발생

- W ≥ 1인 경우 : gradient를 구하기 위해 큰 값들을 계속 곱하는 일이 함 → Exploding gradient 발생

- Degration problem은 레이어를 너무 많이 쌓으면 오히려 성능이 떨어지는 현상임

- 학습은 되긴 되는데… 문제는 레이어를 적게 쌓았을 때보다 training error가 큼

→ 연습문제 자체를 통암기하는 과적합(overfitting)의 문제가 아님, 연습문제 푸는 것도 잘 못하는 맹구가 되는거..

- 아니 근데, 대충 20층 쯤에서 답이 나왔으면 그냥 끝까지 그대로 전달만 하면 되는 거 아님? 그걸 못해?

→ 레이어가 많이 쌓이면, 간단해 보이는 identity mapping은 잘 학습하지 못하는게 아닐까?

- 예컨대, H(x)를 학습해야할 때, 레이어가 많으면 인풋이 그대로 나오는 H(x) = x인 결과를 내기는 어려움

- 그러나 차이점에 초점을 맞추고, H(x) = F(x) + x라고 두면 F(x) = 0인 결과를 내기가 더 수월해질 것임

그러니까 인풋과의 차이,
즉 “잔차(Residual)”를 학습시키자!

- shortcut connection을 통해서 레이어는 인풋을 직접 참조함

- 뉴럴 네트워크는 인풋을 제외한 residual function을 학습함

- 역전파(backprop) 시 shortcut은 레이어의 기울기(gradient)를 보존시켜주는 역할을 하기 때문에 vanishing 문제도 해결됨

Hannya