다층 RNN
긴 시퀀스 학습의 어려움
손실함수의 그레디언트를 계산할 때, 곱셈항 때문에 소위 그레디언트 폭주(exploding gradient) 또는 그레디언트 소실(vanishing gradient) 문제가 발생
- 그레디언트 소실과 폭주
장기 의존성 문제와 RNN의 한계
- 순환 신경망의 핵심 아이디어는 이전에 발생한 정보를 현재의 작업에 연결시켜주는 기능이 있다는 점
- 실제로 매우 유용할 것만 같은 순환 신경망은 잘 작동하는 경우도 있으나 그렇지 못한 경우도 많이 발생한다
LSTM(LONG-SHORT-TERM MEMORY)
불안정한 그레디언트 문제와 싸우기
- 훈련이 불안정하다고 느껴지면 그레디언트의 크기를 모니터링하고 (예를 들어 텐서보드 사용), 그레디언트 클리핑을 사용하는 것이 좋음단기 기억 문제 해결하기
- LSTM(장단기 메모리) 셀
- 타임 스텝의 셀 상태 C(t-1)은 어떤 가중치와도 직접 곱해지지 않고 변경되어 현재 타임 스텝의 셀 상태 C(t)을 얻음-> 장기 의존성 문제와 그래디언트 소실이 완화
- SIMPLE RNN에 비해 LSTM이 훨씬 그래디언트 소실, 폭주가 없는 모델이긴 하지만 복잡한 연결구조를 가지고 있고, 이에 따라 사용되는 연결 강도, 즉 파라미터 수도 대폭 늘어난 문제가 있었다.
GRU - 장기 의존성 문제를 해결하는 더 간단한 게이트
- 셀을 구성하는 게이트를 줄여서, LSTM 계산식을 간단히 만들었다.
'머신러닝 및 딥러닝 > 딥러닝' 카테고리의 다른 글
NLP - 전이학습 (0) | 2023.03.02 |
---|---|
자연어처리(텍스트 전처리, 감성분석) (0) | 2023.02.28 |
순환신경망(RNN) (0) | 2023.02.27 |
객체탐지와 합성곱 신경망 (0) | 2023.02.27 |
합성곱 신경망 데이터 증강(ImageDataGenerator 사용하기) (0) | 2023.02.23 |