본문 바로가기
  • overfitting AI , overfitting deep learning
자연어처리

트랜스포머 살펴보기

by J.I SHIN 2022. 12. 31.

 

트랜스포머는 2017년 구글이 제안한 시퀀스 to 시퀀스 모델입니다.

최근 자연어처리에서 각광받는 BERT나 GPT 등이 트랜스포머 기반 언어 모델입니다.

그럼 어떻게 성능이 좋고 각광받게 되었는지 알아보겠습니다.

 

 

 

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new

arxiv.org

NIPS 2017에선 자연어처리 분야에 가장 큰 영향을 준 논문 하나가 발표됩니다.

바로 트랜스포머에 대한 논문, 'Attention Is All You Need' 였습니다.

 

트랜스포머 이전에는 RNN, LSTM, GRU 등 순환 신경망을 활용한 모델이 주를 이루고 있었습니다.

순환 신경망 구조는 시퀀스 정보를 압축하는데 강점이 있는 구조입니다.

 

하지만 시퀀스의 길이가 길어질수록 압축에 문제가 있었습니다.

오래전에 입력된 단어를 잊어버리고, 특정 단어 정보를 과도하게 반영하는 문제였죠.

RNN은 입력 정보를 차례대로 처리했기 때문에 마지막 말은 많이 반영되고

오래전 단어는 잊어버리게 되는 것이었습니다.

 

Attention은 이러한 문제점을 해결하기 위해 등장하였습니다.

 

디코더 부분의 RNN에 Attention을 추가하는 방식으로, 디코더가 생성을 할 때

전체 시퀀스에서 어떠한 요소에 주목(Attention)해야 할 지 알려주는 것입니다.

댓글