본문 바로가기
  • overfitting AI , overfitting deep learning
자연어처리

'Attention Is All You Need'

by J.I SHIN 2023. 1. 14.

 

 

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new

arxiv.org

 

NLP 분야에 막대한 영향을 준 이 논문은 자연어처리 뿐만 아니라

비전 태스크에도 Transformer가 활용되며 피인용수는 6만회를 넘게 되었습니다.

 

해당 논문을 다시 한번 읽고 번역하는 시간을 가져보았습니다.

일부 불필요한 해석은 생략하였습니다. 😉

 

 

 


 

 

  Abstract  

 

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder.

일반적인 시퀀스 변환 모델은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN을 기반으로 합니다.

 

The best performing models also connect the encoder and decoder through an attention mechanism.

 최고의 성능의 모델 또한 어텐션 메커니즘을 통해 인코더와 디코더를 연결합니다.

 

We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

 우리는 어텐션 메커니즘에만 기반을 둔 새롭고 간단한 네트워크 아키텍처인 Transformer를 제안합니다. (RNNCNN은 완전히 배제)

 

Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train.

 두 가지 기계 번역 실험을 통해 이러한 모델이 더 병렬화 가능하고, 훈련에 훨씬 적은 시간이 필요하며, 동시에 품질이 우수함을 보여줍니다.

 

Our model achieves 28.4 BLEU on the WMT 2014 English to German translation task, improving over the existing best results, including ensembles, by over 2 BLEU.

▶ 우리의 모델은 ‘WMT 2014 English to German Translation작업에서 28.4 BLEU를 달성하여, 앙상블을 포함한 기존 최상의 결과보다 2 BLEU 이상 향상되었습니다.

※ BLEU(Bilingual Evaluation Understudy) : 기계번역 성능 평가지표. 사람 번역과 일치율을 비교, 1~100으로 평가

 

On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.

▶ ‘WMT 2014 English-to-French translation’ 작업에서 우리 모델은 8개의 GPU에서 3.5일 동안 훈련하여 SOTA 성능인 BLEU 점수 41.8을 달성했으며, 이는 문헌에서 훈련 비용의 작은 최고의 모델입니다.

SOTA : state of the art 의 약자로 현재 최고 수준의 결과를 의미합니다.

 

We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

▶ Transformer는 대규모 및 제한된 학습 데이터를 사용하여 영어 구문 분석에 성공적으로 적용되어 다른 작업에 잘 일반화됨을 보여줍니다.

 

 

 


 

 

  1. Introduction  

 

Recurrent neural networks, long short-term memory and gated recurrent neural networks in particular, have been firmly established as state of the art approaches in sequence modeling and transduction problems such as language modeling and machine translation. 

RNN, 특히 긴 단기 기억 게이트 RNN은 언어 모델링 및 기계 번역과 같은 시퀀스 모델링, 변환 문제에서 SOTA 접근 방식으로 확고하게 확립되었습니다.

 

Numerous efforts have since continued to push the boundaries of recurrent language models and encoder-decoder architectures.

 그 후로 RNN 언어 모델과 인코더-디코더 아키텍처의 경계를 넓히기 위한 수많은 노력이 계속되고 있습니다.

 

Recurrent models typically factor computation along the symbol positions of the input and output sequences.

일반적으로 RNN 모델은 입력 및 출력 시퀀스의 기호 위치에 따라 계산을 고려합니다.

 

Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t.

위치를 계산된 시간의 단계에 맞춰 정렬하고, 이전의 숨겨진 상태 ht-1과 위치 t에 대한 입력의 함수로서 일련의 숨겨진 상태 ht를 생성합니다.

 

This inherently sequential nature precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples.

이러한 순차적인 특성은 훈련 시 병렬 처리를 못하게 만듭니다. 이는 긴 문장에서 더 크게 작용하는데, 메모리 제약으로 인해 예제 간 배치가 제한되기 때문입니다.

 

Recent work has achieved significant improvements in computational efficiency through factorization tricks and conditional computation, while also improving model performance in case of the latter.

 최근 연구에서는 인수분해 트릭과 조건부 계산으로 효율이 크게 향상되었으며, 조건부 계산의 경우 모델 성능도 향상되었습니다.

 

The fundamental constraint of sequential computation, however, remains.

 그러나 순차적 계산이라는 근본적 제약이 여전히 존재합니다.

 

Attention mechanisms have become an integral part of compelling sequence modeling and transduction models in various tasks, allowing modeling of dependencies without regard to their distance in the input or output sequences.

 어탠션 메커니즘은 강력한 시퀀스 모델과 다양한 태스크 변환 모델의 필수가 되었으며, 입력 또는 출력 시퀀스의 길이에 관계 없이 모델링이 가능합니다.

 

In all but a few cases, however, such attention mechanisms are used in conjunction with a recurrent network.

 그러나 몇 가지 경우를 제외하고는 어텐션 메커니즘은 RNN과 함께 사용되었습니다.

 

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output.

 본 연구에서는 RNN을 사용하지 않고, 입출력간 전역 의존성을 만들어주기 위해 어텐션 메커니즘에 전적으로 의존하는 모델 '트랜스포머' 를 제안합니다.

 

The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality after being trained for as little as twelve hours on eight P100 GPUs.

 트랜스포머는 훨씬 더 많은 병렬화를 가능하게 하며, 8개의 P100 GPU에서 단 12시간 동안의 훈련으로 번역 품질에서 SOTA 성능에 도달할 수 있었습니다.

 

 

 


 

  2. Background  

 

The goal of reducing sequential computation also forms the foundation of the Extended Neural GPU, ByteNet and ConvS2S, all of which use convolutional neural networks as basic building block, computing hidden representations in parallel for all input and output positions.

Sequential 연산을 줄이는 목표는 Extended Neural GPU*, ByteNet, ConvS2S는 모두 컨볼루션 신경망을 기반으로 기본 구성 요소로 사용해 모든 입력 및 출력 위치에 대한 숨겨진 표현을 병렬로 계산합니다.

※ Extended Neural GPU : 트랜스포머 이전에 Sequential Data 병렬처리를 위해 NIPS 2016에서 제안된 모델. Neural GPU는 CGPU로 구성되어 있으며, 이전 output element에 대한 prediction을 현재 output element prediction에 사용하는 방식이다. 

 

In this models, the number of operations required to relate sigmals from two arbitrary input or output positions grows in the distance between positions, linearly for ConvS2S and logarithmically for ByteNet.

이 모델에서, 두 임의의 입력 또는 출력 위치 신호를 연결하는 데 필요한 연산의 수는 위치간 거리에 따라 ConvS2S의 경우 선형적으로, ByteNet의 경우 로그적으로 증가합니다.

 

This makes it more difficult to learn dependencies between distant positions.

이는 먼 위치 사이의 의존성을 학습하는 것을 더 어렵게 만듭니다.

 

 


 

 

  3. Model Architecture  

 

Most competitive neural sequence transduction models have an encoder-decoder structure.

가장 경쟁력 있는 시퀀스 변환 모델의 경우 대부분 인코더-디코더 구조를 가지고 있습니다.

 

Here, the encoder maps an input sequence of symbol representations (x1, ..., xn) to a sequence of continuous representations z=(z1, ..., zn).

여기서 인코더는 기호 표현의 입력 시퀀스(x1, ..., xn)를 연속 표현의 시퀀스 z=(z1, ..., zn)에 매핑합니다.

 

Given z, the decoder then generates an output sequence (y1, ..., ym) of symbols one element at a time.

z가 주어지면, 디코더는 한 번에 하나의 요소로 된 기호의 출력 시퀀스 (y1, ..., ym)을 생성합니다.

 

At each step the model is auto-regressive, consuming the previously generated symbols as additional input when generating the next.

각 단계에서 모델은 자동 회귀되어 이전에 생성된 기호를 다음을 생성할 때 추가 입력으로 사용합니다.

 

 

 

 


 

댓글