Attention Is All You Need

1 Introduction

<aside> 💡 입력과 출력 사이의 global dependencies을 이끌어내기 위해 병렬화가 가능하고 높은 성능을 자랑하는 Transformer을 제안!

</aside>

📌 Transformer 정의

RNN을 사용하지 않고 기존의 seq2seq의 구조인 인코더-디코더를 따르면서 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델

트랜스포머는 시퀀스 정렬된 RNN 또는 컨볼루션을 사용하지 않고 입력 및 출력의 표현을 계산하는 self-attention에 완전히 의존하는 첫번째 변환 모델

encoder는 input 시퀀스의 연속적인 representation인 (x1, ..., xn) 을 다른 연속적인 representation들의 시퀀스 z=(z1,...,zn) 으로 매핑

z를 가지고 decoder는 output 시퀀스 (y1,...,ym)를 생성

각 타임스텝에서 다음 심볼을 생성할 때, 모델은 이전에 생성된 심볼들을 additional input으로 사용하기 때문에 Auto-Regressive

트랜스포머는 위와 같은 전반적인 encoder-decoder 구조를 사용

self-attention과 point-wise fully connected layer들을 encoder와 decoder 각각에 쌓아올려 이용