<aside>
๐ก ์
๋ ฅ๊ณผ ์ถ๋ ฅ ์ฌ์ด์ global dependencies
์ ์ด๋์ด๋ด๊ธฐ ์ํดย ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๊ณ ๋์ ์ฑ๋ฅ์ ์๋ํ๋ Transformer์ ์ ์!
</aside>
๐ Transformer ์ ์
RNN
์ ์ฌ์ฉํ์ง ์๊ณ ๊ธฐ์กด์ seq2seq
์ ๊ตฌ์กฐ์ธ ์ธ์ฝ๋-๋์ฝ๋
๋ฅผ ๋ฐ๋ฅด๋ฉด์ ๋
ผ๋ฌธ์ ์ด๋ฆ์ฒ๋ผ ์ดํ
์
(Attention)
๋ง์ผ๋ก ๊ตฌํํ ๋ชจ๋ธ
ํธ๋์คํฌ๋จธ๋ ์ํ์ค ์ ๋ ฌ๋ RNN ๋๋ ์ปจ๋ณผ๋ฃจ์
์ ์ฌ์ฉํ์ง ์๊ณ ์
๋ ฅ ๋ฐ ์ถ๋ ฅ์ ํํ์ ๊ณ์ฐํ๋ self-attention
์ ์์ ํ ์์กดํ๋ ์ฒซ๋ฒ์งธ ๋ณํ ๋ชจ๋ธ
encoder๋ input ์ํ์ค์ ์ฐ์์ ์ธ representation์ธ (x1, ...,ย xn) ์ ๋ค๋ฅธ ์ฐ์์ ์ธ representation๋ค์ ์ํ์คย z=(z1,...,zn)ย ์ผ๋ก ๋งคํ
z๋ฅผ ๊ฐ์ง๊ณ decoder๋ output ์ํ์คย (y1,...,ym)๋ฅผ ์์ฑ
๊ฐ ํ์์คํ
์์ ๋ค์ ์ฌ๋ณผ์ ์์ฑํ ๋, ๋ชจ๋ธ์ ์ด์ ์ ์์ฑ๋ ์ฌ๋ณผ๋ค์ additional input์ผ๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ย Auto-Regressive
ํธ๋์คํฌ๋จธ๋ ์์ ๊ฐ์ ์ ๋ฐ์ ์ธ encoder-decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ
self-attention๊ณผ point-wise fully connected layer๋ค์ encoder์ decoder ๊ฐ๊ฐ์ ์์์ฌ๋ ค ์ด์ฉ