Transformer์ ๊ตฌ์ฑํ๋ Multi-Head Self-Attention layer๋ permutation equivariantํ ํน์ฑ์ ๊ฐ๊ธฐ ๋๋ฌธ์, postitional encoding์ด ํ์์ ์ผ๋ก ํ์ํ๋ค. Transformer์์ ์ฌ์ฉํ๋ positional encoding ์ฐ์ , Transformer์์ ์ฌ์ฉํ๋ positional encoding์ ์์ ๋ค์๊ณผ ๊ฐ๋ค. $PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$ $PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$ ์ด๋ฅผ ํ์ด ์ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ๊ฒ ๋๊ณ , ์ด๋ฅผ ์๊ฐํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ๋ณธ ๊ธ์์๋ ์ transformer์ positional encoding์ด ์ด..