Transformer을 구성하는 Multi-Head Self-Attention layer는 permutation equivariant한 특성을 갖기 때문에, postitional encoding이 필수적으로 필요하다. Transformer에서 사용하는 positional encoding 우선, Transformer에서 사용하는 positional encoding의 식은 다음과 같다. $PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$ $PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$ 이를 풀어 쓰면 다음과 같은 형태를 갖게 되고, 이를 시각화하면 다음과 같다. 본 글에서는 왜 transformer의 positional encoding이 이..