✅ seq2seq의 문제점

bottleneck problem

  1. encoder의 context embedding이 제한된 정보를 가진다.

  2. 번역기의 예시에서 같은 context embedding을 decoder에서 사용하여 각 단어를 번역한다.

✅ Attention

sequence to sequence with attention

  1. attention score 구하기

Untitled

$(x_1,x_2,x_3)$ encoder의 embedding

$(y_1,y_2,y_3)$ decoder의 embedding

$x_1y_1+x_2y_2+x_3y_3 =스칼라값$

스칼라값이 attention score이고 비슷한 값을 가지면 스칼라값이 커진다.

  1. attention distribution 구하기