( 이전에 만들어두었던 ppt로 작성되었습니다) Transformer 많은 PLM들의 백본모델 각 토큰의 hidden state들은 하위 레이어로부터 누적되면서 업데이트 된다. 최종적으로 Transformer의 아웃풋은 시퀀스내부에서 각 토큰들의 문맥적 표현을 담고있을 것이다. 논문에서 제안된 구조 아래부터는 단계별로 설명입니다. Embedding & positional Encoding 문장의 sparse represetion을 시작으로 word vertor로 매핑시킨다. 중간에 임베딩 차원의 제곱근으로 나누어 스케일링을 진행하고, 위치 정보는 삼각함수를 이용하여 적절히 첨가한다 이렇게 해서 모델에 들어갈 Embedding matrix가 만들어진다 dot product attention 유사도 연산이 들..