GPT2

✅ Datasets

Byte level BPE

✅ Lanuage Model

gpt는 생성 모델이기 때문에 zero shot의 성능이 잘 나온다.

다른 모델에서는 zero shot 불가

✅ Summarization

autoregressive한 모델이기 때문에 한 단어가 들어오면 다음 단어를 생성한다.

prompt, instruction, prefix: 어떤 task를 할지 간접적인 단어를 앞에 준다

ex) 학습할때 TL;DR이라는 단어를 봤을 것이기 때문에 TL;DR이라는 단어가 나오면 요약함