Byte level BPE
gpt는 생성 모델이기 때문에 zero shot의 성능이 잘 나온다.
다른 모델에서는 zero shot 불가
autoregressive한 모델이기 때문에 한 단어가 들어오면 다음 단어를 생성한다.
prompt, instruction, prefix: 어떤 task를 할지 간접적인 단어를 앞에 준다
ex) 학습할때 TL;DR이라는 단어를 봤을 것이기 때문에 TL;DR이라는 단어가 나오면 요약함