13주차 Self-supervised Learning and Pre-trained Laungauge Models-3

더 큰 transformer model
더 많은 data
language model만 잘 학습하면 추가적인 fine tuning 없이도 여러 down stream task에서 잘 동작하지 않을까?: zero shot
GPT1 까지는 잘 동작 안 함

Byte level BPE

gpt는 생성 모델이기 때문에 zero shot의 성능이 잘 나온다.

다른 모델에서는 zero shot 불가

autoregressive한 모델이기 때문에 한 단어가 들어오면 다음 단어를 생성한다.

prompt, instruction, prefix: 어떤 task를 할지 간접적인 단어를 앞에 준다

ex) 학습할때 TL;DR이라는 단어를 봤을 것이기 때문에 TL;DR이라는 단어가 나오면 요약함