충분히 큰 대용량의 언어모델(pre training language model)은 퓨샷학습이 가능하다.
학습 예제를 0개(zero shot), 1개(one-shot), 소수개(few-shot)만을 사용한 학습 방법
BERT 등 기존 언어 모델은 응용 태스크 별로 대용량 학습 데이터를 fine-tuning하여야 적용가능하다
pre training으로 gernalization 학습
few shot learning으로 down stream task를 위한 약간의 학습
기존의 fewshot: fine tuning하면 gradient update를 통해 데이터에 맞게 parameter가 바뀐다.
GPT의 fewshot
in-context learning
parameter를 학습하는게 아니라 실제로 원하는 input전에 prompt로 example(context)을 줌으로써 원하는 답변을 얻는다.
우리가 뭘 하려고 하는지 context를 알려주는 것
few shot: data 몇개 줄지
natural language prompt: data 말고 task 주기