freeze: parameter 학습 안시키겠다.
unfreeze: parameter 모두 학습하겠다.
언어에 대한 공통된 지식이 있다.
NER task에서 좋은 성능을 보였다: 다른 data로 language model 학습하고 transfer learning하니깐 성능 좋아짐
source task의 형태에 따라 분리
Unsupervised ptraining
지식을 학습하기 위해 사전 학습
어떤 방법을 사용하든 큰 라벨이 없는 텍스트 데이터셋에서 표현들을 사전 훈련하기 위함입니다
Supervised fine-tuning
사전 학습된 모델을 가지고 실질적인 target data로 학습하는 것
라벨이 있는 데이터셋을 사용하여 지도 목표 작업에 대해 이러한 표현들을 미세 조정하기 위함입니다.
pretrain: word2vec을 구하는 과정
supervised: 사람이 정의해서annotated한게 아니라 문장을 가지고 input output 정의할 수 있는 형태
Unlabeled data and self-supervision==unsupervised pre training
매우 큰 말뭉치를 쉽게 수집할 수 있습니다: 위키백과, 뉴스, 웹 크롤링, 소셜 미디어 등
훈련은 분포 가설을 활용합니다: 단어는 그 주변의 단어들로 알 수 있습니다 (Firth, 1957)
종종 언어 모델의 변형을 훈련하는 것으로 공식화됩니다
풍부한 데이터를 활용하기 위한 효율적인 알고리즘에 초점을 맞춥니다
word2vec: unlabel형태를 supervised로 바꿈 자신만의 label(self-supervision)로 바꿈
label없이 크롤링한 데이터를 어떻게 사용가능할까?
input data만으로 어떤 형태 규칙의 output을 만든다
Supervised pre-training
Supervised 하면 data가 한정되기 때문에 unsupervised data를 사용함