모델 학습 전 data 처리하는 법

✅ Tokenization

  1. case folding: 대문자→소문자

  2. stemming: 어간 추출

  3. lemmatization: 표제어 추출

  4. stopword: 불용어

✅ Text Representation

  1. one-hot encoding: