모델 학습 전 data 처리하는 법
데이터를 학습하기 위해 text를 최소 단위의 의미있는 unit/token/의미로 나누는 것이다.
NLP의 pre-processing step에서 중요하다.
Once we get a piece of text, we can break it into meaningful chunks, or units, that can be processed together
Sometimes called “parsers” or “tokenizer”: tokenization하는 툴
Natural Language Toolkit(NLTK)
Issues in tokenization: 어떻게 쪼갤까 이슈
영어기준 전처리 종류: ntlk에서 제공하는 기능
case folding: 대문자→소문자
stemming: 어간 추출
lemmatization: 표제어 추출
stopword: 불용어