HuggingFace의 Tokenizer을 사용하면 Token (Input) ID, Attention Mask를 포함한 BatchEncoding을 출력으로 받게 된다. 이 글에서는 이러한 HuggingFace의 Model input에 대해 정리해 보고자 한다. Tokenizer class에 대한 게시물은 여기에서 확인할 수 있다. 참고: Official Docs Glossary Fine-tune for downstream tasks huggingface.co Tokenizer HuggingFace의 Tokenizer을 다음과 같이 우선 정의한다. 본 예제에서는 BertTokenizer을 사용한다. from transformers import BertTokenizer tokenizer = BertToken..