https://jayhey.github.io/semi-supervised learning/2017/12/07/semisupervised_self_training/
autoregressive, auto encoding
GPT 연구에서 BPE를 unicode 대신 bytes로 사용하는 방식을 통해 효율적으로 구현
이수진의 블로그
RoBERTa: A Robustly Optimized BERT Pretraining Approach