1 Introduction
unlabeled data를 이용해서 언어적 정보를 학습
학습 결과를 추가적인 supervision을 통해 성능 향상
pre-trained word embedding(word2vec, GloVe)을 통해
<aside>
🚨 unlabeled text
를 이용해서 언어적 정보를 학습하는 것은 2가지 이유에서 모험적
</aside>
- 어떠한 형태의 optimization objectives가 효과적일지 unclear
- learned representation을 target task에 transfer하는 명확한 방식이 정의 x
- task-specific changes를 모델 구조에 적용하는 방식 : TagLM, ELMo
- 복잡한 learning scheme 을 사용하는 방식
- 보조적인 learning objective를 추가하는 방식
<aside>
💡 semi-supervised approach
: combination of unsupervised pre-training and supervised fine-tuning
</aside>
- 모델 구조 :
Transformer
- 멀리 떨어진 요소들 사이의 의존성을 학습하기에 적합
- 4개의 서로 다른 language understanding task에 적용
- natural language inference, question-answering, semantic similarity, text classification
- 레이블링 되지 않은 데이터로 모델의 초기 파라미터를 학습
- 초기화된 파라미터를 target task에 맞게 알맞은 objective에 맞게 추가적으로 학습
2 Related Work
Semi-supervised learning for NLP
과거에는 word-level 또는 phrase-level statistics를 compute하기 위해 unlabeled data를 사용
이후에는 unlabeled data로 학습한 단어 임베딩을 사용하는 방식이 제안
이번 논문에서는 더 높은 수준의 의미를 학습하고자 함
Unsupervised pre-training