Improving Language Understanding by Generative Pre-Training

1 Introduction

unlabeled data를 이용해서 언어적 정보를 학습 학습 결과를 추가적인 supervision을 통해 성능 향상 pre-trained word embedding(word2vec, GloVe)을 통해

<aside> 🚨 unlabeled text를 이용해서 언어적 정보를 학습하는 것은 2가지 이유에서 모험적

</aside>

어떠한 형태의 optimization objectives가 효과적일지 unclear
learned representation을 target task에 transfer하는 명확한 방식이 정의 x
- task-specific changes를 모델 구조에 적용하는 방식 : TagLM, ELMo
- 복잡한 learning scheme 을 사용하는 방식
- 보조적인 learning objective를 추가하는 방식

<aside> 💡 semi-supervised approach : combination of unsupervised pre-training and supervised fine-tuning

</aside>

모델 구조 : Transformer
- 멀리 떨어진 요소들 사이의 의존성을 학습하기에 적합
4개의 서로 다른 language understanding task에 적용
- natural language inference, question-answering, semantic similarity, text classification
레이블링 되지 않은 데이터로 모델의 초기 파라미터를 학습
초기화된 파라미터를 target task에 맞게 알맞은 objective에 맞게 추가적으로 학습

과거에는 word-level 또는 phrase-level statistics를 compute하기 위해 unlabeled data를 사용

이후에는 unlabeled data로 학습한 단어 임베딩을 사용하는 방식이 제안

이번 논문에서는 더 높은 수준의 의미를 학습하고자 함