unsupervised representation learning 은 NLP Domain 에서 매우 성공적이었다. ( word2Vec, ELMo, BERT, GPT ... )
일반적으로 이 방법론들은 우선 대규모의 unlabeled text corpora 로 Neural Net 을 pretrain 하고, 그 이후 downstream task 들에 대해 representation 이나 모델을 finetuning 한다.
다양한 unsupervised pretraining objective 가 있는데 이 중 AR 와 AE 가 가장 성공적인 pretraining objective 이다.
AR

Autoregressive model 로 text corpus 의 확률분포를 찾는 것을 원한다.
구체적으로 text sequence 가 주어지면, AR LM 은 p(x) 를 conditional probability 로 분해한다.
parametric model 은 conditional distribution 을 모델링하기 위해 학습되는것임.
ARLM 은 오직 uni-directional context만 encode 하도록 학습된다. 그것은 deep bidirectional context 를 모델링하는것에 효과적이지 않다.
대조적으로, downstream language understanding task들은 종종 bidirectional context information 을 요구한다.
이것은 ARLM 과 효과적인 pretraining 사이의 차이를 야기한다.
GPT

AE

반면 ae모델은 명시적으로 density estimation 을 수행하지는 않지만, 대신에 corrupted input으로부터 original data를 reconstruct 하는 것을 목표로 합니다.
BERT 의 경우 input token sequence가 주어지면, 토큰들 사이의 일정 비율만큼 MASK 토큰으로 대체해주고, corrupted input 에서 original token 을 다시 회복하는 방향으로 모델이 학습됩니다.
density estimation은 objective 의 일부가 아니라서, bert 는 reconstruction 을 위해 bidirectional context 를 활용할 수 있다.
즉각적인 이점으로서, 앞서 언급한 AR 언어 모델링의 bidirectional gap을 해소하여 성능 향상으로 이어집니다.
하지만, pretraining 동안 버트가 이용하는 [MASK] 같은 인위적인 토큰은 finetuning 동안 등장하지 않습니다. 그래서 pretrain과 finetune 의 불일치한 학습을 야기합니다.
게다가, 인풋에서 예측퇴는 토큰들이 마스킹되었기때문에, 버트는 ARLM에서처럼 product rule 을 사용하여 joint probability 를 만드는 것을 할 수 없습니다. 즉, 버트는 예측될 토큰이 unmasked token 을 감안할때 서로 독립적이라고 가정합니다. 자연어는 고차원의 long-range dependency가 만연하기 때문에 위는 지나치게 단순화 된것입니다.
BERT

그래서 해당 논문의 저자들은 XLNet 을 제안합니다. 이는 AR 과 AE 의 한계점은 피하고, 장점을 취하는 일반화된 Autoregressive method 입니다.
- AR-model 에서의 고정된 uni-directional factorization 을 사용하는것 대신에, facotrization order의 모든 가능한 premutation 에 대해서 시퀀스의 log likelihood 기댓값을 maximize 합니다. permutation 연산 덕분에, 각포지션에 대한 컨텍스트는 왼쪽과 오른쪽의 토큰으로 구성될 수 있습니다. 기댓값에서 각 포지션은 모든 포지션으로부터의 문맥적 정보를 이용하도록 학습합니다.
- 일반화된 ARLM으로써, XLNet 은 data corruption에 의존하지 않고, pretrain-finetune 불일치로부터 해방됩니다.
그리고 autoregressive objective는 BERT 에서 만들어진 독립성가정을 제거하면서 예측된 토큰의 joint probability 를 factorizing 하기위한 product rule 을 사용할 수 있습니다.
그리고 pretraining 을 위해서 아키텍쳐적 설계를 향상시켰습니다.
- XLNet 은 segment recurrence mechanism 과 relative encoding scheme 을 pretraining에 넣었다.
- 나이브하게 transformer-XL 을 permutation-based language modeling에 적용하면 factorization 순서가 임의적이고 target 이 애매하기때문에 작동하지 않는다. 그래서 이에 대한 해결책으로 transformer-XL 을 reparameterize 하여 그러한 애매한 부분을 제거했다