BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3.1-3.2
BERT논문을 직역 및 의역으로 작성한 내용입니다.
3 BERT는 다음 컨텐츠를 이용바랍니다.
https://ynebula.tistory.com/55
3.1 Pre-training BERT
Peter et al(2018a), Radford et al(2018)과 다르게, 우리는 BERT를 pre-train하기 위해 traditional left-to-right or right-to-left language models를 에 사용하지 않았다. 대신 우리는 two unsupervised tasks을 사용해서 BERT에 pre-train했습니다.
Task#1: Masked LM
Deep bidirectional model이 left-to-right와 right-to-left 보다 더 powerful하다고 생각합니다. 운이 좋지 않게, standard conditional language models는 오직 left-to-right 또는 right-to-left로만 훈련되었습니다. Bidirectional conditioning은 각 단어에 자기 자신을 간접적으로만 볼 수 있습니다. 그리고 model은 multi-layered context에서 target word를 예측합니다.
Deep bidirectional representation을 학습하기 위해, 우리는 몇 개의 token(some percentage)을 랜덤으로 mask합니다. 그리고 그 masked tokens를 예측합니다. 우리는 이 절차를 “masked LM”(MLM)이라고 말합니다. 이 경우, mask tokens에 해당하는 final hidden vectors는 output softmax에 입력됩니다(Output softmax는 Vocab에 대한 연산).
우리는 각 sequence의 모든 wordpiece token에서 15%를 무작위로 mask합니다. 우리는 전체 input을 재구성하는 것 보다 오직 masked words 예측합니다.
이 방법으로 bidirectional pre-trained model 얻을 수 있지만, downside에서는 [MASK] token이 fine-tuning동안 나타나지 않기 때문에, pre-training과 fine-tuning 사이에는 mismatch가 발생합니다. 이를 줄이기 위해, 우리는 실제 [MASK] token을 항상 “masked”로 대체하지 않습니다. Training data generator는 token위치의 15%를 무작위로 선택합니다. 만약 i-th token이 선택되었다면, 80%는 [MASK] token으로 대체하고, 10%는 random token으로 대체하고, 10%로는 변경하지 않습니다. 그런 다음 Ti 는 cross entropy loss를 사용하여 원래 token을 예측하는데 사용될 것입니다. 이 절차의 변화를 부록 C.2에서 비교합니다.
Task #2: Next Sentence Prediction (NSP)
Question Answering과 같이 중요한 downstream tasks와 Natural Language Inference(NLI)는 두 sentences의 relationship 이해를 기반으로 합니다. Sentence relationships을 이해한 Model 훈련을 위해, binarized next sentence prediction task를 pre-train합니다.
예로 A와 B문장이 선택되었을 때, 실제 A다음 문장으로 50%는 B가 50%는 corpus중 무작위로 선택됩니다(labeled as IsNext). Figure 1에서 보았듯이, C는 다음 sentence 예측(NSP)에 사용됩니다. Section 5.1에서 설명하겠습니다. 이 pre-training은 QA와 NLI에 매우 유용합니다.
NSP task는 Jernite et al.(2017)과, Logeswaran and Lee (2018)에서 사용된 representation-learning objectives와 매우 관련이 있습니다. 하지만 사전 작업에서, 오직 sentence embedding만 down-stream tasks로 이동합니다. 반면 BERT는 end-task model parameters를 초기화하기 위해 모든 parameter를 이동합니다.
Pre-training data
Pre-training procedure은 language model pre-training에 관한 기존 문헌을 주로 따른다. Pre-training corpus로 BooksCorpus(800M words)(Zhu et al., 2015)와 English Wikipedia (2,500M words)를 사용하였습니다. Wikipedia에서 text passages 그리고 lists, tables와 headers는 제외했습니다. 이건 long contiguous sequences를 추출하기 위해, shuffled sentence-level corpus(as the Billion Word Benchmark)보다 document-level corpus 사용이 중요합니다.
3.2 Fine-tuning BERT
Transformer의 self-attention mechanism은 BERT가 입력과 출력을 적절히 바꿔서 많은 downstream tasks를 모델링 하도록 허락하기 때문에 Fine-tuning은 간단합니다(입력과 출력이 single text 또는 text pairs에 포함될지 어떤지).
Text pairs를 포함한 applications를 위해, 공통 패턴은 bidirectional cross attention을 적용하기 전에 text pairs를 독립적으로 인코딩합니다(Parikh et al. (2016), Seo et al. (2017)).
BERT는 이 두 단계를 통합하기 위해, self-attention mechanism을 사용합니다. 이 두 단계는 연결된 텍스트를 인코딩하기 때문에, self-attention로 연결된 text pair를 인코딩한 것은 두 문장 사이의 bidirectional cross-attention을 포함하기 때문입니다.
각 task마다, 우리는 task-specific inputs와 outputs를 BERT에 간단하게 plus합니다. 그리고 end-to-end로 모든 parameters를 fine-tune합니다.
사전 훈련에서 입력, 세트 A와 문장 B는 다음과 유사합니다.
출력에서 token representation은 sequence tagging 또는 question answering와 같은 token-level taks를 위해 output layer로 공급됩니다(token-level task - ). 그리고 [CLS] representation은 entailment 또는 sentiment analysis와 같은 분류를 위해 출력 계층으로 공급됩니다.
Pre-training과 비교하여 fine-tuning은 비교적 inexpensive합니다. 논문의 모든 결과는 단일 클라우드 TPU에서 최대 1시간 이내에, 또는 정확히 동일한 사전 교육 모델에서 시작하여 GPU에서 몇 시간 내에 복제할 수 있다. 본 섹션은 해당 섹션의 하위 섹션에서 태스크별 세부사항을 설명한다. 자세한 내용은 부록 4.5를 참조하십시오.
4장은 다음 컨텍츠를 참고바랍니다.
https://ynebula.tistory.com/58
댓글 영역