상세 컨텐츠

본문 제목

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - C Additional Ablation Studies

논문분석

by [성운] 2020. 2. 11. 20:48

본문

BERT논문을 직역 및 의역으로 작성한 내용입니다.

A Additional Details for BERT 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/60

C Additional Ablation Studies

C.1 Effect of Number of Training Steps

Figure 5은 checkpoint를 fine-tuning 후 MNLI Dev accuracy를 나타냅니다. checkpoint는 k step번 pre-train되었습니다.
이것은 다음과 같은 의문이 생깁니다.
1. Question
BERT는 높은 fine-tunning accuracy를 얻기 위해 pre-training으로 그렇게 큰 양(128,000 words/batch * 1,000,000 steps)이 필요한가?
Answer: Yes, BERTBASE는 MNLI에서 500k steps에 비해 1M은 steps는 추가 accuracy 1.0%를 얻습니다(K=1000 / M= 1,000,000).

2. Question
batch마다 단어중 15%만 예측하기 때문에 MLM pre-training 수렴은 LTR pre-training보다 느립니다. 
Answer: 시작하고 거의 바로 accuracy 측면에서 MLM모델은 LTR모델을 능가합니다.

C.2 Ablation for Different Masking Procedures


Section 3.1에서, BERT는 masked language model(MLM)로 pre-training할 때 target token을 masking한픈 mixed strategy를 사용합니다. 다음은 여러 masking strategies의 영향을 평가하는 ablation 연구입니다.

masking strategies의 목표는 fine-tuning동안 [MASK] 심볼을 절대 나타나지 않게 함으로써 pre-training과 fine-tuning간 mismatch를 줄인는 것 입니다. 우리는 MNLI과 NER의 Dev 결과를 보고합니다. NER에서 우리는 fine-tuning과 feature-based 방법을 보고합니다. 예상한대로, model이 representation을 조정할 기회가 없어서 feature-based 방법은 mismatch가 증폭됩니다.

결과는 Table 8에 확인할 수 있습니다. Table에서 MASK는 [MASK]심볼로 target token을 대체합니다.
SAME은 target token을 유지합니다. RND은 random token으로 target token을 대체합니다.
table의 왼쪽의 수치는 MLM pre-training동안 사용된 확률을 나타냅니다(BERT: 80%, 10%, 10%). 오른쪽 부분은 Dev set 결과를 나타냅니다. featured-based 접근방ㅂ버을 위해, 우리는 BERT의 마지막 4layers에 결합했습니다(Section 5.3에서 best 접근방법으로 나왔던).
table로 부터 fine-tuning은 여러 masking strategies에 강력합니다. 하지만 예상대로, feature-based 접근방법dmf NER에 적용할 때 Mask strategy만 사용하는것은 문제가 되었습니다. 흥미롭게도, RND strategy만 사용하는 것은 우리의 strategy보다 성능이 안좋습니다.

6. Conclude

최근 Language Model에서 전이학습으로 인한 성능 향상은 충분한 Unsupervised pre-training은 많은 Language Understanding에 필수라고 설명되었습니다. 특히, 이 결과는 Deep Unidirectional Architectures로 인해 적은 자원으로도 가능했습니다. 우리는 동일하게 pre-training된 모델로 여러 NLP 작업을 성공적으로 처리 할 수 있도록 Deep Bidirectional Architectures 연구하여, 좀 더 일반화할 계획입니다.

관련글 더보기

댓글 영역