BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 1
BERT논문을 직역 및 의역으로 작성한 내용입니다.
Abstract
새로운 language representation model BERT를 소개합니다. BERT는 Transformer의 Bidirectional Encoder Representations을 사용합니다. 최근 language representation model들과 달리, BERT는 모든 layer에서 양방향(left and right) context에서 공동으로 조절하여 unlabeled text에서 pre-train deep bidirectional representations으로 설계되었습니다. Pre-trained BERT은 output layer를 하나를 추가해서 fine-tune할 수 있습니다. 실제 task-specific 구조 수정 없이 BERT는 여러 분야에서 SOTA를 달성했습니다.
1. Introduction
Language model pre-training은 자연어처리의 향상에 효과적이었습니다. Natural language inference와 sentence간 relationship을 예측하는 paraphrasing과 같은 sentence-level tasks를 포함합니다. 뿐만 아니라, named entity recognition과 question answering과 같은 token-level tasks도 포함합니다.
down-stream tasks하는 pre-trained language representations를 만들기 위해서는 두 가지 방법이 있습니다: feature-based과 fine-tuning. Feature-based 방법은(ELMO – Peters et al., 2018a), task-specific architecture를 사용합니다. task-specific architecture는 feature를 추가해서 pre-trained presentations을 포함합니다. Fine-tuning 방법은(OpenAI GPT Radford et al., 2018) 최소한 task-specific parameters을 소개한다. 그리고 downstream task으로 훈련합니다. Down-stream은 모든 pre-trained parameter를 fine-tuning하는 방법입니다. 두 방법은 pre-training 동안 objective function을 공유합니다. 반면, general language representation 학습을 위해 단방향(unidirectional) language model을 사용합니다.
우리는 fine-tuning방법에서 pre-trained representation의 능력을 제약하는 부분을 논쟁합니다. 표준 모델의 주 제약은 단방향(unidirectional)과 이건 pre-training동안 architecture의 선택을 제한합니다. 예로 OpenAI GPT는 Transformer의 self-attention layers에서 모든 토큰이 이전 토큰에만 주의를 기울일 수 있는 left-to-right architecture입니다.
이와 같은 제약은 sentence-level tasks을 위해 차선책입니다. 그리고 question answering과 같은 token-level tasks 기반에 fine-tuning을 적용할 때 좋지 않습니다.
이 논문에서는 fine-tuning기반 접근법을 제안합니다. BERT는 MLM을 사용하여 단방향 제약(unidirectionality constraint)을 완화시킵니다. MLM은 무작위로 input을 mask합니다. 그리고 context를 기반으로 masked된 단어를 예측합니다. Left-to-right language model pre-training과 달리, MLM목표는 representation이 왼쪽과 오른쪽 context를 융합할 수 있도록 한다. 이 context는 Transformer를 pre-train을 가능하게 합니다. Masked language model은 게다가, text-pair를 공동으로 pre-train하는 “next sentence prediction”을 사용합니다. 우리 논문 contribution은 다음과 같습니다.
2 Related Work은 다음 컨텐츠를 이용바랍니다.
https://ynebula.tistory.com/54
댓글 영역