상세 컨텐츠

본문 제목

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 1

Artificial Intelligence

by [성운] 2020. 1. 27. 20:54

본문

 BERT논문을 직역 및 의역으로 작성한 내용입니다.

Abstract

새로운 language representation model BERT를 소개합니다. BERT TransformerBidirectional Encoder Representations을 사용합니다. 최근 language representation model들과 달리, BERT     모든 layer에서 양방향(left and right) context에서 공동으로 조절하여 unlabeled text에서 pre-train deep bidirectional representations으로 설계되었습니다. Pre-trained BERToutput layer를 하나를 추가해서 fine-tune할 수 있습니다. 실제 task-specific 구조 수정 없이 BERT는 여러 분야에서 SOTA를 달성했습니다.

1.    Introduction

Language model pre-training은 자연어처리의 향상에 효과적이었습니다. Natural language inferencesentencerelationship을 예측하는 paraphrasing과 같은 sentence-level tasks를 포함합니다. 뿐만 아니라, named entity recognitionquestion answering과 같은 token-level tasks도 포함합니다.

down-stream tasks하는 pre-trained language representations를 만들기 위해서는 두 가지 방법이 있습니다: feature-basedfine-tuning. Feature-based 방법은(ELMO – Peters et al., 2018a), task-specific architecture를 사용합니다. task-specific architecturefeature를 추가해서 pre-trained presentations을 포함합니다. Fine-tuning 방법은(OpenAI GPT Radford et al., 2018) 최소한 task-specific parameters을 소개한다. 그리고 downstream task으로 훈련합니다. Down-stream은 모든 pre-trained parameter fine-tuning하는 방법입니다. 두 방법은 pre-training 동안 objective function 공유합니다. 반면, general language representation 학습을 위해 단방향(unidirectional) language model을 사용합니다.

우리는 fine-tuning방법에서 pre-trained representation의 능력을 제약하는 부분을 논쟁합니다. 표준 모델의 주 제약은 단방향(unidirectional)과 이건 pre-training동안 architecture의 선택을 제한합니다. 예로 OpenAI GPTTransformer self-attention layers에서 모든 토큰이 이전 토큰에만 주의를 기울일 수 있는 left-to-right architecture입니다.

이와 같은 제약은 sentence-level tasks을 위해 차선책입니다. 그리고 question answering과 같은 token-level tasks 기반에 fine-tuning을 적용할 때 좋지 않습니다.

이 논문에서는 fine-tuning기반 접근법을 제안합니다. BERTMLM을 사용하여 단방향 제약(unidirectionality constraint)을 완화시킵니다. MLM은 무작위로 inputmask합니다. 그리고 context를 기반으로 masked된 단어를 예측합니다. Left-to-right language model pre-training과 달리, MLM목표는 representation이 왼쪽과 오른쪽 context를 융합할 수 있도록 한다. contextTransformerpre-train을 가능하게 합니다. Masked language model은 게다가, text-pair를 공동으로 pre-train하는 “next sentence prediction”을 사용합니다. 우리 논문 contribution은 다음과 같습니다.

  • Language representation을 위한 Bidirectional pre-training설명합니다. BERTpre-trained deep bidirectional representations이 가능한 masked language model을 사용합니다.
  • Pre-trained representationheavily-engineered task-specific architecture를 줄여주는걸 보여줍니다.
  • BERT11 NLP task에서 SOTA를 이뤘습니다.

 

2 Related Work은 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/54

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 2

BERT논문을 직역 및 의역으로 작성한 내용입니다. 이전 BERT는 다음 컨텐츠를 이용바랍니다. https://ynebula.tistory.com/53 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding..

ynebula.tistory.com

 

관련글 더보기

댓글 영역