상세 컨텐츠

본문 제목

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3

Artificial Intelligence

by [성운] 2020. 1. 27. 20:59

본문

 BERT논문을 직역 및 의역으로 작성한 내용입니다.

2 Related Work은 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/54

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 2

BERT논문을 직역 및 의역으로 작성한 내용입니다. 이전 BERT는 다음 컨텐츠를 이용바랍니다. https://ynebula.tistory.com/53 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding..

ynebula.tistory.com

3.    BERT

Figure 1

우리는 BERT와 자세한 구현법을 이 Section에서 소개합니다. 두 개의 절차가 있습니다(pre-training과 fine-tuning). Pre-training동안, 여러 pre-training 과제에서 unlabeled data로 학습합니다. Fine-tuning동안, BERT 모델은 먼저 사전 훈련 된 매개 변수로 초기화되며, 모든 매개 변수는 다운 스트림 작업에서 레이블이 지정된 데이터를 사용하여 미세 조정됩니다. 같은 pre-trained parameter로 초기화 될 지라도, 각 downstream 과제는 fine-tune된 model로 분리됩니다. Figure 1에서 예 question-anwsering은 이번 Section 예제로 사용될 예정입니다.

BERT의 특징은 다른 과제에서도  통합 구조입니다. pre-trained구조와 final downstream구조 사이에는 약간의 차이만 있습니다.

Model Architecture

BERT 모델 구조는 multi-layer bidirectional Transformer encoder를 기반으로  합니다. Transformer는 Vaswani et al(2017)에 설명되었으며,  그리고 tensor2tensor 라이브러리에 릴리즈 되었습니다. Transformer의 사용법은 컴몬(common)해졋고 BERT 구현법은 원본과 거의 같다. 우리는 모델의 구조와 배경 설명은 생략할 것입니다. Vaswani et al.와 "The Annotated Transformer"와 같은 훌륭한 가이드를 참고바랍니다. 

이 논문에서, L은 layer의 수(i.e., Transformer blocks), H는 hidden size, A는 self-attention head의 수를 의미합니다. 우리는 두 개의 모델을 제공합니다.

BERTBASE (L=12, H=768, A=12, Total Parameter=110M)

BERTLARGE (L=24, H=1024, A=16, Total Parameter=340M)

BERTBASE는 비교를 위해 OpenAI GPT 같은 model size입니다. 하지만 BERT Transformer는 bidirectional self-attention을 사용했습니다. 반면 GPT Transformer는 constrained self-attention을 사용했습니다(모든 token은 오직 자신의 왼쪽 context만 참조함). 

Input/Output Representations

Figure 2

BERT는 다양한 down-stream tasks를 처리하기 위해 input representation은 하나의 token sequence에서 a single sentence and pair of sentences(e.g. <Question, Answer>)로 분명하게 표현한다. 이 작업을 통해, “sentence”는 실제 문장(actual linguistic sentence)이 아니라 contiguous text의 임의의 범위가(arbitrary span) 된다. “sequence”BERT에 대한 input token sequence를 말하며, single sentence 또는 two sentence로 되어 있을 수 있습니다.

우리는 30,000개의 wordpiece embedding을 사용했습니다. 모든 sequence의 시작은 special classification token([CLS]) 입니다. Final hidden state에서 이 token classification tasks에서 집계(aggregate) sequence representation으로 사용됩니다.

Sentence pairs single sequence에 포함되어 있습니다. 우리는 두 가지 방법으로 sentence를 구분합니다. 첫 째, special token([SEP])로 구분합니다. 두 번째 방법은 A문장인지 B문장인지를 나타내는 learned embedding을 모든 token에 추가합니다. Figure 1에서 보듯이, input embeddingE 나타냈습니다(special token [CLS]의 final hidden vector (as CRH), ith input token의 final hidden vector (as TiRH))

주어진 token으로, input representation은 대응하는 token, segment, position embeddings의 합으로 생성됩니다. 이 생성 방법은 Figure 2에서 볼 수 있습니다.

 

3장 다음 내용은 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/56

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3.1-3.2

BERT논문을 직역 및 의역으로 작성한 내용입니다. 3.1 Pre-training BERT Peter et al(2018a), Radford et al(2018)과 다르게, 우리는 BERT를 pre-train하기 위해 traditional left-to-right or right-to-left lan..

ynebula.tistory.com

 

관련글 더보기

댓글 영역