BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 2
BERT논문을 직역 및 의역으로 작성한 내용입니다.
BERT Abstract 는 다음 컨텐츠를 이용바랍니다.
https://ynebula.tistory.com/53
2 Relate Work
일반 언어 표현 사전훈련은 오랜 역사가 있습니다. 우리는 가장 널리 사용되는 방법을 간단하게 리뷰하겠습니다.
2.1 Unsupervised Feature-based Approaches
단어를 적절하게 표현하는 연구는 수십 년 간 연구한 분야 입니다. 신경망을 이용한 방법(Mikolov et al.,, 2013; Pennington et al., 2014)과 그렇지 않은 방법(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006)이 있습니다. 단어 임베딩 사전학습은 현대 NLP에서 핵심 부분입니다. 처음부터 학습하는 방법 보다 많은 성능 향상을 제공합니다. 단어 임베딩 벡터를 사전학습 시키기 위해, left-to-right language modeling objectives를 사용했습니다. 또한 context의 좌우를 교정하였습니다(Mikolov et al., 2013). 이러한 방법은 coarer granularities 일반화 되었습니다(sentence embeddings(Kiros et al., 2015; Logeswaran and Lee, 2018) 또는 paragraph embeddings(Le and Mikolov, 2014)). 문장 표현을 학습하기 위해, 1) 다음 문장들을 후보를 랭크시키는 사전학습과(Jernite et al., 2017; Logeswaran and Lee, 2018) 2)이전 문장을 이용해서 다음 문장을 left-to-right 생성 또는 3) auto-encoder derived objectives를 제거하는(Hill et al., 2016) 방법이 사용되었습니다.
ELMo와 그 이전의 것은(Peters et al., 2017, 2018a) 다른 차원에 따라 전통적인 워드 임베딩 연구를 일반화 했습니다. 그것들은 left-to-right과 right-to-left 언어 모델로 context-sensitive feature를 추출했습니다. 각 token의 contextual representation은 left-to-right과 right-to-left representations를 연결합니다. 존재하는 task-specific에 contextual word embeddings을 합쳐서, ELMo는 여러 중요한 NLP bechmarks SOTA를 이루어 냈습니다(question-answering(Rajpurkar et al., 2016), sentiment analysis(Socher et al., 2013), named entity recognition(Tjong Kim Sang and De Meulder, 2003)). Melamud et al.(2016)에 LSTMs를 이용한 좌우 context로부터 한 단어를 예측하는 과제를 이용하는 contextual representations 학습을 제안했습니다. ELMo는 이와 유사하게 모델을 feature-based 했습니다(deeply bidirectional은 사용 암함). Feduset al. (2018) cloze task는 text 생성 모델의 향상으로 사용할 수 있다는 것을 보여줬습니다.
2.2 Unsupervised Fine-tuning Approaches
Feature-based 방법과 마찬가지로, 처음에는 unlabeled text로 word embedding parameters만 사전학습 하였습니다(Collobert and Weston, 2008).
최근에는, contextual token representations를 생성하는 sentence or document는 unlabeled text로 사전학습 됩니다. 그리고 supervised downstream task동안 fine-tune 학습됩니다(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). 이러한 방법의 장점은 처음부터 배울 필요가 거의 없는 파라미터입니다. OpenAI GPT는 이전에 GLUE benchmark로부터 많은 setence-level tasks에서 SOTA가 되었습니다(Wanget al., 2018a). Left-to-right 언어 모델링과 auto-encoder objectives는 다음과 같은 pre-training에 사용되었습니다(Howard and Ruder, 2018; Radford et al., 2018;; Dai and Le, 2015).
2.3 Transfer Learning from Supervised Data
자연어 추론(Conneau et al., 2017)과 기계번역(McCann et al., 2017)에서 large datasets으로 supervised tasks한 효과적인 transfer를 보여준적은 없었습니다. Computer vision 연구는 large pre-trained models 전이학습의 중요성을 설명했습니다(ImageNet(Deng et al., 2009; Yosinski iet al., 2014)).
3 BERT는 다음 컨텐츠를 이용바랍니다.
https://ynebula.tistory.com/55
댓글 영역