우니Blog

촬리멍거 버크셔해서웨이 매수 및 성장

[성운] — Wed, 11 Sep 2024 21:36:27 +0900

https://www.youtube.com/watch?v=6O20S3-o6-Q

[Metting Warren Buffet - 워렌 버핏 만남]
When I went back in 1959 to wind up my father's law practice, mutual friends introduced us.
1959년에 아버지의 법률 사무소를 정리하러 돌아갔을 때, 상호 친구들이 우리를 소개해 주었습니다.

My father was a sole practitioner, and somebody had to go sit in his chair and wind up his practice.
내 아버지는 개인 개업의였고, 누군가가 그의 자리에 앉아 그의 업무를 정리해야 했다.

It was during that period that I met Warren.
그 기간 동안 저는 워렌을 만났습니다.

When I first met Warren, I recognized immediately that he was a very intelligent person.
처음 워렌을 만났을 때, 저는 즉시 그가 매우 지적인 사람이라는 것을 알아차렸습니다.

Of course, he was interested in the subject that I was also interested in, which was the process of being a successful investor.
물론, 그는 제가 관심을 가지고 있던 주제, 즉 성공적인 투자자가 되는 과정에 관심이 있었습니다.

We have a similar sense of humor, and we had a high old time probably making ourselves obnoxious to the other people in the room.
우리는 비슷한 유머 감각을 가지고 있었고, 아마도 방 안의 다른 사람들에게 불쾌감을 줄 정도로 즐거운 시간을 보냈습니다.

We both came from Omaha. We both worked in his grandfather's grocery store, so we had a lot of common experience.
우리는 둘 다 오마하 출신이었다. 우리는 둘 다 그의 할아버지의 식료품점에서 일했었기 때문에, 우리는 많은 공통된 경험을 가지고 있었습니다.

[Buying Berkshire Hathaway - 버크셔 해서웨이 매수]
If he'd bought it in his partnership with you and more of, he would have made a lot more money,
만약 그가 당신과의 파트너십에서 더 많이 매입했다면, 그는 훨씬 더 많은 돈을 벌었을 것입니다.

and as it worked out, he made billions and billions of dollars for a bunch of people he didn't even know,
그리고 결과적으로, 그는 자신이 알지도 못하는 많은 사람들을 위해 수십억 달러를 벌었습니다.

but I don't think he can call it a mistake in that sense,
하지만 그런 의미에서 그것을 실수라고 부를 수는 없다고 생각합니다.

but I don't think he regrets it.
그리고 그가 후회한다고 생각하지 않습니다.

He's given him a public platform that's enabled him to, in effect, teach what he wants to teach.
그것은 그에게 공개적인 플랫폼을 제공했고, 이를 통해 그가 가르치고 싶은 것을 효과적으로 가르칠 수 있게 해주었습니다.

No, I think if you ask him to live his life over and say, you can go back and buy national indemnity in your partnership instead of in Berkshire, I don't think he'd do it.
아니요, 만약 당신이 그에게 인생을 다시 살아보라고 하고, 버크셔가 아닌 당신의 파트너십에서 내셔널 인덤니티를 매입할 수 있다고 한다면, 그가 그렇게 하지 않을 것이라고 생각합니다.

One of the reasons Warren's successful is he's brutal in appraising his own past.
워렌이 성공한 이유 중 하나는 그가 자신의 과거를 평가하는 데 있어 냉혹하기 때문입니다.

He wants to identify misthinkings and avoid them in the future,
그는 잘못된 생각을 식별하고, 미래에 그것들을 피하고자 합니다.

and in a narrow financial sense that was misthinking,
좁은 재정적 관점에서 보면 그것은 잘못된 생각이었지만,

but I would say in a big sense it was fortunate misthinking because his life worked out better.
큰 관점에서 보면 그의 인생이 더 나아졌기 때문에 운이 좋은 잘못된 생각이었다고 할 수 있습니다.

[Picking Berkshire Hathaway - 버크셔 해서웨이를 선택한 것]
What happened by accident?
우연히 무슨 일이 일어났나요?

He had that compter talk where the CEO of Berkshire Hathaway tried to cheat him out of an eighth,
그는 버크셔 해서웨이의 CEO가 그를 8분의 1만큼 속이려 했던 그 유명한 대화를 했습니다.

and he got angry and said, well, hell with you, I'll just buy more, and that was a pretty silly way to behave as Warren has recounted in retrospect.
그는 화가 나서 말했습니다, '좋아, 당신 맘대로 해. 나는 그냥 더 많이 살 거야.'. 그리고 워렌이 회고하듯이 이는 꽤 어리석은 행동이었습니다.

But it's what he did, and the rest is history.
하지만 그가 한 일이 바로 그것이었고, 나머지는 역사가 되었습니다.

It happened to make his life work better, not worse, but it was an accident that he chose Berkshire Hathaway.
그가 버크셔 해서웨이를 선택한 것은 우연이었지만, 결과적으로 그의 인생을 더 좋게 만들었습니다.

If the chairman hadn't tried to cheat him out of an eighth on an $11 price, there wouldn't have been any Buffett Dash, Berkshire Hathaway history.
만약 회장이 11달러 가격에서 8분의 1만큼 그를 속이려 하지 않았다면, 버핏의 돌진도, 버크셔 해서웨이의 역사도 없었을 것입니다.

[The blueprint of Berkshire Hathaway - 버크셔 해서웨이의 청사진]
Well, he'd made so much money for so long, doing what he'd been taught by Ben Graham, which is to buy these very cheap stocks,
그는 벤 그레이엄에게 배운 대로 매우 저렴한 주식을 매수하는 방식으로 오랫동안 많은 돈을 벌었습니다.

and if they were cheap enough, he didn't care it was a lousy company and a lousy management.
주식이 충분히 저렴하다면 회사가 형편없고 경영진이 좋지 않아도 상관하지 않았습니다.

He knew it was going to be money anyway just because of the cheapness,
그는 단지 저렴함 때문에 어쨌든 돈이 될 것이라는 것을 알고 있었습니다.

and I always knew that would be self-limiting, that would only be available for a while and then it would go away,
저는 항상 이것이 자기 제한적이며, 잠시 동안만 가능하고 결국 사라질 것이라는 것을 알고 있었습니다.

and it would be easier to make money by getting into the great businesses that either had a great manager or were businesses where a fool could run and still prosper.
그리고 훌륭한 경영자가 있거나 바보라도 운영할 수 있는 훌륭한 사업에 투자하는 것이 더 쉽게 돈을 벌 수 있는 방법이 될 것이라고 생각했습니다.

So I don't think I did anything but maybe cause Warren to go where he was going to go anyway a little faster.
그래서 제가 한 일은 아마도 워렌이 어차피 가려고 했던 곳으로 조금 더 빨리 가도록 만든 것 뿐이라고 생각합니다.

I don't think I changed him. I think he would have been there anyway.
저는 제가 그를 변화시켰다고 생각하지 않습니다. 저는 그가 어차피 그곳에 있었을 것이라고 생각합니다.

There was more potential for the long pull than getting in the good companies.
장기적으로 볼 때 좋은 회사에 투자하는 것이 더 큰 잠재력이 있었습니다.

We both wanted them cheap, but cheap good companies was the field that we shifted to,
우리 둘 다 저렴한 것을 원했지만, 우리가 옮겨간 분야는 저렴한 좋은 회사들이었습니다.

and of course that was really important when we started to buy whole companies.
그리고 물론 이는 우리가 전체 회사를 매입하기 시작했을 때 정말 중요했습니다.

[On growing Berkshire Hathaway - 버크셔 해서웨이의 성장에 대해]
I'll tell you how you do it.
제가 어떻게 하는지 알려드리겠습니다.

Have you ever seen a juggler juggle 25 milk bottles?
곡예사가 25개의 우유병을 저글링하는 것을 본 적이 있나요?

How did he ever get to do that?
그가 어떻게 그것을 할 수 있었을까요?

The answer he started with one bottle and two and three and just kept doing it. And pretty soon he was at 25.
답은 그가 한 병으로 시작해서 두 개, 세 개로 늘려가며 계속 연습했다는 것입니다. 그리고 곧 그는 25개에 이르렀습니다.

And that's the way we did it. Now there's a limit.
그것이 우리가 한 방식입니다. 물론 한계가 있습니다.

Maybe the guy has to stop at 25.
어쩌면 그 사람은 25개에서 멈춰야 할지도 모릅니다.

And I don't think that is happening to us yet.
하지만 우리에게는 아직 그런 일이 일어나지 않았다고 생각합니다.

Our return is slowing down. But Berkshire is still a collection of businesses that are above the average quality of the indexes.
우리의 수익률은 둔화되고 있지만, 버크셔는 여전히 평균 지수보다 높은 품질의 사업들로 이루어져 있습니다.

So it's a very respectable investment even though it can't work the kind of miracles it did when we were young.
그래서 비록 우리가 젊었을 때처럼 기적 같은 일을 해낼 수는 없지만, 여전히 매우 존경받을 만한 투자입니다.

That's a source of enormous satisfaction to both of us.
그것은 우리 둘 모두에게 엄청난 만족의 원천입니다.

What are your thoughts on the future of the Berkshire Juggler juggle 25 milk bottles?
버크셔 저글러가 25개의 우유병을 저글링하는 것에 대한 당신의 생각은 무엇입니까?

촬리멍거 버크셔해서웨이 투자 철학/조언

[성운] — Tue, 10 Sep 2024 21:53:32 +0900

https://youtu.be/fdberGATM_8

[The blueprint of Berkshire Hathaway - 버크셔 해서웨이의 청사진]
Well, he'd made so much money for so long, doing what he'd been taught by Ben Graham, which is to buy these very cheap stocks,
그는 벤 그레이엄에게 배운 대로 매우 저렴한 주식을 매수하는 방식으로 오랫동안 많은 돈을 벌었습니다.

and if they were cheap enough, he didn't care it was a lousy company and a lousy management.
주식이 충분히 저렴하다면 회사가 형편없고 경영진이 좋지 않아도 상관하지 않았습니다.

He knew it was going to be money anyway just because of the cheapness,
그는 단지 저렴함 때문에 어쨌든 돈이 될 것이라는 것을 알고 있었습니다.

and I always knew that would be self-limiting, that would only be available for a while and then it would go away,
저는 항상 이것이 자기 제한적이며, 잠시 동안만 가능하고 결국 사라질 것이라는 것을 알고 있었습니다.

and it would be easier to make money by getting into the great businesses that either had a great manager or were businesses where a fool could run and still prosper.
그리고 훌륭한 경영자가 있거나 바보라도 운영할 수 있는 훌륭한 사업에 투자하는 것이 더 쉽게 돈을 벌 수 있는 방법이 될 것이라고 생각했습니다.

So I don't think I did anything but maybe cause Warren to go where he was going to go anyway a little faster.
그래서 제가 한 일은 아마도 워렌이 어차피 가려고 했던 곳으로 조금 더 빨리 가도록 만든 것 뿐이라고 생각합니다.

I don't think I changed him. I think he would have been there anyway.
저는 제가 그를 변화시켰다고 생각하지 않습니다. 저는 그가 어차피 그곳에 있었을 것이라고 생각합니다.

There was more potential for the long pull than getting in the good companies.
장기적으로 볼 때 좋은 회사에 투자하는 것이 더 큰 잠재력이 있었습니다.

We both wanted them cheap, but cheap good companies was the field that we shifted to,
우리 둘 다 저렴한 것을 원했지만, 우리가 옮겨간 분야는 저렴한 좋은 회사들이었습니다.

and of course that was really important when we started to buy whole companies.
그리고 물론 이는 우리가 전체 회사를 매입하기 시작했을 때 정말 중요했습니다.

[Value investing - ]
He made millions and millions of dollars value investing in lousy companies that he bought very cheaply, besides it's unpleasant to watch lousy companies you don't like.
그는 매우 싸게 구입한 형편없는 회사들에 가치 투자를 해서 수백만 달러를 벌었지만, 좋아하지 않는 형편없는 회사들을 지켜보는 것은 불쾌한 일이다.

It's much more fun to watch somebody you would like and admire succeeding than watching some jerk kind of half mismanaged company that's very cheap.
당신이 좋아하고 존경하는 누군가가 성공하는 것을 지켜보는 것이 매우 저렴한 가격에 살 수 있는 엉터리 같은 반쯤 잘못 경영되는 회사를 지켜보는 것보다 훨씬 더 재미있다.

It's a better life. It's the reason we don't short stocks.
그것이 더 나은 삶입니다. 우리가 주식을 공매도하지 않는 이유입니다.

Even if we could make a lot of money doing it, either one of us would bother.
설령 우리가 그렇게 해서 많은 돈을 벌 수 있다고 해도, 우리 둘 중 누구도 신경 쓰지 않을 것입니다.

We'd find it unpleasant.
우리는 그것을 불쾌하게 여길 것이다.

You're crazy if you're rich to deliver legal out and do a lot of unpleasant things you don't have to.
당신이 부자라면 법적으로 할 필요가 없는 많은 불쾌한 일들을 하는 것은 미친 짓입니다.

Well that was the most useful idea that Ben Graham ever had.
그것이 벤 그레이엄이 가졌던 가장 유용한 아이디어였습니다.

Have the mindset of somebody that was buying into a business planning to hold for the long pull, and use that mindset when thinking of stocks, and neither one of us have ever departed from that one.
장기적으로 보유할 계획으로 사업에 투자하는 사람의 마인드셋을 가지고, 그 마인드셋을 주식을 생각할 때 사용하세요. 우리 둘 다 그 원칙에서 한 번도 벗어난 적이 없습니다.

[See's Candy - 시즈 캔디]
Remember, Warren had a long history of buying stocks below working capital per share, hugely cheap securities, and by definition they were all pretty lousy companies.
기억하세요, 워렌은 주당 운전자본 이하의 가격으로 주식을 매입하고, 엄청나게 저렴한 증권을 사들이는 오랜 역사를 가지고 있었습니다. 그리고 정의상 그것들은 모두 꽤 형편없는 회사들이었습니다.

In Seas we bought a really good company.
시즈(See's)에서 우리는 정말 좋은 회사를 샀습니다.

In its field it was the best, and that's part of California, which is pretty much all of California, and it had a wonderful product, a wonderful reputation and so on, and it had a powerful trademark, and a good culture.
그 분야에서 최고였고, 그것은 캘리포니아의 일부였는데, 사실상 캘리포니아 전체였습니다. 그리고 그것은 훌륭한 제품, 훌륭한 평판 등을 가지고 있었고, 강력한 상표와 좋은 문화를 가지고 있었습니다.

We bought that and made so much money.
우리는 그것을 사서 엄청난 돈을 벌었습니다.

It just was eye-opening how important these brands were.
이런 브랜드들이 얼마나 중요한지 깨닫게 되는 눈이 번쩍 뜨이는 경험이었습니다.

I don't think that Warren would have made all the money that Berkshire made in Coca-Cola.
워렌이 코카콜라에서 버크셔가 번 모든 돈을 벌었을 거라고 생각하지 않습니다.

If he hadn't bought Seas, he learned the record of Berkshire Hathaway and the record of Warren Buffett is a record based on continuous learning.
만약 그가 시즈(See's)를 사지 않았다면, 버크셔 해서웨이의 실적과 워렌 버핏의 실적이 지속적인 학습을 바탕으로 한 것임을 알게 되었을 것입니다.

If he hadn't kept learning from every experience, the record would not be as good.
만약 그가 모든 경험에서 계속 배우지 않았다면, 그의 실적은 지금처럼 좋지 않았을 것입니다.

He learned from Seas that he should buy Coca-Cola.
그는 시즈(See's)에서 배운 것을 통해 코카콜라를 사야 한다는 것을 깨달았습니다.

You really can understand the power of a brand more when you buy something very cheaply and you're starting to get 300% per annum on your investment in cash.
당신이 무언가를 매우 저렴하게 사고 투자에 대해 연간 300%의 현금 수익을 얻기 시작할 때, 브랜드의 힘을 정말로 이해할 수 있습니다.

That draws your attention that a brand can be very important.
그것은 브랜드가 매우 중요할 수 있다는 점에 당신의 주의를 끕니다.

RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`

[성운] — Wed, 19 Feb 2020 21:13:10 +0900

Robertatransformers에서 지원하는 Roberta를 기반으로 Korquad 데이터를 학습 중 입니다. 한국어를 학습하기 위해서 Multilingual를 지원하는 XLM-RoBERTa를 사용하도록 소스를 수정했습니다. 소스를 수정하고 run_squad.py를 수행하니 다음과 같은 에러가 발생했습니다.

/pytorch/aten/src/THC/THCTensorIndex.cu:361: void indexSelectLargeIndex(TensorInfo<T, IndexType>, TensorInfo<T, IndexType>, TensorInfo<long, IndexType>, int, int, IndexType, IndexType, long) [with T = float, IndexType = unsigned int, DstDim = 2, SrcDim = 2, IdxDim = -2, IndexIsMajor = true]: block: [6,0,0], thread: [29,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
/pytorch/aten/src/THC/THCTensorIndex.cu:361: void indexSelectLargeIndex(TensorInfo<T, IndexType>, TensorInfo<T, IndexType>, TensorInfo<long, IndexType>, int, int, IndexType, IndexType, long) [with T = float, IndexType = unsigned int, DstDim = 2, SrcDim = 2, IdxDim = -2, IndexIsMajor = true]: block: [6,0,0], thread: [30,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
/pytorch/aten/src/THC/THCTensorIndex.cu:361: void indexSelectLargeIndex(TensorInfo<T, IndexType>, TensorInfo<T, IndexType>, TensorInfo<long, IndexType>, int, int, IndexType, IndexType, long) [with T = float, IndexType = unsigned int, DstDim = 2, SrcDim = 2, IdxDim = -2, IndexIsMajor = true]: block: [6,0,0], thread: [31,0,0] Assertion `srcIndex < srcSelectDimSize` failed.
Traceback (most recent call last):
  File "/content/drive/My Drive/models/transformers/examples/run_squad.py", line 858, in
    main()
  File "/content/drive/My Drive/models/transformers/examples/run_squad.py", line 797, in main
    global_step, tr_loss = train(args, train_dataset, model, tokenizer)
  File "/content/drive/My Drive/models/transformers/examples/run_squad.py", line 231, in train
    outputs = model(**inputs)
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_roberta.py", line 677, in forward
    inputs_embeds=inputs_embeds,
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py", line 806, in forward
    encoder_attention_mask=encoder_extended_attention_mask,
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py", line 423, in forward
    hidden_states, attention_mask, head_mask[i], encoder_hidden_states, encoder_attention_mask
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py", line 384, in forward
    self_attention_outputs = self.attention(hidden_states, attention_mask, head_mask)
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py", line 330, in forward
    hidden_states, attention_mask, head_mask, encoder_hidden_states, encoder_attention_mask
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py", line 232, in forward
    mixed_query_layer = self.query(hidden_states)
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/modules/linear.py", line 87, in forward
    return F.linear(input, self.weight, self.bias)
  File "/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py", line 1372, in linear
    output = input.matmul(weight.t())
RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`

에러 메시지를 보면 시작점에 무언가 문제가 있다고 표시하고 있습니다.

단위 테스트 할 때는 크게 문게가 있어 보이지 않았습니다. 이렇게 또 여러번의 삽질이 들어 갔습니다.
처음부터 변경한 점을 다시 확인하다가 config.json이 RoBERTa로 되어 있었다는걸 확인 했습니다.
초반에 model_type이 아닌 path로 변경하는 걸 테스트 할 때 RoBERTa로 했었습니다.
이 config 파일을 XLMRobertaConfig로 변경하고 정상 수행 확인했습니다.

그래서 둘의 차이점을 확인해 보니 vocab_size가 달랐습니다. 아마 Model에 input을 넣을때 사이즈에 문제가 있었던걸로 보입니다.

RobertaConfig - "vocab_size": 50265
XLMRobertaConfig - "vocab_size": 250002

추가로 RobertaConfig와 XLMRobertaConfig의 내용을 올립니다.

RobertaConfig

{
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "do_sample": false,
  "eos_token_ids": 0,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": false,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1
  },
  "layer_norm_eps": 1e-05,
  "length_penalty": 1.0,
  "max_length": 20,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_beams": 1,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "num_return_sequences": 1,
  "output_attentions": false,
  "output_hidden_states": false,
  "output_past": true,
  "pad_token_id": 0,
  "pruned_heads": {},
  "repetition_penalty": 1.0,
  "temperature": 1.0,
  "top_k": 50,
  "top_p": 1.0,
  "torchscript": false,
  "type_vocab_size": 1,
  "use_bfloat16": false,
  "vocab_size": 50265
}

XLMRobertaConfig

{
  "architectures": [
    "XLMRobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "do_sample": false,
  "eos_token_ids": 0,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": false,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1
  },
  "layer_norm_eps": 1e-05,
  "length_penalty": 1.0,
  "max_length": 20,
  "max_position_embeddings": 514,
  "model_type": "xlm-roberta",
  "num_attention_heads": 12,
  "num_beams": 1,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "num_return_sequences": 1,
  "output_attentions": false,
  "output_hidden_states": false,
  "output_past": true,
  "pad_token_id": 0,
  "pruned_heads": {},
  "repetition_penalty": 1.0,
  "temperature": 1.0,
  "top_k": 50,
  "top_p": 1.0,
  "torchscript": false,
  "type_vocab_size": 1,
  "use_bfloat16": false,
  "vocab_size": 250002
}

글이 도움되셨다면 공감 부탁 드립니다.

감사합니다.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - C Additional Ablation Studies

[성운] — Tue, 11 Feb 2020 20:48:58 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

A Additional Details for BERT 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/60

C Additional Ablation Studies

C.1 Effect of Number of Training Steps

Figure 5은 checkpoint를 fine-tuning 후 MNLI Dev accuracy를 나타냅니다. checkpoint는 k step번 pre-train되었습니다.
이것은 다음과 같은 의문이 생깁니다.
1. Question
BERT는 높은 fine-tunning accuracy를 얻기 위해 pre-training으로 그렇게 큰 양(128,000 words/batch * 1,000,000 steps)이 필요한가?
Answer: Yes, BERTBASE는 MNLI에서 500k steps에 비해 1M은 steps는 추가 accuracy 1.0%를 얻습니다(K=1000 / M= 1,000,000).

2. Question
batch마다 단어중 15%만 예측하기 때문에 MLM pre-training 수렴은 LTR pre-training보다 느립니다.
Answer: 시작하고 거의 바로 accuracy 측면에서 MLM모델은 LTR모델을 능가합니다.

C.2 Ablation for Different Masking Procedures

Section 3.1에서, BERT는 masked language model(MLM)로 pre-training할 때 target token을 masking한픈 mixed strategy를 사용합니다. 다음은 여러 masking strategies의 영향을 평가하는 ablation 연구입니다.

masking strategies의 목표는 fine-tuning동안 [MASK] 심볼을 절대 나타나지 않게 함으로써 pre-training과 fine-tuning간 mismatch를 줄인는 것 입니다. 우리는 MNLI과 NER의 Dev 결과를 보고합니다. NER에서 우리는 fine-tuning과 feature-based 방법을 보고합니다. 예상한대로, model이 representation을 조정할 기회가 없어서 feature-based 방법은 mismatch가 증폭됩니다.

결과는 Table 8에 확인할 수 있습니다. Table에서 MASK는 [MASK]심볼로 target token을 대체합니다.
SAME은 target token을 유지합니다. RND은 random token으로 target token을 대체합니다.
table의 왼쪽의 수치는 MLM pre-training동안 사용된 확률을 나타냅니다(BERT: 80%, 10%, 10%). 오른쪽 부분은 Dev set 결과를 나타냅니다. featured-based 접근방ㅂ버을 위해, 우리는 BERT의 마지막 4layers에 결합했습니다(Section 5.3에서 best 접근방법으로 나왔던).
table로 부터 fine-tuning은 여러 masking strategies에 강력합니다. 하지만 예상대로, feature-based 접근방법dmf NER에 적용할 때 Mask strategy만 사용하는것은 문제가 되었습니다. 흥미롭게도, RND strategy만 사용하는 것은 우리의 strategy보다 성능이 안좋습니다.

6. Conclude

최근 Language Model에서 전이학습으로 인한 성능 향상은 충분한 Unsupervised pre-training은 많은 Language Understanding에 필수라고 설명되었습니다. 특히, 이 결과는 Deep Unidirectional Architectures로 인해 적은 자원으로도 가능했습니다. 우리는 동일하게 pre-training된 모델로 여러 NLP 작업을 성공적으로 처리 할 수 있도록 Deep Bidirectional Architectures 연구하여, 좀 더 일반화할 계획입니다.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - Additional Details for BERT

[성운] — Tue, 11 Feb 2020 20:32:36 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

5 Ablation Studies는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/59

Appendix for "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"
세개의 섹션으로 구성하였습니다.

Appendix A. BERT 추가 구현법을 작성함.
Appendix B. 우리의 경험.
Appendix C. ablation 연구
: Training Steps의 Number의 효과.
: 여러 Masking Procedures 의 Ablation

A Additional Details for BERT

A.1 Illustration of the Pre-training Tasks

우리는 다음 pre-training tasks의 예를 제공합니다.
Masked LM and the Masking Procedure
my dog is hairy라는 unlabed 문장을 가정해 보자. 그리고 random masking 절차 동안, hariy에 대응하는 4-th token을 선택합니다. masking 절차는 다음과 같이 설명할 수 있습니다.

80% of the time: [MASK] token으로 단어를 대체: e.g., my dog is hairy -> my dog is [MASK]
10% of the time: random word로 대체: e.g., my dog is hairy -> my dog is apple
10% of the time: 변경하지 않음: e.g., my dog is hairy -> my dog is hairy

이 procedure의 이점은 Transformer encoder는 어떤게 random word로 대체되었는지 알지 못합니다. 그래서 모든 input token distributional contextual representation을 유지시킵니다. 게다가, random replacement는 모든 token에서 겨우 1.5%로 발생합니다. 이건 model's language understanding capability에 나쁜 영향을 주지 않을걸로 보입니다.
Section C.2어서, 이 procedure의 영햐을 평가합니다. 표준 language model training과 비교하여, masked LM은 Batch 마다 15%만 예측합니다. 모델에 적용하려면 더 많은 pre-training 단계가 필요할 수 있습니다. Section C.1에서 우리는 MLM이 left-to-right model보다 약간 느리게 수렴되는걸 보여줍니다.

Next Sentence Prediction
next sentence prediction task는 다음 예로 설명할 수 있습니다.

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

A.2 Pre-training Procedure
trainin input sequence를 만들기 위해, 우리는 corpus에서 two spans를 샘플링 했습니다. 첫 sentence A embedding과 두 번째 sentence B embedding. B의 50%는 A의 실제 다음 문장이고 50%sms random sentence입니다. 결합된 길이는 512token보다 작게 샘플링 했습니다. 15% 비율로 masking된 WordPiece tokenization 후 LM masking이 적용됩니다.
그리고 partial word piece에 특별한 고려는 없습니다. 1,000,000 steps 동안 batch size 256 sequences (256 sequences * 512 tokens = 128,000 tokens/batch) 3.3 billion word corpus로 약 40 epoch 훈련을 했습니다. learning rage 1e-4로 Adam과 B1 = 0.9, B2=0.999, L2 weight decay=0.01, 첫 10,000 steps동안 learning rage warmup과 learning rate의 linear decay 사용했습니다. 모든 layer의 dropout의 확률은 0.1입니다. OpenAI GPT에서 사용한 relu보다 gelu activation을 사용했습니다. training loss는 mean masked LM likelihood와 mean next sentence prediction likelihood의 sum 입니다.

BERTBASE Training은 Pod configuration에서 4 Cloud TPU로 수행했습니다(16 TPU chips totals). BERTLARGE Training은 16 Cloud TPUs에서 수행했습니다(64 TPU chips totals). 각 pre-training이 완료되는데는 4일 걸렸습니다. attention은 sentence 길이의 quadratic(이차의) 이므로 긴 문장은 더 많은 시간이 소요됩니다. pre-training의 속도를 올리기 위해서, 우리는 corpus의 90%를 128길이로 pre-train 했습니다. 그런 다음, positional embeddings을 학습하기 위해 나머지 10%를 512길이로 학습했습니다.

A.3 Fine-tunning Produre

fine-tunning 동안, 대부분 model hyperparameters는 pre-training과 같습니다(batch size, learning rate, epoch 수 예외).
dropout의 확률은 항상 0.1로 유자합니다. 최상의 hyperparameter값은 task-specifc이지만, 우리는 다음과 같이 모든 task에 잘 작동하는 value의 범위를 발견했습니다.

Batch size: 16, 32
Learning rate(Adam): 5e-e, 3e-5, 2e-5
Number of epochs: 2, 4

우리는 또한 관찰했습니다. large data sets(e.g., 100k+ labeled training examples)은 hyperparameter 선택에 덜 민감합니다. Fine-tunning은 대체로 빠릅니다. 그래서 위 parameters를 모두 수행하고 개발셋에서 가장 좋은 Model을 선택하는것에 합리적입니다.

A.4 Comparison of BERT, ELMo and OpenAI GPT

최근 인기있는 representation learning models를 연구합니다(ELMo, OpenAI GPT, BERT). Figure 3에서 model architecture간 비교를 보여줍니다. BERT와 OpenAI GPT는 fine-tuning 방식입니다. 반면 ELMo는 feature-based 방식입니다. BERT와 가장 유사한 기존 pre-training 방법은 OpenAI GPT입니다. OpenAI GPT는 large text corpus에서 left-to-right Transformer LM으로 훈련합니다. ERT의 많은 설계는 두 방법이 비교할 수 있게 GPT와 유사하게 만들어 졌습니다.
이 작업의 core argument는 bi-directionality와 two pre-training tasks
그리고 Section 3.1에서 보여주는 두 pre-training tasks는 empirical improvements의 대부분을 설명합니다.
그러나 BERT와 GPT train 방법 차이는 몇가지만 있습니다.

GPT는 BooksCorpus(800M words)로 훈련하였습니다. BERT는 BooksCorpus(800M words )와 Wikipedia(2,500M words)로 훈련하였습니다.
GPT는 오직 fine-tuning에서만 문자 구분자(sentence separator)로 ([SEP])와 classifier token으로 ([CLS]) 를 사용하였습니다. BERT는 pre-training동안 [SEP], [CLS]와 sentence A/B embedding을 학습합니다.
GPT 32,000단어의 batch size를 1M step동안 학습합니다. BERT는 128,000단어의 batch size를 1M step동안 학습합니다.
GPT는 fine-tuning동안 같은 learning rage를 사용합니다(5e-5). BERT는 development set에서 가장 좋은 성능을 나타내는 learning rate를 선택합니다(task-specific fine-tuning).

이런 다른점의 효과를 구분하기 위해, 우리는 Section 5.1에서 ablation 실험을 수행했습니다. 성능향상의 대부분은 pre-training과 bidirectionality에서 비롯되었다고 설명합니다.

A.5 Illustration of Fine-tuning on Different Tasks
여러 tasks에서 BERT의 fine-tuning의 설명은 Figure4에서 보여준다. 우리의 task-specific model들은 통합 BERT에 하나의 추가 output layer를 추가해서 만들었습니다. 그래서 최소한의 parameters를 처음부터 배워야 합니다. tasks중 (a)와 (b)는 sequence-level task입니다. 반면, (c)와 (d)는 token-level tasks입니다. 그림에서 E는 input embedding을 나타냅니다. Ti token에서 i번째 tokendml contextual representation 나타냅니다. [CLS]은 output을 구분하기 위한 특수문자입니다. 그리고 [SEP]는 non-consecutive token sequences을 분리하는 특수 문자입니다.

C Additional Ablation Studies 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/61

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 5

[성운] — Sat, 1 Feb 2020 13:08:40 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

4 Experiments는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/58

5 Ablation Studies

이번 섹션에서 우리는 상대적인 중요성을 좀 더 이해하기 위해서 BERT를 다양한 측면에서 ablation experiments를 수행하였습니다. 추가적인 ablation 연구는 부록 C에서 확인할 수 있습니다.

5.1 Effect of Pre-training Tasks

Table 5

우리는 같은 pre-training data와 fine-tuning scheme 그리고 hyperparamters를 사용하는 두 pre-training objectives를 평가하여 DBER의 deep bidirectionality 중요성을 설명합니다(as BERT_BASE).

No NSP: MLM을 사용하여 훈련된 bidirectional model 그러나 NSP는 사용하지 않음.

LTR(Left-to-Right - LTR을 사용하여 훈련된 left-context-only model) & NSP: left-only 제약은 fine-tuning에도 적용됩니다(pre-train/fine-tune mismatch는 downstream 성능을 저하시키므로). 추가로, 이 모델은 NSP task없이 pre-train됩니다. OpenAI GPT와 비교하여, 더 큰 dataset과 input representation, fine-tuning schem을 사용합니다. 우리는 NSP의 영향을 시험했습니다. Table 5를 보면, NSP 제거는 QNLI, MNLI, SQuAD 1.1에 상당히 나쁜 영향을 주었습니다.
다음으로, bidirectional representations을 훈현하는 영향을 평가했습니다(No NSP, LTR & No NSP). LTR 모델은 모든 task에서 MLM 모델보다 더 나쁜 성능을 보였습니다. 특히, MRPC와 SQuAD에서 많이 떨어졌습니다.

SQuAD에서 LTR 모델은 token prediction에서 나쁜 성능을 낼거란걸 직관적으로 예상합니다(token-level hidden states는 right-side context가 없기 때문). LTR 시스템을 개선하기 위해, 랜덤하게 초기화된 BiLSTM을 top에 추가하였습니다. 이것은 SQuAD에 상당한 성능 향상을 보였습니다. 그러나 여전히 pre-train된 bidirectional model 보다는 좋지 않았습니다. BiLSTM은 GLUE task에서는 나쁜 성능을 냈습니다.

우리는 LTR과 RTL모델을 분리하여 훈련하는 것과 ELMo와 같이 두 model을 합쳐서 토큰을 표현할 수 있다는걸 알게되었습니다.
However:
(a) single bidirectional model은 두 배의 비용이 들어감
(b) QA와 같은 task에는 non-intuitive함(RTL model은 질문에 답을 할 수 없기때문)
(c) deep bidirectional 모델 보다는 덜 효과적 임(모든 layer에서 양 방향(left and right) context를 사용하기 때문).

5.2 Effect of Model Size

이번 섹션에서, model size가 fine-tuning accuracy에 미치는 영향을 확인 하겠습니다. 우리는 같은 hyperparameters와 training절차로 다른 수의 layer, hidden unit, attention head로 여러 BERT모델을 학습했습니다.
GLUE task의 결과는 Table 6에서 확인할 수 있습니다. Table 6에서, 우리는 5random restarts fine-tunning의 평균 DEV Set accuracy를 리포트 했습니다. 모든 dataset에서 큰 모델이 accuracy 향상을 확인했습니다. pre-training task는 다르고, 심지어 MRPC 3,600 labeled traing exmaple를 가진 MRPC에서도 더 좋은 성능을 보였습니다. 기존 leterature에 비해 이미 상당히 큰 모델을 통해 상당한 성능 향상을 얻을 수 있다는 것은 놀라운 일입니다.
예를들어, 가장 큰 Transformer의 encoder는 (L=6, H=1024, A=16)와 100M paramters로 연구하였습니다.
그리고 우리가 가진 가장큰 Transformer는 ......
대조적으로, BERTBASE는 110M parameters와 BERTLARGE는 340M parameters를 가지고 있습니다.

Table 6에서 보여준, LM perplexity of held-out training data 설명되었던 machine trranslation과 language modeling과 같은 large-scale task에서 model size크기를 증가시키면 연속적인 성능향상을 보인다는 것은 오랜 시간동안 알려져 왔습니다. 하지만, 우리는 충분히 pre-train된 모델이라면, 매우 작은 규모의 작업에서도 크게 개선된다는 것을 보여주는 첫 번째 작업이라는 것을 믿습니다. Peters et al. (2018b) presented mixed results on the downstream task impact of increasing the pre-trained bi-LM size from two to four layers and 그리고 Melamud et al. hidden dimension size를 200에서 600으로 늘려서 도움이 됐다고 말했습니다. 그러나 1000 이상은 성능향상이 없다고 말했습니다. 두 개 모두 feature-based 방법을 사용했습니다.
we hypothesize that when the model is fine-tuned directly on the downstream tasks and uses only a very small number of randomly initialized additional parameters, the taskspecific models can benefit from the larger, more expressive pre-trained representations even when downstream task data is very small.

A Additional Details for BERT 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/60

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 4

[성운] — Thu, 30 Jan 2020 22:00:26 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

3 BERT는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/55

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3.1-3.2

BERT논문을 직역 및 의역으로 작성한 내용입니다. 3.1 Pre-training BERT Peter et al(2018a), Radford et al(2018)과 다르게, 우리는 BERT를 pre-train하기 위해 traditional left-to-right or right-to-left lan..

ynebula.tistory.com

4 Experiments

이번 Section에서는 11 NLP 과제에서 BERT fine-tuning한 결과를 알아 보겠습니다.

4.1 GLUE

General Lanuage Understanding Evaluation(GLUE) benchmar(Wang et al., 2018a)은 다양한 자연어 이해 과제입니다. 자세한 설명은 부록 B.1에 있습니다.

GLUE를 fine-tune하기 위해서, input sequnce를 Section 3에서 설명 했듯이 표현했습니다(single sentence or sentence pairs). 그리고 final hidden vector C를 사용했습니다(C∈R^H). C는 집계 표현으로 첫번째 token ([CLS]) 입니다. Fine-tuning동안 새롭게 사용된 parameter는 classification layer weight W 입니다(W∈R^K*H). K는 label입니다. 우리는 C와 W로 classification loss를 연산하였습니다(i.e. log(softmax(CW^T))).

우리는 모든 task에서 batch size:32, fine-tune:3 epoch로 설정했습니다. 각 task에서 우리는 Dev set에서 learning rate를 5e-5, 4e-5, 3e-5, 2e-5 중 가장 좋은 fine-tune을 선택했습니다. 게다가 BERTLARGE에서 우리는 fine-tuning이 작은 datasets에서 가끔 불안정 하다는 것을 확인했습니다. 그래서 우리는 무작위로 몇 번 재시작을 수행했고 best model을 선택하였습니다. 우리는 같은 pre-trained checkpoint를 사용했지만 data shuffling과 classifier layer initialization으로 여러번 fine-tuning을 수행했습니다.

결과는 Table 1에서 확인할 수 있습니다. BERTBASE와 BERTLARGE 모두 상당한 차이로 더 좋은 결과를 냈습니다. 이전 SOTA보다 평균 accuracty가 4.5% ~ 7% 향상되었습니다. BERTBASE와 OpenAI GPT는 attention masking을 제외하고 거의 같은 model architecture 조건입니다. MNLI에서 BERT가 4.6% 더 높은 정확도를 보였습니다. GLUE leaderboard에서 BERTLARGE는 80.5 점을 받았습니다(OpenAI GPT: 72.8점).

우리는 매우 적은 training data로 모든 task에서 BERTLARGE와 BERTBASE 모두 높은 성능을 확인했습니다. model size의 효과는 Section 5.2에서 확인할 수 있습니다.

4.2 SQuAD v1.1

Stanford Question Answering Dataset(SQuAD v1.1)은 100.000개 crowdsource 한 질문/답변 쌍 컬렉션입니다. 주어진 질문과 답변을 포한하는 위키피디아의 구절을 이용해서, Task는 구절에 있는 answer text span을 예측합니다. Figure 1에서 보듯이, 질문 답변 task에서 우리는 single packed sequence로 input question과 passage를 표현했습니다. 즉, A embedding을 사용하여 질문으로, 그리고 B embedding을 사용하여 구절로 사용했습니다. 우리는 fine-tuning동안 start vector S와 end vector를 사용했습니다(S∈R^H, E∈RH). answer span의 시작 work i의 확률은 Ti와 S사이를 dot product로 연산합니다. 다음에 단락의 모든 단어를 softax연산합니다.

answer span의 end에도 유사식이 사용됩니다. from position i에서 to position의 candidate span의 점수는 S·T_i+ E·T_j 로정의됩니다. 그리고 maximum scoring span이 예측으로 사용됩니다 (j>=i). 훈련의 목표는 올바를 start와 end의 log-likelihoods의 합 입니다. 우리는 3 epoch, learning rate: 5e-5, batch size:32로 fine-tune 하였습니다.

Table 2에서 top published systems(Seo et al., 2017; Clark and Gardner. 2018; Peters et al., 2018a; Hu et al., 2018) 와 top leaderboard entiris를 확인할 수 있습니다. SQuAD leaderboard의 top 결과는 최신 public system descriptions를 갖지 못 했습니다. 그래서 우리는 SQuAD를 fine-tuing하기 전에,TriviaQA로 처음 fine-tuning하여 약간의 data argumentation으로 사용했습니다.

우리의 best performing system은 ensembling에서 top leaderboard system보다 +1.5 F1 성능을 냈습니다. 그리고 single system에서는 +1.3 F1 성능을 냈습니다. 사실상 single BERT model은 F1 score의 top ensemble system 성능을 냈습니다. TriviaQA fine-tuing없이는 0.1-0.4 F1 낮았습니다. 예전 system보다는 좋은 성능을 냈습니다.

4.3 SQuAD v2.0

SQuAD v2.0과제는 좀 더 현실적으로 만들고 짧은 답변이 제시된 단락에 없다는 가능성을 허용하므로써 SQuAD v1.1문제 정의를 확장하였습니다. 우리는 이 과제를 위해 SQuAD v1.1 BERT 모델을 확장 시켰습니다. 우리는 답이 없는 질문을 [CLS] token에서 시작부터 끝의 답변 범위를 가지는 것으로 처리했습니다. [CLS] token의 위치를 포함하기 위해 시작과 종료 답변 범위 위치의 확률 공간을 확장하였습니다. 예측을 위해, 우리는 답변이 없는 범위의 점수를 계산합니다(s_null=S·C+ E·C). non-null 범위의 점수는 s_i,j=maxj>=.S·Ti + E·Tj 입니다(이 결과는 추정치 임). 우리는 non-null 답변을 예측하였습니다(s_i,j (햇-추정치)> s_null+ τ) (τ(threshold)은 maximize F1의 dev set에서 선택됩니다). 우리는 TriviaQA data를 사용하지 않았습니다. 우리는 2epochs, learing rate 5e-5, batch size: 48로 fine-tuen 하였습니다.

이번 leaderboard entry들과 top publiahed work와 비교한 결과는 Table 3에서 볼 수 있습니다. 우리는 이전 best system 보다 +5.1 F1 향상을 확인했습니다.

4.4 SWAG

Situations With Adversarial Generation(SWAG) dataset은 113,000rodml sentence-pair를 가지고 있습니다. 이 dataset은 grounded common-sense inference를 평가합니다. 주어진 문자으로, 과제는 4개 선택 중 가장 그럴듯한 continuation을 선택합니다. SWAG dataset에서 fine-tuning할 때, 우리는 4개의 input sequences(sentence A)와 가능한 continuation(sentence B)를 구성했습니다. 도입된 유일한 작업별 매개변수는 [CLS] token representation C가 있는 dot product가 softmax layer로 정규화된 각 선택 항목에 대한 점수를 나타내는 벡터입니다.

우리는 3epoch, learning rate 2e-5, batch size 16으로 fine-tune하였스빈다. 결과는 Tabe 4에서 확인할 수 있습니다. BERTLARGE는 ESIM+ELMo 보다 +27.1%, 그리고 OpenAI GPT 보다 +8.3 성능을 보였습니다.

5 Ablation Studies 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/59

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3.1-3.2

[성운] — Wed, 29 Jan 2020 21:27:22 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

3 BERT는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/55

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3

BERT논문을 직역 및 의역으로 작성한 내용입니다. 3. BERT 우리는 BERT와 자세한 구현법을 이 Section에서 소개합니다. 두 개의 절차가 있습니다(pre-training과 fine-tuning). Pre-training동안, 여러 pre-train..

ynebula.tistory.com

3.1 Pre-training BERT

Peter et al(2018a), Radford et al(2018)과 다르게, 우리는 BERT를 pre-train하기 위해 traditional left-to-right or right-to-left language models를 에 사용하지 않았다. 대신 우리는 two unsupervised tasks을 사용해서 BERT에 pre-train했습니다.

Task#1: Masked LM

Deep bidirectional model이 left-to-right와 right-to-left 보다 더 powerful하다고 생각합니다. 운이 좋지 않게, standard conditional language models는 오직 left-to-right 또는 right-to-left로만 훈련되었습니다. Bidirectional conditioning은 각 단어에 자기 자신을 간접적으로만 볼 수 있습니다. 그리고 model은 multi-layered context에서 target word를 예측합니다.

Deep bidirectional representation을 학습하기 위해, 우리는 몇 개의 token(some percentage)을 랜덤으로 mask합니다. 그리고 그 masked tokens를 예측합니다. 우리는 이 절차를 “masked LM”(MLM)이라고 말합니다. 이 경우, mask tokens에 해당하는 final hidden vectors는 output softmax에 입력됩니다(Output softmax는 Vocab에 대한 연산).

우리는 각 sequence의 모든 wordpiece token에서 15%를 무작위로 mask합니다. 우리는 전체 input을 재구성하는 것 보다 오직 masked words 예측합니다.

이 방법으로 bidirectional pre-trained model 얻을 수 있지만, downside에서는 [MASK] token이 fine-tuning동안 나타나지 않기 때문에, pre-training과 fine-tuning 사이에는 mismatch가 발생합니다. 이를 줄이기 위해, 우리는 실제 [MASK] token을 항상 “masked”로 대체하지 않습니다. Training data generator는 token위치의 15%를 무작위로 선택합니다. 만약 i-th token이 선택되었다면, 80%는 [MASK] token으로 대체하고, 10%는 random token으로 대체하고, 10%로는 변경하지 않습니다. 그런 다음 T_i 는 cross entropy loss를 사용하여 원래 token을 예측하는데 사용될 것입니다. 이 절차의 변화를 부록 C.2에서 비교합니다.

Task #2: Next Sentence Prediction (NSP)

Question Answering과 같이 중요한 downstream tasks와 Natural Language Inference(NLI)는 두 sentences의 relationship 이해를 기반으로 합니다. Sentence relationships을 이해한 Model 훈련을 위해, binarized next sentence prediction task를 pre-train합니다.

예로 A와 B문장이 선택되었을 때, 실제 A다음 문장으로 50%는 B가 50%는 corpus중 무작위로 선택됩니다(labeled as IsNext). Figure 1에서 보았듯이, C는 다음 sentence 예측(NSP)에 사용됩니다. Section 5.1에서 설명하겠습니다. 이 pre-training은 QA와 NLI에 매우 유용합니다.

NSP task는 Jernite et al.(2017)과, Logeswaran and Lee (2018)에서 사용된 representation-learning objectives와 매우 관련이 있습니다. 하지만 사전 작업에서, 오직 sentence embedding만 down-stream tasks로 이동합니다. 반면 BERT는 end-task model parameters를 초기화하기 위해 모든 parameter를 이동합니다.

Pre-training data

Pre-training procedure은 language model pre-training에 관한 기존 문헌을 주로 따른다. Pre-training corpus로 BooksCorpus(800M words)(Zhu et al., 2015)와 English Wikipedia (2,500M words)를 사용하였습니다. Wikipedia에서 text passages 그리고 lists, tables와 headers는 제외했습니다. 이건 long contiguous sequences를 추출하기 위해, shuffled sentence-level corpus(as the Billion Word Benchmark)보다 document-level corpus 사용이 중요합니다.

3.2 Fine-tuning BERT

Transformer의 self-attention mechanism은 BERT가 입력과 출력을 적절히 바꿔서 많은 downstream tasks를 모델링 하도록 허락하기 때문에 Fine-tuning은 간단합니다(입력과 출력이 single text 또는 text pairs에 포함될지 어떤지).

Text pairs를 포함한 applications를 위해, 공통 패턴은 bidirectional cross attention을 적용하기 전에 text pairs를 독립적으로 인코딩합니다(Parikh et al. (2016), Seo et al. (2017)).

BERT는 이 두 단계를 통합하기 위해, self-attention mechanism을 사용합니다. 이 두 단계는 연결된 텍스트를 인코딩하기 때문에, self-attention로 연결된 text pair를 인코딩한 것은 두 문장 사이의 bidirectional cross-attention을 포함하기 때문입니다.

각 task마다, 우리는 task-specific inputs와 outputs를 BERT에 간단하게 plus합니다. 그리고 end-to-end로 모든 parameters를 fine-tune합니다.

사전 훈련에서 입력, 세트 A와 문장 B는 다음과 유사합니다.

sentence pairs in paraphrasing,
hypothesis-premise pairs in entailment,
question-passage pairs question answering,
a degenerate text-0 pair in text classification or sequence tagging

출력에서 token representation은 sequence tagging 또는 question answering와 같은 token-level taks를 위해 output layer로 공급됩니다(token-level task - ). 그리고 [CLS] representation은 entailment 또는 sentiment analysis와 같은 분류를 위해 출력 계층으로 공급됩니다.

Pre-training과 비교하여 fine-tuning은 비교적 inexpensive합니다. 논문의 모든 결과는 단일 클라우드 TPU에서 최대 1시간 이내에, 또는 정확히 동일한 사전 교육 모델에서 시작하여 GPU에서 몇 시간 내에 복제할 수 있다. 본 섹션은 해당 섹션의 하위 섹션에서 태스크별 세부사항을 설명한다. 자세한 내용은 부록 4.5를 참조하십시오.

4장은 다음 컨텍츠를 참고바랍니다.

https://ynebula.tistory.com/58

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 4

4 Experiments 이번 Section에서는 11 NLP 과제에서 BERT fine-tuning한 결과를 알아 보겠습니다. 4.1 GLUE General Lanuage Understanding Evaluation(GLUE) benchmar(Wang et al., 2018a)은 다양한 자연어 이해..

ynebula.tistory.com

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3

[성운] — Mon, 27 Jan 2020 20:59:51 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

2 Related Work은 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/54

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 2

BERT논문을 직역 및 의역으로 작성한 내용입니다. 이전 BERT는 다음 컨텐츠를 이용바랍니다. https://ynebula.tistory.com/53 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding..

ynebula.tistory.com

3. BERT

Figure 1

우리는 BERT와 자세한 구현법을 이 Section에서 소개합니다. 두 개의 절차가 있습니다(pre-training과 fine-tuning). Pre-training동안, 여러 pre-training 과제에서 unlabeled data로 학습합니다. Fine-tuning동안, BERT 모델은 먼저 사전 훈련 된 매개 변수로 초기화되며, 모든 매개 변수는 다운 스트림 작업에서 레이블이 지정된 데이터를 사용하여 미세 조정됩니다. 같은 pre-trained parameter로 초기화 될 지라도, 각 downstream 과제는 fine-tune된 model로 분리됩니다. Figure 1에서 예 question-anwsering은 이번 Section 예제로 사용될 예정입니다.

BERT의 특징은 다른 과제에서도 통합 구조입니다. pre-trained구조와 final downstream구조 사이에는 약간의 차이만 있습니다.

Model Architecture

BERT 모델 구조는 multi-layer bidirectional Transformer encoder를 기반으로 합니다. Transformer는 Vaswani et al(2017)에 설명되었으며, 그리고 tensor2tensor 라이브러리에 릴리즈 되었습니다. Transformer의 사용법은 컴몬(common)해졋고 BERT 구현법은 원본과 거의 같다. 우리는 모델의 구조와 배경 설명은 생략할 것입니다. Vaswani et al.와 "The Annotated Transformer"와 같은 훌륭한 가이드를 참고바랍니다.

이 논문에서, L은 layer의 수(i.e., Transformer blocks), H는 hidden size, A는 self-attention head의 수를 의미합니다. 우리는 두 개의 모델을 제공합니다.

BERT_BASE (L=12, H=768, A=12, Total Parameter=110M)

BERT_LARGE (L=24, H=1024, A=16, Total Parameter=340M)

BERTBASE는 비교를 위해 OpenAI GPT 같은 model size입니다. 하지만 BERT Transformer는 bidirectional self-attention을 사용했습니다. 반면 GPT Transformer는 constrained self-attention을 사용했습니다(모든 token은 오직 자신의 왼쪽 context만 참조함).

Input/Output Representations

Figure 2

BERT는 다양한 down-stream tasks를 처리하기 위해 input representation은 하나의 token sequence에서 a single sentence and pair of sentences(e.g. <Question, Answer>)로 분명하게 표현한다. 이 작업을 통해, “sentence”는 실제 문장(actual linguistic sentence)이 아니라 contiguous text의 임의의 범위가(arbitrary span) 된다. “sequence”는 BERT에 대한 input token sequence를 말하며, single sentence 또는 two sentence로 되어 있을 수 있습니다.

우리는 30,000개의 wordpiece embedding을 사용했습니다. 모든 sequence의 시작은 special classification token([CLS]) 입니다. Final hidden state에서 이 token은 classification tasks에서 집계(aggregate) sequence representation으로 사용됩니다.

Sentence pairs은 single sequence에 포함되어 있습니다. 우리는 두 가지 방법으로 sentence를 구분합니다. 첫 째, special token([SEP])로 구분합니다. 두 번째 방법은 A문장인지 B문장인지를 나타내는 learned embedding을 모든 token에 추가합니다. Figure 1에서 보듯이, input embedding을 E 나타냈습니다(special token [CLS]의 final hidden vector (as C∈R^H), i^th input token의 final hidden vector (as T_i∈R^H))

주어진 token으로, input representation은 대응하는 token, segment, position embeddings의 합으로 생성됩니다. 이 생성 방법은 Figure 2에서 볼 수 있습니다.

3장 다음 내용은 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/56

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3.1-3.2

ynebula.tistory.com

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 2

[성운] — Mon, 27 Jan 2020 20:57:59 +0900

BERT논문을 직역 및 의역으로 작성한 내용입니다.

BERT Abstract 는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/53

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 1

BERT논문을 직역 및 의역으로 작성한 내용입니다. Abstract 새로운 language representation model BERT를 소개합니다. BERT는 Transformer의 Bidirectional Encoder Representations을 사용합니다. 최근 language..

ynebula.tistory.com

2 Relate Work

일반 언어 표현 사전훈련은 오랜 역사가 있습니다. 우리는 가장 널리 사용되는 방법을 간단하게 리뷰하겠습니다.

2.1 Unsupervised Feature-based Approaches

단어를 적절하게 표현하는 연구는 수십 년 간 연구한 분야 입니다. 신경망을 이용한 방법(Mikolov et al.,, 2013; Pennington et al., 2014)과 그렇지 않은 방법(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006)이 있습니다. 단어 임베딩 사전학습은 현대 NLP에서 핵심 부분입니다. 처음부터 학습하는 방법 보다 많은 성능 향상을 제공합니다. 단어 임베딩 벡터를 사전학습 시키기 위해, left-to-right language modeling objectives를 사용했습니다. 또한 context의 좌우를 교정하였습니다(Mikolov et al., 2013). 이러한 방법은 coarer granularities 일반화 되었습니다(sentence embeddings(Kiros et al., 2015; Logeswaran and Lee, 2018) 또는 paragraph embeddings(Le and Mikolov, 2014)). 문장 표현을 학습하기 위해, 1) 다음 문장들을 후보를 랭크시키는 사전학습과(Jernite et al., 2017; Logeswaran and Lee, 2018) 2)이전 문장을 이용해서 다음 문장을 left-to-right 생성 또는 3) auto-encoder derived objectives를 제거하는(Hill et al., 2016) 방법이 사용되었습니다.

ELMo와 그 이전의 것은(Peters et al., 2017, 2018a) 다른 차원에 따라 전통적인 워드 임베딩 연구를 일반화 했습니다. 그것들은 left-to-right과 right-to-left 언어 모델로 context-sensitive feature를 추출했습니다. 각 token의 contextual representation은 left-to-right과 right-to-left representations를 연결합니다. 존재하는 task-specific에 contextual word embeddings을 합쳐서, ELMo는 여러 중요한 NLP bechmarks SOTA를 이루어 냈습니다(question-answering(Rajpurkar et al., 2016), sentiment analysis(Socher et al., 2013), named entity recognition(Tjong Kim Sang and De Meulder, 2003)). Melamud et al.(2016)에 LSTMs를 이용한 좌우 context로부터 한 단어를 예측하는 과제를 이용하는 contextual representations 학습을 제안했습니다. ELMo는 이와 유사하게 모델을 feature-based 했습니다(deeply bidirectional은 사용 암함). Feduset al. (2018) cloze task는 text 생성 모델의 향상으로 사용할 수 있다는 것을 보여줬습니다.

2.2 Unsupervised Fine-tuning Approaches

Feature-based 방법과 마찬가지로, 처음에는 unlabeled text로 word embedding parameters만 사전학습 하였습니다(Collobert and Weston, 2008).

최근에는, contextual token representations를 생성하는 sentence or document는 unlabeled text로 사전학습 됩니다. 그리고 supervised downstream task동안 fine-tune 학습됩니다(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). 이러한 방법의 장점은 처음부터 배울 필요가 거의 없는 파라미터입니다. OpenAI GPT는 이전에 GLUE benchmark로부터 많은 setence-level tasks에서 SOTA가 되었습니다(Wanget al., 2018a). Left-to-right 언어 모델링과 auto-encoder objectives는 다음과 같은 pre-training에 사용되었습니다(Howard and Ruder, 2018; Radford et al., 2018;; Dai and Le, 2015).

2.3 Transfer Learning from Supervised Data

자연어 추론(Conneau et al., 2017)과 기계번역(McCann et al., 2017)에서 large datasets으로 supervised tasks한 효과적인 transfer를 보여준적은 없었습니다. Computer vision 연구는 large pre-trained models 전이학습의 중요성을 설명했습니다(ImageNet(Deng et al., 2009; Yosinski iet al., 2014)).

3 BERT는 다음 컨텐츠를 이용바랍니다.

https://ynebula.tistory.com/55

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 한글 번역 - 3

ynebula.tistory.com