[2020.05.18 기록] 페이스북 발표 논문 번역(8) 단일 모델에서의 블렌딩 기술

연어입니다.



[3.2] Blending Skills in a Single Model 단일 모델에서의 블렌딩 기술

Architectures and Training 아키텍처와 학습

The base architecture used throughout the paper is the 256-million parameter poly-encoder proposed in Humeau et al. (2019), which is a Transformer-based architecture for retrieval that learns a small number of codes representing the input context, so that performing attention over retrieval candidates is tractable in real-time, and was shown to be state of the art on several datasets.

The polyencoder is first pretrained on the pushshift.io Reddit dataset and then fine-tuned on individual datasets. At test time, these models retrieve from the set of training utterances to output a response.

Humeau와 al이 제안(2019)한 것으로서, 인풋 컨텍스트인 소량의 코드를 익히는 트랜스포머 기반 아키텍처답게 검색 대상에 대한 관심을 실시간으로 쉽게 처리할 수 있으며 여러 최신 기술의 데이터셋으로도 입증된 '256 밀리언 파라미터 폴리 인코더'를 논문 전반에 기본 아키텍처로 사용하였다.

폴리 인코더는 pushshiift.io Reddit 데이터셋으로 사전 학습된 다음 각 개별 데이터셋으로 미세 조정된다. 테스트를 하는 동안 학습 발화셋에서 모델을 검색하고 응답을 출력한다.


Swept hyperparameters include dropout fractions, learning-rate schedule, the number of polyencoder codes used to represent the context, the output scaling factor, and the output reduction type (max across outputs vs. mean across outputs vs. first output only).

스윕된 하이퍼 파라미터는 드롭아웃 비율, 학습률 스케줄, 컨텍스트를 나타내는 폴리 인코더 코드 번호, 출력 스케일링 계수, igiOnsy.jpg

연어입니다.



[3.2] Blending Skills in a Single Model 단일 모델에서의 블렌딩 기술

Architectures and Training 아키텍처와 학습

The base architecture used throughout the paper is the 256-million parameter poly-encoder proposed in Humeau et al. (2019), which is a Transformer-based architecture for retrieval that learns a small number of codes representing the input context, so that performing attention over retrieval candidates is tractable in real-time, and was shown to be state of the art on several datasets.

The polyencoder is first pretrained on the pushshift.io Reddit dataset and then fine-tuned on individual datasets. At test time, these models retrieve from the set of training utterances to output a response.

Humeau와 al이 제안(2019)한 것으로서, 인풋 컨텍스트인 소량의 코드를 익히는 트랜스포머 기반 아키텍처답게 검색 대상에 대한 관심을 실시간으로 쉽게 처리할 수 있으며 여러 최신 기술의 데이터셋으로도 입증된 '256 밀리언 파라미터 폴리 인코더'를 논문 전반에 기본 아키텍처로 사용하였다.

폴리 인코더는 pushshiift.io Reddit 데이터셋으로 사전 학습된 다음 각 개별 데이터셋으로 미세 조정된다. 테스트를 하는 동안 학습 발화셋에서 모델을 검색하고 응답을 출력한다.


Swept hyperparameters include dropout fractions, learning-rate schedule, the number of polyencoder codes used to represent the context, the output scaling factor, and the output reduction type (max across outputs vs. mean across outputs vs. first output only).

스윕된 하이퍼 파라미터는 드롭아웃 비율, 학습률 스케줄, 컨텍스트를 나타내는 폴리 인코더 코드 번호, 출력 스케일링 계수 및 출력 감소 유형(출력 최대값, 출력 평균값, 순수한 첫 출력)을 포함한다.

  • dropout : 신경망 모델의 정규화 기법 중 하나. 학습 중 무작위로 선택된 뉴런을 무시해버리는 기술이다. 뉴런들을 무작위로 '탈락'시킴으로써 신경망 네트워크가 뉴런의 특정 가중치에 민감해지는 것을 방지한다.

Hyperparameters that were held constant included a training batch size of 512 and learning with Adamax; 12 encoder layers and an embedding size of 768; and label and text truncation lengths of 72 and 360. Note this model discards all casing information.

일정하게 유지된 하이퍼 파라미터는 512 배치 사이즈의 훈련과 12 엔코더 층, 768 사이즈의 임베딩, 레이블 및 72-360 길이로 절단한 텍스트의 Adamax를 통한 학습을 포함했다. 이 모델이 모든 케이싱 정보를 배제하는 점에 주목하자.

  • bach size : batch 한 번 마다 주는 데이터 샘플의 사이즈. batch는 나눠진 데이터셋을 의미한다.

  • 메모리의 한계와 속도 저하 문제로 대개의 경우 한 번의 epoch(아래 설명)에 모든 데이터를 집어 넣을 수 없게 된다. 이 경우 데이터를 나누어 주게 되는데 각 데이터 사이즈를batch size라고 한다.


Models were trained until validation-set hits@1 failed to improve for 10 epochs. All training is conducted in ParlAI (Miller et al., 2017).

검증셋 hits@1이 10 epoch에 도달할 때까지 모델들을 학습시켰다. 모든 학습은 ParlAI 에서 수행한다.

  • epochs : 모든 데이터셋을 학습한 것을 나타낸다. 1 epoch는 전체 데이터셋을 한 번 학습한 것이다. epoch 값이 너무 작으면 underfitting, 너무 크면 overfitting이 발생활 확률이 높아진다.

  • iteration : 1회 학습.

  • 데이터셋, batch size, 1 epoch, 1 iteration의 관계: 덩어리인 데이터셋은 여러 조각으로 쪼갤 수 있다. 그 하나의 조각을 batch size로 본다. 여러개의 batch size로 쪼개진 데이터셋을 모두 한 번 학습하게 되면 그것이 1 epoch가 된다. 총 데이터가 100개 (1 dataset = 100 data), batch size가 10일 경우, 1 iteration = 10개 데이터에 대해 학습하게 되는 것이고, 1 epoch = 100/batch size = 10 iteration을 나타내게 된다.

Model selection during fine-tuning is performed by choosing the model that scores highest on hits@1 on the validation set. This architecture is then leveraged in different ways to combine different skills in a single agent.

미세 조정 중의 모델 선택은 유효셋 검사에 있는 hits@1에서 가장 높은 점수를 얻은 모델을 선택하여 수행된다. 그런 후 아키텍처는 다른 방식, 다른 기술로 단일 에이전트에서 결합된다.

Coin Marketplace

STEEM 0.04
TRX 0.32
JST 0.079
BTC 60480.78
ETH 1583.43
USDT 1.00
SBD 0.47