GPT-1 Open AI에서 개발한 모델로 다양한 자연어처리 task를 처리할 수 있는 통합된 모델이 중요한 특징이다. 모델 구조와 학습 방식 우선 Text를 position 임베딩을 더한다. self-attention 블럭을 12개 쌓는다. Text Prediction : 첫 단어부터 다음 단어까지 순차적으로 예측하는 모델이다. 동시에 모델의 큰 변형없이 classification도 수행하기 위해 Text Classifier에 Extract 벡터를 최종 output layer에 전달하도록 한다. Classification이 외에 Entailment, Similarity, Multiple Choice와 같이 다른 task에도 사용가능하다. 다른 task의 transfer learning에 활용하고 싶다면..