DALL-E Intro. 이번 DALL-E 논문은 MultiModal task에 관심이 많아져서 읽고 싶었던 논문이다. 이미지 생성 모델답게 어려운 수식들이 있었지만 저걸 어떻게 하지?로 시작해서 어떤 아이디어로 이 모델이 학습되었구나를 알아가는 과정을 즐길 수 있었다. 이전에는 논문 형식을 지키면서 정리해온다는 느낌이었는데 이번에는 중요한 거 위주로 이해하기 쉽게 정리해보려고 한다. paper : https://arxiv.org/pdf/2102.12092.pdf DALL-E란? DALL-E 120억 개 파라미터의 autoregressive transformer 모델(GPT-3 기반의 모델)을 2억 5천만 장의 이미지-텍스트 쌍으로 학습 데이터셋은 인터넷에서 수집하여 학습, 결과적으로 MS-COCO 데이..