text dataset을 학습 데이터로 제공하고 dimension수를 사전에 정하여 알고리즘에 전달하면 결과 값으로 각각의 단어의 최적의 벡터 표현형이 나온다.
비슷한 단어는 가까운 공간에 표현되도록 한다.
이후 다른 task 모델에 데이터를 넣을 때, 성능을 향상시킨다.
Word2Vec
워드 임베딩 중 유명한 알고리즘이다. 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이라는 가정을 사용한다. e.g
The cat purrs.
This cat hunts mice.
cat 주변 단어들의 확률분포를 예측한다.
주어진 학습 데이터: "I study math." -> Tokenizing -> 단어들을 모아 사전 구축 -> 사전 사이즈 만큼의 one-hot vector로 표현 -> sliding window로 한 단어를 중심으로 앞뒤로 나타난 단어 각각과 입출력 단어쌍 구성(window size: 3이면 [(I,study),(study,I),(study,math)...]) -> 위의 단어쌍을 갖고 예측 task를 수행하는 fully layer 아래는 (study,math)를 가지고 진행된 알고리즘의 이미지이다. (study[0,1,0], math[0,0,1])