AI/NLP

[Word Embedding] - Word2Vec, GloVe에 대해 알아보기

cstory-bo 2023. 12. 25. 14:10

Word Embedding

단어들을 특정한 차원으로 이루어진 공간 상의 한 점, 좌표로 변환해주는 기법
text dataset을 학습 데이터로 제공하고
dimension수를 사전에 정하여 알고리즘에 전달하면
결과 값으로 각각의 단어의 최적의 벡터 표현형이 나온다.
비슷한 단어는 가까운 공간에 표현되도록 한다.
이후 다른 task 모델에 데이터를 넣을 때, 성능을 향상시킨다.

Word2Vec

워드 임베딩 중 유명한 알고리즘이다.
같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이라는 가정을 사용한다.
e.g

The cat purrs.
This cat hunts mice.

cat 주변 단어들의 확률분포를 예측한다.

주어진 학습 데이터: "I study math."
-> Tokenizing
-> 단어들을 모아 사전 구축
-> 사전 사이즈 만큼의 one-hot vector로 표현
-> sliding window로 한 단어를 중심으로 앞뒤로 나타난 단어 각각과 입출력 단어쌍 구성(window size: 3이면 [(I,study),(study,I),(study,math)...])
-> 위의 단어쌍을 갖고 예측 task를 수행하는 fully layer
아래는 (study,math)를 가지고 진행된 알고리즘의 이미지이다.
(study[0,1,0], math[0,0,1])

Input, Output layer는 3차원, hidden layer는 2차원이다.
x : study, y : math
원-핫 벡터이기 때문에 결국 파란색으로 칠해진 부분의 연산만 이루어진다.

https://ronxin.github.io/wevi/ 를 이용하여 시각적으로 볼 수 있다.

Word2Vec 결과 아래처럼 벡터 연산으로 표현이 가능하다.
vec[queen] – vec[king] = vec[woman] – vec[man]

Word2Vec을 통해
여러 단어가 있을때 나머지 단어와 가장 상이한 단어를 찾는 task인
Intrusion detection도 해결할 수 있다.

이외의 다양한 task에서도 사용된다.

GloVe

또 다른 워드 임베딩 방법이다.

Word2Vec과의 가장 큰 차이점은 데이터의 입출력 단어쌍에 대해서 하나의 window 내에서 얼마나 동시에 자주 나오는지를 사전에 미리 계산하고
입출력 워드 임베딩 벡터의 내적과 logP가 서로 가까워 지도록 loss function을 만든다는 것이다

: 입력word의 임베딩 벡터
: 출력word의 임베딩 벡터
: 두 단어가 한 윈도우 내에서 얼마나 동시에 자주 나타났는지

장점 :

중복되는 계산을 줄여준다. -> 학습속도 향상
더 적은 데이터에 대해서 잘 학습된다.

'AI > NLP' 카테고리의 다른 글

Beam Search에 대해 알아보기 (0)	2023.12.25
Sequence-to-Sequence \| Attention 에 대해 알아보기 (0)	2023.12.25
Bag-of-Words & NaiveBayes Classifier 에 대해 알아보기 (0)	2023.12.24
[LLM] - GPT-1 논문 요약 (Improving Language Understanding by Generative Pre-training) (1)	2023.12.23
[LLM] - BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 요약 (1)	2023.12.23

현재글[Word Embedding] - Word2Vec, GloVe에 대해 알아보기

CStory

[Word Embedding] - Word2Vec, GloVe에 대해 알아보기

Word Embedding

Word2Vec

GloVe

'AI > NLP' 카테고리의 다른 글

'AI/NLP'의 다른글

티스토리툴바

[Word Embedding] - Word2Vec, GloVe에 대해 알아보기

Word Embedding

Word2Vec

GloVe

'AI > NLP' 카테고리의 다른 글

'AI/NLP'의 다른글

관련글

티스토리툴바