NLP 6

논문 속 RE Task 관련 데이터셋 이해하기 | TAC Relation Extraction Dataset | KLUE

RE 데이터셋을 구축하기 위해 RE 관련 논문 2개를 데이터셋 구축 위주로 보았다. TAC Relation Extraction Dataset Position-aware Attention Supervised Data Improve Slot filling 논문 안에 있는 내용이다. Slot filling 과제는 Subject 엔티티와 Object 엔티티의 relation tag를 채우는 것을 말한다. 이 논문의 경우는 새로운 데이터셋인 TACRED를 생성하였다. 이전에 TAC KBP로 Knowledge base를 확장하기 위한 데이터셋이나 SemEval-2010등이 있었는데 양이 적거나 task에 적합하지 않아서 새로 만들었다고 한다. TAC KBP 챌린지를 통해서 데이터를 가져왔으며 2009-2015년까지..

AI/NLP 2023.12.25

GPT-1 간단하게 알아보기

GPT-1 Open AI에서 개발한 모델로 다양한 자연어처리 task를 처리할 수 있는 통합된 모델이 중요한 특징이다. 모델 구조와 학습 방식 우선 Text를 position 임베딩을 더한다. self-attention 블럭을 12개 쌓는다. Text Prediction : 첫 단어부터 다음 단어까지 순차적으로 예측하는 모델이다. 동시에 모델의 큰 변형없이 classification도 수행하기 위해 Text Classifier에 Extract 벡터를 최종 output layer에 전달하도록 한다. Classification이 외에 Entailment, Similarity, Multiple Choice와 같이 다른 task에도 사용가능하다. 다른 task의 transfer learning에 활용하고 싶다면..

AI/NLP 2023.12.25

BLEU Score에 대해 알아보기

BLEU Score NLP 논문을 읽다보면 정말 자주 나오는 것 같다. 우선 precision과 recall을 먼저 알고 넘어가야한다. Precision & Recall 이미지 분류 모델처럼 cross-entropy loss와 같이 일반적인 loss 방법들을 사용하면 NLP에서 맞지 않을 수 있다. 가령 문장 생성 task에서 한 문장이나 단어를 빼먹거나 문장을 더 많이 생성한다면 현재 상황을 제대로 반영하지 못한다. 예를 들어 I love you -> Oh I love you로 예측했다고 하면, 결론적으로 이 모델은 하나도 맞추지 못한 것이다. 하지만 이 경우는 Oh를 제외하기만 하면 모두 맞는 모델인데 기존 평가방법들은 이러한 정보를 반영하지 못한다. 그래서 precision과 recall 개념을 이..

AI/NLP 2023.12.25

Beam Search에 대해 알아보기

Beam Search Greedy decoding 매 타임 스텝마다 높은 확률을 가지는 단어 하나만을 선택해서 진행한다. 이를 Greedy decoding이라고 한다. 알고리즘 공부했을 때 배운, 그리디 알고리즘처럼 당시 상황에서의 최선의 선택을 하기 때문에 앞에 Greedy가 붙은 것 같다. 이 단점 중 하나는 뒤로 못 돌아가는 것이다. Exhaustive Search 그래서 joint probability를 수식으로 사용해서 해결한다. 이렇게 해서 P(y1​∣x)에서 작은 값을 가졌더라고 이후 값들에서 큰 값을 얻어 바뀔 수 있다. time step t까지의 모든 가능성을 따진다. -> 너무 큰 시간 복잡도 Beam Search 하나의 가능성만 보는 Greedy decoding과 모든 가능성을 보는 ..

AI/NLP 2023.12.25

Sequence-to-Sequence | Attention 에 대해 알아보기

Attention은 transformer 논문을 보면서 들었다. 이번에 포스팅으로 정리하면서 왜 attention이라고 부르는 지 궁금했는다. RNN기반의 모델에 비해 각 단어들의 hidden vector들과 연산을 통해 무엇을 선별적으로 선택할 지를 말해주는 vector를 만들어서 무엇을 attention할 지를 말해주기 때문이라고 생각했다. Seq2Seq Sequence to Sequence 모델은 NLP 중 many-to-many 타입에 해당되는 모델이다 인코더와 디코더로 구성되어 인코더는 input을 받고 디코더는 output을 낸다. 서로 share하지 않는다. 세부구조를 보면 여기서는 lstm을 선택한 것을 볼 수 있다. 인코더 마지막 hidden state vector는 이전 타입 스텝의 h..

AI/NLP 2023.12.25

[Word Embedding] - Word2Vec, GloVe에 대해 알아보기

Word Embedding 단어들을 특정한 차원으로 이루어진 공간 상의 한 점, 좌표로 변환해주는 기법 text dataset을 학습 데이터로 제공하고 dimension수를 사전에 정하여 알고리즘에 전달하면 결과 값으로 각각의 단어의 최적의 벡터 표현형이 나온다. 비슷한 단어는 가까운 공간에 표현되도록 한다. 이후 다른 task 모델에 데이터를 넣을 때, 성능을 향상시킨다. Word2Vec 워드 임베딩 중 유명한 알고리즘이다. 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이라는 가정을 사용한다. e.g The cat purrs. This cat hunts mice. cat 주변 단어들의 확률분포를 예측한다. 주어진 학습 데이터: "I study math." -> Tokenizing -> 단어..

AI/NLP 2023.12.25