전체 글 102

EFK(ELK) 구축 해보기!! (서버 로그 수집) - 1. 로그와 로그 수집 아키텍처

로그 우선 로그란, 컴퓨터가 운행 도중에 남기는 유의미한 기록을 말한다. 로그에는 1) Timestamp 2) 로그 레벨 3) 로그 내용 4) 발생 위치 등이 일반적으로 들어간다. 로그는 파일을 남기지만 수집이 따로 필요한 이유는 1. 시스템에 장애가 나면 로그파일에 다시 접근할 수 없을 수 있다. 2. 관리해야하는 프로그램이나 인스턴스 수가 많아지면 개별적으로 확인하기 어렵다. 3. 필터링이나 검색 등을 이용해서 로그를 더욱 활용하여 시스템 신뢰도를 높일 수 있다. 로그 수집 아키텍처 환경에 따라서 다양하게 로그를 수집할 수 있다. 1. 파일을 이용한 수집 App이 만든 Log File을 별도의 Log Collector가 수집하고 전송한다. 장점으로는 1. 디자인 패턴에서 중요한 '관심사의 분리'가 이..

JDBC, ODBC, ORM, JPA에 대해 알아보기

JDBC JDBC : Java Database Connectivity 만약 표준 인터페이스가 없다면 어떨까? 아마 각 데이터베이스마다 어떤 함수를 써야하는 지 찾아보며 수정해야할 것이다. 그래서사용자가 자바에서 제공하는 표준인터페이스에서 정의된 클래스와 함수를 데이터베이스의 종류와 상관없이 사용하고 사용하고자 하는 DB에 따라 라이브러리만 바꾸면 JDBC에서 해당 DB에 따른 함수를 요청해준다. JDBC는 기본적으로를 상정하고 만들었으며 NoSQL이나 빅데이터 계열은 JDBC를 따르지 않고 독자적인 메소드를 만드는 편이다. ODBC ODBC : Open Database Connectivity JDBC가 인기를 얻자 이제는 Java말고 프로그래밍 언어나 운영체제와 상관없이 독립적으로 DBMS를 사용하고자 ..

RDBMS, Transaction에 대해 간단히 알아보기

RDBMS란 Relational Database : Relational Model을 기반으로한 Database이다. RDBMS는 Relational Database Management System을 말한다. 특징 테이블 형태로 표현되며 row와 column을 가진다. 테이블 안에는 각 레코드(row)를 구분할 수 있는 PK(Primary key)를 가진다. 이 PK로 다른 테이블과 연결될 수 있으며, 이를 FK(Foreign key)라고 한다. 하나의 작업단위를 Transaction(트랜잭션)이라고 한다. Transaction 데이터의 CRUD(create, read, update, delete)를 문제없이 처리하기 위해 ACID 특성을 지원한다. Atomicity(원자성) - 모두 처리되거나 아니거나 ..

Data Engineering 2023.12.26

논문 속 RE Task 관련 데이터셋 이해하기 | TAC Relation Extraction Dataset | KLUE

RE 데이터셋을 구축하기 위해 RE 관련 논문 2개를 데이터셋 구축 위주로 보았다. TAC Relation Extraction Dataset Position-aware Attention Supervised Data Improve Slot filling 논문 안에 있는 내용이다. Slot filling 과제는 Subject 엔티티와 Object 엔티티의 relation tag를 채우는 것을 말한다. 이 논문의 경우는 새로운 데이터셋인 TACRED를 생성하였다. 이전에 TAC KBP로 Knowledge base를 확장하기 위한 데이터셋이나 SemEval-2010등이 있었는데 양이 적거나 task에 적합하지 않아서 새로 만들었다고 한다. TAC KBP 챌린지를 통해서 데이터를 가져왔으며 2009-2015년까지..

AI/NLP 2023.12.25

GPT-1 간단하게 알아보기

GPT-1 Open AI에서 개발한 모델로 다양한 자연어처리 task를 처리할 수 있는 통합된 모델이 중요한 특징이다. 모델 구조와 학습 방식 우선 Text를 position 임베딩을 더한다. self-attention 블럭을 12개 쌓는다. Text Prediction : 첫 단어부터 다음 단어까지 순차적으로 예측하는 모델이다. 동시에 모델의 큰 변형없이 classification도 수행하기 위해 Text Classifier에 Extract 벡터를 최종 output layer에 전달하도록 한다. Classification이 외에 Entailment, Similarity, Multiple Choice와 같이 다른 task에도 사용가능하다. 다른 task의 transfer learning에 활용하고 싶다면..

AI/NLP 2023.12.25

BLEU Score에 대해 알아보기

BLEU Score NLP 논문을 읽다보면 정말 자주 나오는 것 같다. 우선 precision과 recall을 먼저 알고 넘어가야한다. Precision & Recall 이미지 분류 모델처럼 cross-entropy loss와 같이 일반적인 loss 방법들을 사용하면 NLP에서 맞지 않을 수 있다. 가령 문장 생성 task에서 한 문장이나 단어를 빼먹거나 문장을 더 많이 생성한다면 현재 상황을 제대로 반영하지 못한다. 예를 들어 I love you -> Oh I love you로 예측했다고 하면, 결론적으로 이 모델은 하나도 맞추지 못한 것이다. 하지만 이 경우는 Oh를 제외하기만 하면 모두 맞는 모델인데 기존 평가방법들은 이러한 정보를 반영하지 못한다. 그래서 precision과 recall 개념을 이..

AI/NLP 2023.12.25