전체 글 102

DBMS 전반적 이해 & Oracle 설치, 계정 생성

DBMS 전반적인 이해 Data 와 Information의 차이 DB, DBMS? 데이터모델링의 이해 // Oracle사용 DBMS란 Data Base Management System의 줄임말이다. Data : 자료 // 내가 알고있는 자료 ( 기록된 문서) Info : 정보 // 내가 필요한 자료 자료 -> 정보 : 가공한다. ex) 20대 성인들이 자주 마시는 커피를 조사해서 신메뉴를 개발하고자 한다. 이때, 10대 판매된 커피내역 20대 판매된 커피내역 30대 판매된 커피내역 40대 판매된 커피내역 ===>자료 내가 필요한 20대 판매된 커피내역이 정보가 된다. 데이터가 잘 정리되어 있어야지 가공해서 정보를 만들 수 있다. 데이터를 어떻게 잘 정리(구성)할 것인가? => 데이터모델링 데이터를 어떻게..

Data Engineering 2023.12.24

Beautiful Soup (간단한 웹 크롤링)

간단한 웹 크롤링 위의 BeautifulSoup를 import하지 않고 직접 패키지를 다운 받을 수 있다. => !pip install BeautifulSoup url을 가져올 때 영어와의 byte차이로 인해 깨진다. 우리가 잘 아는 페이지 없음의 404와 같은 숫자처럼 성공을 뜻하는 것은 200대이다. class, id 설정 이후 이런 표시 말고 페이지에 입력된 text들만 보고 싶다면 .text를 사용한다. id를 가져올 때는 .id이름 class를 가져올 때는 #class이름 만약 class와 id가 둘다 있다면 한번만 사용되는 id를 사용하는 것이 좋다. 만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라 사람이 직접하는 거라고 속이고 싶을 때는 useragent를 검색 후 복사해주면 된다. 위에서..

AI/ML 2023.12.23

SVM

SVM 이론 표기법 편향 θ_0​과 입력 특성의 가중치 θ_1​에서 θ_n​까지 전체 모델 파라미터를 하나의 벡터 θ에 넣는다. 편향에 해당하는 입력값 x_0​=1 추가 편향 = b 특성의 가중치 벡터 = w 결정함수와 예측 결정 경계는 결정 함수의 값이 0인 점들로 이루어져 있다. → 두 평면이 교차되는 직선 선형 SVM 분류기를 훈련한다는 것은 가능한 한 마진을 크게하는 w와 b를 찾는 것 목적 함수 결정 함수의 기울기는 가중치 벡터의 norm과 같다. 기울기를 2로 나누면 결정 함수의 값이 되는 점들이 결정 경계로 부터 2배만큼 더 멀어진다. → 마진 2배 가중치 벡터 w가 작을수록 마진은 커진다. 하드 마진 선형 svm 분류기의 목적 함수 ∥w∥ 를 최소화하는 것 보다 (​∥w∥^2)/2 최소화 ..

AI/ML 2023.12.23

DALL-E 논문 요약

DALL-E Intro. 이번 DALL-E 논문은 MultiModal task에 관심이 많아져서 읽고 싶었던 논문이다. 이미지 생성 모델답게 어려운 수식들이 있었지만 저걸 어떻게 하지?로 시작해서 어떤 아이디어로 이 모델이 학습되었구나를 알아가는 과정을 즐길 수 있었다. 이전에는 논문 형식을 지키면서 정리해온다는 느낌이었는데 이번에는 중요한 거 위주로 이해하기 쉽게 정리해보려고 한다. paper : https://arxiv.org/pdf/2102.12092.pdf DALL-E란? DALL-E 120억 개 파라미터의 autoregressive transformer 모델(GPT-3 기반의 모델)을 2억 5천만 장의 이미지-텍스트 쌍으로 학습 데이터셋은 인터넷에서 수집하여 학습, 결과적으로 MS-COCO 데이..

AI/MultiModal 2023.12.23

[LLM] - GPT-1 논문 요약 (Improving Language Understanding by Generative Pre-training)

GPT-1 최근 NLP 블로그들이나 커뮤니티에서 GPT-3에 대한 많은 언급들을 보게되었다. 우리 팀원들과 무슨 논문을 읽을까에 대한 얘기가 나왔을 때 강력 추천해서 읽게 되었다ㅎㅎㅎ Author: Alec Radford, OpenAI Reading date: March 20, 2022 Summary: GPT-1 Improving Language Understanding by Generative Pre-training Abstract unlabeled 텍스트 corpus들은 많은 반면에 특정 task들에 맞는 labelded된 데이터는 희귀하다. unlabeled 텍스트로 language model의 generative pre-training을 하고 각 task별로 다른 fine-tuning을 하면 많은..

AI/NLP 2023.12.23

[LLM] - BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 요약

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Author: Google AI Language, Jacob Devlin Link: https://arxiv.org/pdf/1810.04805.pdf Reading date: March 13, 2022 Type: Paper Abstract BERT - Bidirectional Encoder Representations from Transformers 목적 : 레이블링 되지 않은 텍스트를 모든 레이어에서 오른쪽, 왼쪽 문맥 모두 같이 고려하면서 deep bidirectional representations을 pretrain 하는 것이다. 이렇게 pretrained ..

AI/NLP 2023.12.23