AI 36

통계학 기본개념 정리

통계학 기본개념 모수 우선 통계적 모델링 은 적절한 가정 위에서 확률분포를 추정하는 것이다. 유한한 개수의 데이터만 관찰하기 때문에 근사적으로 확률분포를 추정한다. 모수는 확률분포의 특성들이다. 모수적 방법론 : 데이터가 특정 확률분포를 따른다고 선험적으로 가정한 후, 그 분포를 결정하는 모수 추정 방법 비모수 방법론 : 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌는 방법론 ( 기계학습의 대다수 방법론이 여기에 속함 ), 모수를 쓰지 않는 것은 아니다. 확률분포 가정하는 방법 우선 히스토그램 모양 관찰 데이터가 2개 값만 가지는 경우 → 베르누이분포 데이터가 n개의 이산적인 값 → 카테고리분포 데이터가 [0,1]사이 값 → 베타분포 데이터가 0 이상의 값 → ..

AI/ML 2023.12.24

확률론 기본개념 정리

확률론 기본개념 회귀에서는 L2 norm으로 예측오차의 분산을 가장 최소화하는 방향으로 학습한다. 분류에서는 교차 엔트로피로 모델예측의 불확실성을 최소화하는 방향으로 학습한다. 확률변수 종류 데이터 공간 확률분포 D에 따라 확률변수를 이산형과 연속형으로 구분한다. 1) 이산확률변수 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링한다. 확률질량함수를 나타내며 식은 아래와 같다. 2) 연속확률변수 데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링한다. 주의!) 밀도를 확률로 해석하면 안된다. 확률분포 결합분포 P(x,y)는 D를 모델링한다. 주변확률분포 y가 아닌 x에 따른 확률분포로 y에 대한 정보를 주지 않는다. 결합분포 P(x,y)에서 유도 가능하다. 조건부확률분..

AI/ML 2023.12.24

소프트맥스, 활성함수, 역전파에 대해 알아보기

소프트맥스 연산 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산이다. R^p에 있는 벡터를 확률 벡터로 변환해준다. 아래의 파이썬 코드로 구현할 수 있다. def softmax(vec): denumerator = np.exp(vec - np.max(vec, axis=-1, keepdims=True)) numerator = np.sum(denumerator, axis=-1, keepdims=True) val = denumerator / numerator return val ⇒ exp연산이기때문에 오버플로우 발생할 수 있다. 그래서 vec에서 max를 빼준다. max를 빼준다고 하도 결과는 변하지 않는다. 추론 → 원핫벡터(소프트맥스 사용 x) 학습 → 소프트맥스 활성함수 비선형함수로 아래 함수들이 자..

AI/ML 2023.12.24

행렬, 역행렬, 경사하강법에 대해 알아보기

행렬 벡터를 원소로 가지는 2차원 배열 코드(넘파이) 에서는 행벡터 기준으로 한다. 덧셈, 뺄셈, 성분곱 모두 벡터와 같다. 행렬의 곱셈 코드 → @ 연산 (X@Y) XY → X의 열과 y의 행이 같아야 한다. 행렬 내적 np.inner → X의 행의 개수와 Y의 행의 개수가 같아야 한다. XY^T=(∑_k ​x_ik ​* y_jk​) 수학에선 tr(XYT), np.inner는 i번째 행벡터와 j번째 행벡터 사이 내적이 계산됨으로 다르다!! 행렬곱 의미 벡터를 다른 차원의 공간으로 보내준다. X_m​에 A를 곱하여 Z_n​을 계산하는 것은 m차원의 공간에서 A를 이용하여 n차원의 공간으로 보내는 것 여기서 A는 연산자로 이해한다. → 패턴 추출, 데이터 압축 가능 모든 선형변환(linear transfo..

AI/ML 2023.12.24

벡터, L1 L2 norm에 대해 알아보기

벡터 숫자의 배열(리스트) n차원 공간에서의 한 점 원점으로부터 상대적 위치 종류 1) 열벡터 - 세로로 긴 형태 2) 행벡터 - 자로로 긴 형태 스칼라곱 - αX 주어진 벡터 길이 변환 αX=[αx1​​αx2​​⋯αxd​​] 성분곱(Hadamard product) - 같은 크기의 벡터끼리 곱 연산 벡터의 덧셈, 뺄셈 뺄셈은 덧셈의 반대방향 이동 다른 벡터로부터 상대적 위치이동 벡터의 노름(norm) 원점으로부터의 거리 기계학습 목적에 따라 다르게 사용 중요!! - 임의의 차원 d에 대해 성립 (1차원, 2차원.. 아님) 1) L1 norm 변화량의 절대값 합 기하학적 성질 - 마름모꼴 예) Robust 학습, Lasso 회귀 abs_result = np.abs(x) np.sum(abs_result) 2..

AI/ML 2023.12.24

Beautiful Soup (간단한 웹 크롤링)

간단한 웹 크롤링 위의 BeautifulSoup를 import하지 않고 직접 패키지를 다운 받을 수 있다. => !pip install BeautifulSoup url을 가져올 때 영어와의 byte차이로 인해 깨진다. 우리가 잘 아는 페이지 없음의 404와 같은 숫자처럼 성공을 뜻하는 것은 200대이다. class, id 설정 이후 이런 표시 말고 페이지에 입력된 text들만 보고 싶다면 .text를 사용한다. id를 가져올 때는 .id이름 class를 가져올 때는 #class이름 만약 class와 id가 둘다 있다면 한번만 사용되는 id를 사용하는 것이 좋다. 만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라 사람이 직접하는 거라고 속이고 싶을 때는 useragent를 검색 후 복사해주면 된다. 위에서..

AI/ML 2023.12.23

SVM

SVM 이론 표기법 편향 θ_0​과 입력 특성의 가중치 θ_1​에서 θ_n​까지 전체 모델 파라미터를 하나의 벡터 θ에 넣는다. 편향에 해당하는 입력값 x_0​=1 추가 편향 = b 특성의 가중치 벡터 = w 결정함수와 예측 결정 경계는 결정 함수의 값이 0인 점들로 이루어져 있다. → 두 평면이 교차되는 직선 선형 SVM 분류기를 훈련한다는 것은 가능한 한 마진을 크게하는 w와 b를 찾는 것 목적 함수 결정 함수의 기울기는 가중치 벡터의 norm과 같다. 기울기를 2로 나누면 결정 함수의 값이 되는 점들이 결정 경계로 부터 2배만큼 더 멀어진다. → 마진 2배 가중치 벡터 w가 작을수록 마진은 커진다. 하드 마진 선형 svm 분류기의 목적 함수 ∥w∥ 를 최소화하는 것 보다 (​∥w∥^2)/2 최소화 ..

AI/ML 2023.12.23

DALL-E 논문 요약

DALL-E Intro. 이번 DALL-E 논문은 MultiModal task에 관심이 많아져서 읽고 싶었던 논문이다. 이미지 생성 모델답게 어려운 수식들이 있었지만 저걸 어떻게 하지?로 시작해서 어떤 아이디어로 이 모델이 학습되었구나를 알아가는 과정을 즐길 수 있었다. 이전에는 논문 형식을 지키면서 정리해온다는 느낌이었는데 이번에는 중요한 거 위주로 이해하기 쉽게 정리해보려고 한다. paper : https://arxiv.org/pdf/2102.12092.pdf DALL-E란? DALL-E 120억 개 파라미터의 autoregressive transformer 모델(GPT-3 기반의 모델)을 2억 5천만 장의 이미지-텍스트 쌍으로 학습 데이터셋은 인터넷에서 수집하여 학습, 결과적으로 MS-COCO 데이..

AI/MultiModal 2023.12.23

[LLM] - GPT-1 논문 요약 (Improving Language Understanding by Generative Pre-training)

GPT-1 최근 NLP 블로그들이나 커뮤니티에서 GPT-3에 대한 많은 언급들을 보게되었다. 우리 팀원들과 무슨 논문을 읽을까에 대한 얘기가 나왔을 때 강력 추천해서 읽게 되었다ㅎㅎㅎ Author: Alec Radford, OpenAI Reading date: March 20, 2022 Summary: GPT-1 Improving Language Understanding by Generative Pre-training Abstract unlabeled 텍스트 corpus들은 많은 반면에 특정 task들에 맞는 labelded된 데이터는 희귀하다. unlabeled 텍스트로 language model의 generative pre-training을 하고 각 task별로 다른 fine-tuning을 하면 많은..

AI/NLP 2023.12.23

[LLM] - BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 요약

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Author: Google AI Language, Jacob Devlin Link: https://arxiv.org/pdf/1810.04805.pdf Reading date: March 13, 2022 Type: Paper Abstract BERT - Bidirectional Encoder Representations from Transformers 목적 : 레이블링 되지 않은 텍스트를 모든 레이어에서 오른쪽, 왼쪽 문맥 모두 같이 고려하면서 deep bidirectional representations을 pretrain 하는 것이다. 이렇게 pretrained ..

AI/NLP 2023.12.23