AI/ML 13

Beautiful Soup (간단한 웹 크롤링)

간단한 웹 크롤링 위의 BeautifulSoup를 import하지 않고 직접 패키지를 다운 받을 수 있다. => !pip install BeautifulSoup url을 가져올 때 영어와의 byte차이로 인해 깨진다. 우리가 잘 아는 페이지 없음의 404와 같은 숫자처럼 성공을 뜻하는 것은 200대이다. class, id 설정 이후 이런 표시 말고 페이지에 입력된 text들만 보고 싶다면 .text를 사용한다. id를 가져올 때는 .id이름 class를 가져올 때는 #class이름 만약 class와 id가 둘다 있다면 한번만 사용되는 id를 사용하는 것이 좋다. 만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라 사람이 직접하는 거라고 속이고 싶을 때는 useragent를 검색 후 복사해주면 된다. 위에서..

AI/ML 2023.12.23

SVM

SVM 이론 표기법 편향 θ_0​과 입력 특성의 가중치 θ_1​에서 θ_n​까지 전체 모델 파라미터를 하나의 벡터 θ에 넣는다. 편향에 해당하는 입력값 x_0​=1 추가 편향 = b 특성의 가중치 벡터 = w 결정함수와 예측 결정 경계는 결정 함수의 값이 0인 점들로 이루어져 있다. → 두 평면이 교차되는 직선 선형 SVM 분류기를 훈련한다는 것은 가능한 한 마진을 크게하는 w와 b를 찾는 것 목적 함수 결정 함수의 기울기는 가중치 벡터의 norm과 같다. 기울기를 2로 나누면 결정 함수의 값이 되는 점들이 결정 경계로 부터 2배만큼 더 멀어진다. → 마진 2배 가중치 벡터 w가 작을수록 마진은 커진다. 하드 마진 선형 svm 분류기의 목적 함수 ∥w∥ 를 최소화하는 것 보다 (​∥w∥^2)/2 최소화 ..

AI/ML 2023.12.23

분류 (Classification) / 이진분류, 성능측정, 다중분류

분류 Classification 이번에는 분류와 관련된 내용들을 정리하였습니다. MNIST 분류 데이터셋으로 가장 유명한 MNIST 데이터셋을 사용하였습니다. import numpy as np from sklearn.datasets import fetch\_openml mnist = fetch\_openml('mnist\_784',version=1) X, y = mnist\["data"\], mnist\["target"\] 위의 코드를 이용하여 사용할 수 있습니다. 이진 분류 문제를 예 / 아니오 로만 구별하는 분류기가 이진 분류기입니다. SGD(확률적 경사 하강법)Classifier를 사용해보았습니다. SGD분류기는 무작위성을 가지고 있어 Stochastic이 붙었습니다. 성능 측정 교차검증 가장 먼저..

AI/ML 2023.12.20