AI/ML

Beautiful Soup (간단한 웹 크롤링)

cstory-bo 2023. 12. 23. 17:12

간단한 웹 크롤링

위의 BeautifulSoup를

import하지 않고

직접 패키지를 다운 받을 수 있다.

=> !pip install BeautifulSoup

url을 가져올 때 영어와의 byte차이로 인해 깨진다.

우리가 잘 아는

페이지 없음의 404와 같은 숫자처럼

성공을 뜻하는 것은 200대이다.

이후 <class~~>이런 표시 말고
페이지에 입력된 text들만 보고 싶다면
.text를 사용한다.

만약 class와 id가 둘다 있다면

한번만 사용되는 id를 사용하는 것이 좋다.

만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라
사람이 직접하는 거라고 속이고 싶을 때는
useragent를 검색 후 복사해주면 된다.
위에서는 header에 넣어줬다.

소프트맥스, 활성함수, 역전파에 대해 알아보기 (0)	2023.12.24
행렬, 역행렬, 경사하강법에 대해 알아보기 (0)	2023.12.24
벡터, L1 L2 norm에 대해 알아보기 (0)	2023.12.24
SVM (1)	2023.12.23
분류 (Classification) / 이진분류, 성능측정, 다중분류 (1)	2023.12.20