간단한 웹 크롤링
위의 BeautifulSoup를
import하지 않고
직접 패키지를 다운 받을 수 있다.
=> !pip install BeautifulSoup
url을 가져올 때 영어와의 byte차이로 인해 깨진다.
우리가 잘 아는
페이지 없음의 404와 같은 숫자처럼
성공을 뜻하는 것은 200대이다.
class, id 설정
이후 <class~~>이런 표시 말고
페이지에 입력된 text들만 보고 싶다면
.text를 사용한다.
- id를 가져올 때는 .id이름
- class를 가져올 때는 #class이름
만약 class와 id가 둘다 있다면
한번만 사용되는 id를 사용하는 것이 좋다.
만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라
사람이 직접하는 거라고 속이고 싶을 때는
useragent를 검색 후 복사해주면 된다.
위에서는 header에 넣어줬다.
'AI > ML' 카테고리의 다른 글
소프트맥스, 활성함수, 역전파에 대해 알아보기 (0) | 2023.12.24 |
---|---|
행렬, 역행렬, 경사하강법에 대해 알아보기 (0) | 2023.12.24 |
벡터, L1 L2 norm에 대해 알아보기 (0) | 2023.12.24 |
SVM (1) | 2023.12.23 |
분류 (Classification) / 이진분류, 성능측정, 다중분류 (1) | 2023.12.20 |