간단한 웹 크롤링
위의 BeautifulSoup를
import하지 않고
직접 패키지를 다운 받을 수 있다.
=> !pip install BeautifulSoup
url을 가져올 때 영어와의 byte차이로 인해 깨진다.
우리가 잘 아는
페이지 없음의 404와 같은 숫자처럼
성공을 뜻하는 것은 200대이다.
class, id 설정
이후 <class~~>이런 표시 말고
페이지에 입력된 text들만 보고 싶다면
.text를 사용한다.
- id를 가져올 때는 .id이름
- class를 가져올 때는 #class이름
만약 class와 id가 둘다 있다면
한번만 사용되는 id를 사용하는 것이 좋다.
만약 요청하는 사이트에 컴퓨터가 하는 것이 아니라
사람이 직접하는 거라고 속이고 싶을 때는
useragent를 검색 후 복사해주면 된다.
위에서는 header에 넣어줬다.