You are viewing a single comment's thread from:

RE: Mediteam.us 개발 - Python & Selenium을 이용한 구글검색 크롤링

in #kr7 years ago (edited)

PhantomJs 를 추천합니다. headless 브라우저로 chrome처럼 html코드들을 모두 랜더링 하지 않아서 그나마 빠릅니다.^^

Selenium를 통해서 크롤링하면서 맞닥들였던 문제가 원하는 객체들이 브라우저에 띄워졌는지에 대해 확인하기가 어렵다는것입니다. 그나마 최선은 Fluent Wait로 Explicit waiting 하면서 주기적으로 크롤링을 원하는 객체가 호출 가능한 상태에 이르는지 확인하는 것입니다.

Selenium을 써야할때가 하나 더 있는데, Cloudflare와 같은 DDOS방지 서비스가 들어가있는경우 Selenium을 써서 javascript를 실행해줘야 원래 url로 접속하게 해야 할때 입니다. 인증만하고..
selenium web-driver를 통해서 받은 cookies들을 python requests로 넘겨서 더 빠르게 크롤링이 가능합니다.

Sort:  

아 ㅎ스팀을 시작하셨군요! 포스팅 올려주시면 열심히 배우겠습니다 ㅋ 크롬은 그냥 골랐던 건데, 시작을 잘못했군요 ㅠㅠ

Coin Marketplace

STEEM 0.17
TRX 0.15
JST 0.029
BTC 61155.34
ETH 2383.47
USDT 1.00
SBD 2.56