이전 글과 이어집니다 [Java/Selenium] Crawling 시 reCAPTCHA 우회 시도 - 1 현재 Google에서 동작하는 Crawler을 제작 중인데 계속 reCAPTCHA에 막혀 고생.. 혹시 다음에도 Crawler를 만들 수도 있을까 하는 생각에 간략한 해결 방안과 노력의 여정을 남기는.. 기존 방법 reCAPTCHA를 mag1c.tistory.com 상황 Crawler 모니터링 중에, 간헐적으로 NoSuchElementException이 발생했고 빈도수가 점점 증가했다. 이상함을 느낀 나머지 해결을 위해 나섰다(?) 해결 코드 살펴보기 NoSuchElementException은 결국 파싱을 못하는 거니까 cssSelector이나 xpath등의 값을 잘못 입력했나 찾아봤지만 아무리 찾아..
현재 Google에서 동작하는 Crawler을 제작 중인데 계속 reCAPTCHA에 막혀 고생.. 혹시 다음에도 Crawler를 만들 수도 있을까 하는 생각에 간략한 해결 방안과 노력의 여정을 남기는.. 기존 방법 reCAPTCHA를 최대한 발생시키지 않게 하기위한 노력들 첫번째 방법 Crawler제작 시 단순 thread.sleep이나, 파싱하는 페이지 별로 텀을 주고 페이지 내부에서도 클릭과 같은 요청 시에도 텀을 줬다. 결과 : 7일 정도 Crawler가 지속되다가 reCAPTCHA가 발생하였으며, 그 뒤로는 3~4시간에 한번꼴로 발생. 두번째 방법 첫번째 방법은 텀을 ms단위의 절대값으로 계속 입력했었다 (ex) 1200000ms random 알고리즘을 간단하게 만들어서 적용시킴 1. 텀의 범위 ..
에러 메세지 및 원인 에러 메세지를 캡처를 못했다.. No Such Element Exception이 발생하며 해당 에러 뒤의 Crawling Data는 전부 Null이 들어왔다. 파싱한 페이지의 Element를 읽어오지 못하는 모양이다. Crawler 제작 시 Selenium을 사용하여 총 click을 세 번 수행하고, 파싱된 페이지들에서 총 5개의 데이터를 Crawling해야 할 일이 있었는데, 해당 에러가 발생한 뒤 부터는 모든 데이터가 NULL로 입력되었다. 해결 Selenium 공식문서를 참조하여 해결했는데, Implicit wait를 활용하여 대기 시간을 10초를 주었었는데 데이터를 하나 가져올 때 마다 쓰레드를 2초 정도 멈춰야 했었고, 그렇기 때문에 대기 시간을 20초로 늘려주는 코드로 변..
jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety jsoup: Java HTML Parser jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors. jsoup implements the WHATWG H jsoup.org Jsoup은 실제 HTML 작업을 위한 Java 라이브러리이다. HTML5 DOM 메..