서론 아래의 포스팅에서, 간단하게 WebDriverManager Library를 사용하여 ChromeDriver.exe를 수동으로 설치하고 버전을 호환시킬 필요가 없는 방법을 알아보았다. [Java/Selenium] WebDriverManager 사용하기 ① - Chrome Verison (org.openqa.selenium.remote.ProtocolHandShake createSession) 에러 메세지 Starting ChromeDriver 113.0.5672.63 (0e1a4471d5ae5bf128b1bd8f4d627c8cbd55f70c-refs/branch-heads/5672@{#912}) on port 42808 Only local connections are allowed. Please se..
에러 메세지 Starting ChromeDriver 113.0.5672.63 (0e1a4471d5ae5bf128b1bd8f4d627c8cbd55f70c-refs/branch-heads/5672@{#912}) on port 42808 Only local connections are allowed. Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe. ChromeDriver was started successfully. [1686528899.643][WARNING]: This version of ChromeDriver has not been tested wi..
현재 Google에서 동작하는 Crawler을 제작 중인데 계속 reCAPTCHA에 막혀 고생.. 혹시 다음에도 Crawler를 만들 수도 있을까 하는 생각에 간략한 해결 방안과 노력의 여정을 남기는.. 기존 방법 reCAPTCHA를 최대한 발생시키지 않게 하기위한 노력들 첫번째 방법 Crawler제작 시 단순 thread.sleep이나, 파싱하는 페이지 별로 텀을 주고 페이지 내부에서도 클릭과 같은 요청 시에도 텀을 줬다. 결과 : 7일 정도 Crawler가 지속되다가 reCAPTCHA가 발생하였으며, 그 뒤로는 3~4시간에 한번꼴로 발생. 두번째 방법 첫번째 방법은 텀을 ms단위의 절대값으로 계속 입력했었다 (ex) 1200000ms random 알고리즘을 간단하게 만들어서 적용시킴 1. 텀의 범위 ..
에러 메세지 및 원인 에러 메세지를 캡처를 못했다.. No Such Element Exception이 발생하며 해당 에러 뒤의 Crawling Data는 전부 Null이 들어왔다. 파싱한 페이지의 Element를 읽어오지 못하는 모양이다. Crawler 제작 시 Selenium을 사용하여 총 click을 세 번 수행하고, 파싱된 페이지들에서 총 5개의 데이터를 Crawling해야 할 일이 있었는데, 해당 에러가 발생한 뒤 부터는 모든 데이터가 NULL로 입력되었다. 해결 Selenium 공식문서를 참조하여 해결했는데, Implicit wait를 활용하여 대기 시간을 10초를 주었었는데 데이터를 하나 가져올 때 마다 쓰레드를 2초 정도 멈춰야 했었고, 그렇기 때문에 대기 시간을 20초로 늘려주는 코드로 변..
에러 메세지 org.openqa.selenium.WebDriverException: java.net.ConnectionException: Failed to connect to localhost/0:0:0:0:0:0:0:1:port 원인 정확한 원인은 모르겠어서 구글링을 아무리 이리저리 해봤으나 해결하지 못했고 위의 사진처럼 저런식으로 IPv4를 받아와서 해결했다는 사람도 있다고 하길래 해봤지만 나는 실패했다. 그거 외엔 아무리 구글링을 해봐도 시도해볼만한 거리가 없어서 고민하던 중에 공식문서를 보게 됐고 The Selenium Browser Automation Project Selenium automates browsers. That's it! www.selenium.dev selenium 사용에 있어 ..
jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety jsoup: Java HTML Parser jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors. jsoup implements the WHATWG H jsoup.org Jsoup은 실제 HTML 작업을 위한 Java 라이브러리이다. HTML5 DOM 메..