캡차(CAPTCHA)는 많은 웹사이트에서 다양한 형태로 적용되는 매우 일반적인 크롤링 방지 기술입니다.
Octoprase는 스크래퍼의 효율성을 높이기 위해 현재 hCaptcha, ReCaptcha V2, ImageCaptcha 세 가지 Captcha를 자동으로 처리하는 기술을 개발했습니다.
hCaptcha와 ReCaptcha V2는 비슷한 방법으로 해결할 수 있지만 ImageCaptcha는 좀 더 정교한 방법으로 해결해야 합니다.
본 튜토리얼을 학습하면 각 캡차에 대한 기본적인 이해를 하고 Octoparse로 캡차를 뚫는 방법을 익힐 수 있습니다.
1. hCaptcha & ReCaptcha V2란?
hCaptcha는 보통 다음과 같은 형식으로 나타납니다.
- hCaptcha 로고가 있는 "I am human" 버튼
- 인간에게는 쉽고 기계에게는 어려운 질문(사진):
ReCaptcha V2
대부분의 ReCaptcha V2에는 보통 "I'm not robot"(나는 로봇이 아니다) 버튼이 있지만, 때로는 hCaptcha와 유사한 간단한 질문이 포함될 수도 있습니다.
2. hCaptcha와 Retackcha V2를 해결하는 방법
CAPTCHA 해결 블록 클릭
캡차 유형으로 hCaptcha/ReCaptcha V2 선택
Apply(적용)를 클릭하여 설정을 저장합니다.
참고: hCaptcha 및 ReCaptcha는 실제 데이터가 실행될 때까지 자동으로 해결되지 않습니다. 따라서 작업을 실행할 때 진행하려면 브라우저 모드를 켜고 수동으로 해결해야 합니다.
Octoparse는 Submit 버튼과 함께 제공되는 이 두 가지 유형의 캡차 해결만 지원합니다. Submit 버튼이 없는 경우, Resolve Captcha는 작동하지 않습니다.
3. Image Captcha란?
ImageCaptcha는 문자의 무작위 조합이나 숫자와 문자의 무작위 조합으로 나타납니다. 일부 ImageCaptcha에는 대소문자의 조합으로 나타나기도 합니다.
4. Image Captcha 해결 방법
튜토리얼을 따라 ImageCaptcha를 해결하려면 다음 URL을 사용하면 됩니다. https://democaptcha.com/demo-form-eng/image.html
A. 캡차 입력창과 이미지를 선택
B. 캡차 해결 실패 설정
오류 메시지를 클릭합니다(이 경우 - 양식에서 일부 오류가 탐지됨:유효하지 않은 확인 코드)
팁 패널에서 오류 확인을 클릭합니다.
C. 캡차 해결 성공 설정
이제 이미지 캡차가 해결되었습니다. CAPTCHA 해결 단계가 워크플로우에 추가되며 워크플로우 아래의 설정에서 수정할 수도 있습니다.
참고:
hCaptcha와 ReCaptcha V2는 자동으로 감지할 수 있으므로 XPath를 설정하여 찾을 필요가 없습니다. 이미지 캡차는 XPath가 없으면 안되기 때문에 설정에서 XPath 설정에 주의를 기울여야 합니다.
비용은 1$/1K 캡차입니다. 캡차(CAPTCHA)를 해결하기 위한 한 번의 시도는 캡차 크레딧 하나로 계산됩니다. 따라서 하나의 CAPTCHA를 성공적으로 해결하려면 여러 CAPTCHA 크레딧이 필요할 수 있습니다. 크레딧 추가를 클릭하여 보충할 수 있습니다. 캡차 크레딧은 환불이 불가합니다. 스탠다드/프로패셔널 플랜 사용자들에게 증정한 크레딧으로 캡차 해결을 테스트해볼 수 있습니다.
크레딧이 전부 소진되면 캡차를 해결하지 못합니다. 따라서 작업을 실행하기 전에 계정에 충분한 크레딧이 있는지 확인하십시오.