캡차(CAPTCHA)는 많은 웹사이트에서 다양한 형태로 적용되는 매우 흔한 스크래핑 방지 기술입니다.
Octoprase는 스크래핑 효율성을 높이기 위해 현재 hCaptcha, ImageCaptcha, ReCaptcha V2, ReCaptcha V3 및 Cloudflare 다섯 가지의 Captcha를 자동으로 처리하는 기술을 개발했습니다.
hCaptcha와 ReCaptcha V2 & V3는 유사한 방법으로 해결할 수 있지만 ImageCaptcha를 처리하는 설정은 조금 더 복잡합니다.
본 튜토리얼에 따라서 각 캡차에 대한 기본적인 이해를 얻고 Octoparse로 캡차를 뚫는 방법을 익힐 수 있습니다.
1. hCaptcha & ReCaptcha V2 & V3란?
hCaptcha는 보통 다음과 같은 형식으로 나타납니다.
- hCaptcha 로고가 있는 "I am human" 버튼
- 인간에게는 쉽고 기계에게는 어려운 질문(사진):
ReCaptcha V2
대부분의 ReCaptcha V2에는 보통 "I'm not robot"(나는 로봇이 아니다) 라는 버튼이 있지만, 때로는 hCaptcha와 유사하게 간단한 질문이 포함될 수도 있습니다.
ReCaptcha V3는 ReCaptcha V2와 비슷하게 보이지만 체크박스가 없습니다.
2. hCaptcha와 Retackcha V2 & V3 해결 방법
CAPTCHA 해결 클릭
접하는 캡차 유형에 따라 CAPTCHA 타입 선택
참고:
만약 마주친 reCaptcha V2 또는 hCaptcha에 제출 버튼이 포함되어 있다면(아래 스크린샷 참고), reCaptcha V2 Checkbox 또는 hCaptcha Checkbox를 선택하세요.
그렇지 않을 경우 reCaptcha V2 또는 hCaptcha를 선택하면 됩니다.
적용을 클릭하여 설정 저장
참고:
제출 버튼이 있는 ReCaptcha 또는 hCaptcha의 경우, 한 가지 추가 작업을 설정해야 합니다.
a. 대상 페이지로 이동할 수 있는 제출 버튼 클릭
(제출 버튼, 로그인 버튼, 확인 버튼 등일 수 있음)
b. 요소 클릭 / 버튼 클릭 선택
hCaptcha와 ReCaptcha는 실제 데이터 실행 시에만 자동으로 해결됩니다. 따라서 작업을 생성할 때 브라우저 모드를 켜고 수동으로 해결해야 진행할 수 있습니다.
3. Image Captcha란?
ImageCaptcha는 인간을 확인하기 위한 원래 방식입니다.
문제에는 알려진 단어나 구문, 또는 숫자와 문자로 이루어진 무작위 조합이 사용될 수 있습니다. 일부 ImageCaptcha는 대소문자를 구분하는 변형도 포함됩니다.
4. Image Captcha 해결 방법
튜토리얼을 따라 ImageCaptcha를 해결하려면 다음 URL을 사용하세요.
A. 캡차 입력창과 이미지를 선택
B. 캡차 해결 실패 설정
이제 Octoparse가 CAPTCHA를 해결하도록 학습시키기 위해 해결 실패를 설정해야 합니다.
오류 메시지 클릭
(이 경우에는 화면에서 일부 오류가 탐지됩니다: 유효하지 않은 인증코드)
팁 패널에서 오류 확인 클릭
C. 캡차 해결 성공 설정
이제 Image Captcha가 해결되었습니다. CAPTCHA 해결 단계가 워크플로우에 추가되며 워크플로우 내에서 설정을 수정할 수도 있습니다.
참고:
hCaptcha와 ReCaptcha V2/ ReCaptcha V3는 자동으로 감지되므로 이들을 찾기 위한 XPath 설정이 필요하지 않습니다. 반면 Image CAPTCHA는 자동 감지가 불가능하므로 설정 시 XPath를 반드시 확인해야 합니다.
요금:
비용은 $1당 1,000개의 CAPTCHA 기준으로 계산됩니다.
CAPTCHA를 한 번 해결하려는 시도는 1개의 CAPTCHA 크레딧으로 계산됩니다. 따라서 하나의 CAPTCHA를 성공적으로 해결하는 데 여러 크레딧이 소모될 수 있습니다.
크레딧 충전 버튼을 클릭하여 크레딧을 구매할 수 있습니다.
CAPTCHA 크레딧은 환불되지 않습니다.
스탠다드 또는 프로패셔널 플랜 유저에게는 테스트용으로 일정량의 크레딧이 제공됩니다. 결제 전 해당 크레딧으로 테스트해볼 수 있습니다.
크레딧이 모두 소진되면, 작업에서 CAPTCHA를 해결하지 못해 작업이 실패하게 됩니다. 따라서 작업 실행 전, 계정에 충분한 크레딧이 있는지 반드시 확인하세요.
버전 8.7.4에서는 이벤트 로그에서 리소스 로그 강조 표시 기능이 추가되었습니다. 이 기능을 통해 CAPTCHA가 성공적으로 해결되었는지 더 쉽게 확인하고, 크레딧 사용 내역을 추적할 수 있습니다. 크레딧은 CAPTCHA 해결 로그에 '완료'가 표시될 때에만 차감됩니다.
5. Cloudflare CAPTCHA란? 그리고 해결 방법은?
Cloudflare 인증은 웹사이트가 정상적인 사용자와 자동화된 봇을 구별하기 위해 사용하는 보안 절차입니다.
Octoparse를 사용하면 Cloudflare CAPTCHA를 자동으로 해결할 수 있습니다. 자세한 자동 해결 방법은 관련 문서를 참고하세요.