Passer au contenu principal

Résoudre le Captcha

Mis à jour il y a plus de 9 mois

CAPTCHA est une technique anti-scraping très courante appliquée par de nombreux sites web sous forme différente.

Pour vous aider à améliorer l'efficacité du scraping, Octoprase peut actuellement gérer automatiquement les quatre types de Captcha : ImageCaptcha, hCaptcha, ReCaptcha V2, et ReCaptcha V3.

hCaptcha et ReCaptcha V2 & V3 peuvent être résolus de manière similaire, alors qu'il est plus compliqué de mettre en place une résolution pour traiter ImageCaptcha.

Suivez ce tutoriel et vous serez en mesure d'avoir une compréhension de base de chaque Captcha et de les manipuler avec Octoparse.


1. C'est quoi hCaptcha & ReCaptcha V2 & V3 ?

  • hCaptcha combine généralement :

- un bouton « Je suis humain » (I am human) avec le logo de hCaptcha

capthca type 1

- et des questions simples (en images) qui sont faciles pour les humains et difficiles pour les machines :

captcha type 2

  • ReCaptcha V2

La plupart des ReCaptcha V2 comportent généralement un bouton « Je ne suis pas un robot » (I'm not a robot) ; cependant, ils peuvent parfois contenir des questions simples similaires à celles des hCaptcha.

captcha type 3
  • ReCaptcha V3 ressemble à ReCaptcha V2, mais il ne comporte pas de case à cocher.


2. Comment résoudre hCaptcha, Recaptcha V2 & V3

  • Cliquez sur le bouton Ajouter une étape dans le flux de travail

  • Sélectionnez "Résoudre CAPTCHA"

  • Cliquez sur l'étape de Résoudre CAPTCHA

  • Sélectionnez le type de CAPTCHA en fonction du Captcha que vous rencontrez.

Note : Si le ReCaptcha ou le hCaptcha que vous rencontrez comprend un bouton de Submit (voir la capture d'écran ci-dessous), sélectionnez Case à cocher reCAPTCHA v2 ou Case à cocher hCaptcha. Sinon, choisissez reCAPTURE v2 ou hCaptcha.

  • Cliquez sur Appliquer pour enregistrer les paramètres

Note :

  • Pour les ReCaptcha ou hCaptcha avec un bouton de soumission (submit), vous devrez mettre en place une action supplémentaire.

a. Cliquez sur un bouton de soumission qui peut vous diriger vers la page cible

(Il peut s'agir d'un bouton de soumission, d'un bouton de connexion ou d'un bouton de confirmation).

b. Choisissez Cliquer sur l'élément/Cliquer sur le bouton

  • hCaptcha et ReCaptcha ne seront pas résolus automatiquement avant une exécution réelle des données. Vous devez donc activer le mode navigation et les résoudre manuellement pour procéder à la création de la tâche.


3. Qu'est-ce que l'Image Captcha ?

ImageCaptcha est la méthode originale de vérification des humains. Il peut utiliser des mots ou des phrases connus ou des combinaisons aléatoires de chiffres et de lettres. Certains ImageCaptcha incluent également des variations de majuscules.

image captcha

4. Comment résoudre le Captcha d'image

Pour continuer ce tutoriel, vous auriez besoin de ce URL : https://democaptcha.com/demo-form-eng/image.html

A. Sélectionnez la zone de saisie et la zone d'image pour le Captcha

  • Cliquez sur le champ de saisie du Captcha

  • Sélectionnez Résoudre le Captcha dans le panneau Conseils

  • Cliquez sur la boîte à images

  • Cliquez sur le bouton Connexion/Soumettre/Confirmer pour continuer (parfois, il peut s'agir d'autres boutons, comme "Send" dans ce cas précis)

  • Cliquez sur Confirmer dans le panneau des conseils

configuration de captcha

B. Configurez un échec de résolution de Captcha

Maintenant, nous devons entraîner Octoparse à résoudre le Captcha en mettant en place un échec de résolution.

  • Cliquez sur le message d'erreur (dans ce cas - Des erreurs ont été détectées dans votre formulaire : Code de vérification invalide)

  • Cliquez sur Confirmer l'erreur dans le panneau Conseils

C. Configurer un succès de résolution de Captcha

  • Cliquez sur Set Up CAPTCHA Solving Success pour passer à la dernière étape

  • Entrez le texte affiché dans la boîte à images

  • Cliquez sur Soumettre la réponse CAPTCHA et terminez la configuration

Le Image Captcha a maintenant été résolu. L'étape Résoudre CAPTCHA sera ajoutée au flux de travail et vous pouvez également modifier les paramètres sous le flux de travail.


Note :

  • hCaptcha/ReCaptcha V2/ReCaptcha V3 peuvent être détectés automatiquement, il n'est donc pas nécessaire de définir XPath pour les localiser. Les CAPTCHA d'image ne peuvent pas être détectés sans XPath. Vous devez faire attention au XPath dans les paramètres.

  • Le coût est de 1 $/1K CAPTCHA. Une tentative de résolution d'un CAPTCHA est comptabilisée comme un crédit CAPTCHA. Ainsi, la résolution d'un CAPTCHA avec succès peut coûter plusieurs crédits CAPTCHA. Vous pouvez cliquer sur Ajouter des crédits pour les compléter. Les crédits CAPTCHA ne peuvent pas être remboursés. Nous avons envoyé quelques crédits aux utilisateurs du plan Standard/Professionnel pour les tester. Vous pouvez les tester avant de payer les crédits.

  • Une fois les crédits épuisés, la tâche ne parviendra pas à résoudre les captchas. Par conséquent, avant d'exécuter la tâche, assurez-vous qu'il y a suffisamment de crédits sur votre compte.

  • Dans la version 8.7.4, Octoparse a introduit une option pour mettre en évidence les journaux (log) de ressources dans le journal des événements. Cette fonctionnalité permet de vérifier plus facilement si un CAPTCHA a été résolu avec succès et de suivre l'utilisation des crédits. Les crédits ne sont déduits que lorsque le journal de résolution du CAPTCHA affiche « Complet ».

Avez-vous trouvé la réponse à votre question ?