Dans l'environnement web actuel, de nombreux sites web utilisent Cloudflare pour se protéger contre les activités de malveillantes, ce qui pose des problèmes pour le scraping de données. Dans ce tutoriel, nous expliquerons ce qu'est la vérification Cloudflare et nous vous présenterons deux solutions éprouvées pour la contourner.
Qu'est-ce que la vérification Cloudflare ?
La vérification Cloudflare est une mesure de sécurité utilisée par les sites web pour distinguer les utilisateurs légitimes des robots. Elle implique souvent des défis CAPTCHA, des contrôles d'intégrité du navigateur et une limitation du débit. Ces vérifications contribuent à protéger les sites web contre des menaces telles que les attaques DDoS, le spam et le scraping, mais elles constituent également des obstacles importants pour les outils de scraping web.
Comment traiter ce problème dans Octoparse ?
Solution 1 : Contournement automatique avec crédit
A partir de la version 8.7.2, Octoparse peut résoudre les défis Cloudflare automatiquement pour vous. Lorsque le site web affiche le captcha Cloudflare, tout ce que vous avez à faire est de cocher l'option Contourner Cloudflare avec crédit et de cliquer sur Confirmer lorsque le tourniquet Cloudflare apparaît et d'attendre qu'il soit contourné automatiquement.
Cette fonction coûte 1,5 dollar par 1 000 demandes. Assurez-vous donc d'avoir suffisamment de crédits sur votre compte avant de l'utiliser. Une chose à noter est que les crédits seront consommés une fois que vous aurez cliqué sur Confirmer pour lancer le processus, qu'il ait abouti ou non. Le taux de réussite de ces défis est d'environ 80 %.
Il est également important de noter que cette fonctionnalité n'est disponible que lors de l'étape Go to the webpage. Cela signifie qu'Octoparse ne peut pas détecter ou résoudre les Cloudflare qui réapparaissent en temps réel pendant le processus de scraping.
Remarque : si vous souhaitez désactiver la fonction de vérification de Cloudflare pendant le scraping, décochez l'option Auto-résoudre Cloudflare dans les paramètres de la tâche.
Solution 2 : Contournement manuel
Vous avez également la possibilité de contourner manuellement la vérification de Cloudflare lorsque vous modifiez ou exécutez vos tâches. Pour obtenir un guide détaillé sur la manière de procéder, consultez ce tutoriel.