Certains sites Web sont très sensibles au Web Scraping et prennent des mesures anti-scraping telles que le blocage IP pour éviter toute activité de scraping possible.
Dans ce tutoriel, nous allons vous montrer comment configurer dans Octoparse des mesures Anti-Blocage pour réduire les risques d'être bloqué dans une tâche .
Utiliser des proxys IP (uniquement pour l'extraction locale)
Vous pouvez configurer des proxies manuellement dans Octoparse si vous souhaitez accéder au site web avec des proxies externes (par exemple depuis un pays spécifique) ou si vous préférez utiliser vos propres proxies pour protéger votre IP locale. Pour plus d'informations sur la manière de configurer les proxies, veuillez vous référer à la section Configurer les proxies.
Octoparse changera automatiquement de proxy en fonction de votre configuration lors de l'exécution de tâches spécifiques.
Changement automatique d'agents de navigation
Votre navigateur envoie ce que l'on appelle un agent utilisateur pour chaque page web que vous visitez. Il s'agit d'une chaîne de caractères qui indique au site web cible le type d'appareil avec lequel vous accédez à la page. Lorsqu'un site web est scrappé de manière très régulière avec le même agent utilisateur, il peut facilement être détecté comme un robot de scrappage. Cette fonctionnalité permet donc de réduire les risques de blocage.
Pour configurer l'agent de navigation à commutation automatique
Cochez la case Changement automatique d'agents de navigation
Cliquez sur Configurer pour sélectionner un agent utilisateur
Confirmez les choix
Tous les agents utilisateurs ne fonctionnent pas pour tous les sites web, vous devrez donc expérimenter un peu. Si vous voulez qu'Octoparse visite le site web « via PC » lors du scraping du site web, vous ne devez pas sélectionner d'agent utilisateur pour mobile, comme « Firefox pour mobile ». Si vous voulez qu'Octoparse visite le site web « via mobile », vous ne devez cocher que les cases des agents pour mobile.
Définissez la fréquence à laquelle vous souhaitez changer d'agent utilisateur ou sélectionnez Changer d'IP simultanément.
Octoparse changera automatiquement d'agent utilisateur toutes les X minutes lorsque la tâche s'exécute localement ou dans le Cloud.
Effacer automatiquement les cookies
Lorsque l'on scrappe un site web de manière très régulière avec les mêmes cookies, cela peut facilement être détecté comme une activité de robot de scrapping. Avec cette fonctionnalité, Octoparse effacera les cookies de temps en temps, ce qui donnera l'impression qu'il accède au site web pour la première fois.
Cochez la case Effacement automatique des cookies
Définissez la fréquence à laquelle vous souhaitez effacer les cookies ou sélectionnez Effacer les cookies lorsque les adresses IP changent.
Cliquez sur Enregistrer
Octoparse effacera automatiquement les cookies toutes les X secondes lorsque la tâche est exécutée localement ou dans le cloud.
Remarque : les paramètres anti-blocage peuvent ne pas contourner à 100 % les mécanismes de blocage d'un site web. Le mieux est de traiter le site web avec gentillesse et de contrôler la vitesse d'accès.