Il arrive parfois que notre workflow semble parfaitement configuré, mais que la tâche n’extraie que très peu des données souhaitées.
Comment cela peut-il arriver ? Pourquoi vois-je les données dans l’onglet d’aperçu, mais elles ne sont pas extraites lors de l’exécution de la tâche ?
Si ce problème vous préoccupe, prenez quelques minutes pour lire l’article ci-dessous, qui propose des solutions éprouvées.
Raison 1 : Le délai d’attente par défaut de l’action « Aller à la page web » est trop court
Si Octoparse arrête l’extraction avant même que la page web ne soit entièrement chargée, il est très probable que les données dont vous avez besoin ne soient pas encore disponibles lorsque le logiciel passe à l’action suivante.
Solution : définissez un délai d’attente plus long pour l’action « Aller à la page web » afin de vous assurer que la page est entièrement chargée avant de passer à l’étape suivante. Cette méthode s’applique à toutes les étapes de chargement de page, comme cliquer pour afficher la page de détails.
Raison 2 : Le site web cible a un délai de chargement
Si le site web cible se charge complètement, mais qu’Octoparse s’arrête toujours sans extraire de données, considérez la possibilité d’un délai de chargement des données que vous souhaitez récupérer. De nombreux sites web utilisent du JSON pour mettre à jour les pages, ce qui peut entraîner un délai dans le chargement des éléments.
Solution 1 : Configurez un temps d’attente avant l’action suivante après l’action Aller à la page web
Cliquez sur l’action qui suit Aller à la page web dans le flux de travail, puis définissez un délai d’attente avant l’exécution de cette action dans l’onglet Options.
Solution 2 : Configurez un temps d’attente avant l’action Extraire les données
Cliquez sur l’action Extraire les données dans le flux de travail, puis définissez un délai d’attente avant l’exécution de cette action dans l’onglet Options.
Raison 3 : Le site web utilise le lazy loading pour améliorer la vitesse de chargement de la page
Si le site cible ne charge pas d’autres données que celles visibles avant le défilement, cela signifie qu’il utilise une stratégie de lazy loading.
Il faut alors indiquer à Octoparse de faire défiler la page vers le bas une fois qu’elle est chargée.
Solution : Configurez le défilement automatique de la page après son chargement
Cliquez sur l’action Aller à la page web dans le flux de travail, puis cochez l’option Faire défiler la page après le chargement dans l’onglet Options.
Modifiez les paramètres détaillés selon vos besoins.
Raison 4 : Le délai d’attente AJAX configuré n’est pas assez long
Si votre workflow inclut une étape de clic sur un élément pour afficher des données cachées sous un bouton « afficher plus » ou « charger plus », assurez-vous de définir un délai d’attente AJAX suffisamment long pour que les données se mettent à jour complètement.
Solution : Augmentez le délai d’attente AJAX pour votre élément de clic
Cliquez sur l’étape Cliquer sur un élément dans votre workflow, cochez Charger avec AJAX et définissez un délai d’attente plus long.