Les doublons dans Octoparse font référence aux lignes de données qui sont identiques dans tous les champs. S'il n'y a que quelques doublons, vous pouvez les supprimer lors de l'exportation des données.

Cependant, rencontrer de nombreux doublons et seulement un petit nombre de lignes de données valides peut être frustrant. Dans ce tutoriel, nous vous guiderons pour résoudre les problèmes de doublons.

Erreur 1 : Lors de l'extraction de données sur plusieurs pages, Octoparse revient parfois sur des pages déjà extraites ou continue à scraper la dernière page.

Le XPath de pagination généré automatiquement ne fonctionne pas toujours parfaitement. Si vous constatez que Octoparse duplique les données sur plusieurs pages de manière répétée, il sera nécessaire d'apporter quelques ajustements.

Solution : Modifiez le XPath de la pagination pour vous assurer qu'il localise précisément le bouton de la page suivante.

Cliquez sur l'étape Pagination

Entrez le nouveau XPath et cliquez sur Appliquer pour enregistrer.

💡Astuce : Consultez comment écrire un XPath ici : Qu'est-ce que le XPath et comment l'utiliser dans Octoparse.

Erreur 2 : Lors de l'extraction de données sur plusieurs pages, le délai d'attente AJAX pour la pagination est trop court pour charger la page suivante, et Octoparse continue à scraper les données de la page actuelle.

Pour les pages chargées avec AJAX, si le délai d'attente n'est pas suffisamment long, la page suivante risque de ne pas se charger, ce qui entraîne une répétition de l'extraction des données de la page actuelle par Octoparse et peut provoquer des doublons.

Solution : Prolongez le délai d'attente AJAX pour qu'il soit suffisamment long afin de permettre le chargement de la page.

Cliquer sur l'étape Cliquer pour paginer

Sélectionnez un délai d'attente AJAX plus long

Erreur 3 : Lors de l'extraction d'une liste d'articles, Octoparse ne scrape que la première ligne de données de manière répétée, ou un champ de données est identique sur toutes les lignes.

Lors de la boucle à travers une liste d'articles pour extraire des données, Octoparse peut continuer à scraper un seul article. Ou bien, d'autres champs sont correctement extraits de chaque article, mais un ou deux champs restent fixes.

Cela est dû au fait que l'action Extraire des données n'est pas associée à l'étape Élément de la boucle. Il faut sélectionner deux options pour associer l'action Extraire des données et l'action Boucler l'élément.

Extraction de données dans la boucle est bien coché sur l'étape Extraire des données.

XPath relatif est bien utilsé dans la définition du champ de données

Les étapes Extraire des données et Éléments de la boucle sont associées aux deux options sélectionnées, et Octoparse extraira les données de chaque élément dans la boucle.

Solution 1 : Recréer les champs

Après avoir coché l'option Extraire les données dans la boucle, cliquez sur Élément en boucle dans le flux de travail, puis sur Extraire les données.

Le premier élément est mis en évidence et nous pouvons choisir des éléments dans la zone mise en évidence pour extraire le texte.

Solution 2 : Modifier directement le XPath des champs

Passez à l'Aperçu de données

Cliquez sur Plus et sélectionnez Personnaliser XPath

Cochez Xpath Relatif et entrez le XPath correct

Méthode 1 : Passez à l'Aperçu de données puis Personnalisez Xpath.

Méthode 2 : Passez à l'Aperçu de données, passez à la vue verticale et double-cliquez sur chaque champ pour personnaliser Xpath, ce qui est plus pratique si vous devez modifier plusieurs Xpaths.

Erreur 4 : La tâche continue de scraper la dernière page

Pourquoi ai-je autant de doublons ?