Passer au contenu principal

Guide complet pour les débutants : Logique de scraping, mise en pratique et résolution des erreurs avec Octoparse

Mis à jour il y a plus de 10 mois

La scraping des informations de la page de liste et de la page de détail est le besoin le plus courant que nous rencontrons, ce tutoriel présente principalement la méthode d'extraction des données en matière de cette situation.

Logique générale

La logique de scraping d'Octoparse consiste à simuler le comportement de navigation réel des utilisateurs, en créant un flux de travail pour imiter les actions humaines telles que le défilement, les clics et la pagination, afin de parcourir et récupérer les informations affichées.

Imaginons qu'une personne doive lire de manière systématique toutes les informations des pages de liste et de détail. Comment procéderait-elle ?

  • Elle commence par lire le premier article de la page de liste, puis clique pour accéder aux détails de cet article. Après avoir fini de lire, elle retourne à la page de liste et continue avec le deuxième article.

  • Ensuite, elle clique sur le deuxième article pour consulter ses détails. Ce processus se répète jusqu'à ce que tous les articles de la première page et leurs pages de détails aient été consultés.

  • Et puis, elle clique sur le bouton de pagination pour accéder à la deuxième page de la liste. Elle commence alors par le premier article de la deuxième page, clique pour lire les détails de cet article, puis retourne à la page de liste.

  • Ce processus continue jusqu'à ce que tous les articles de la deuxième page et leurs pages de détails soient traités.

  • Après cela, elle clique à nouveau sur le bouton de pagination pour passer à la troisième page, et ainsi de suite. Ce processus se poursuit jusqu'à la dernière page de la liste, où toutes les informations des articles de la dernière page ainsi que leurs pages de détails sont également récupérées.

Ainsi, un flux de travail doit être créé comme suit (voir photo 1.1.1) :

(Photo : 1.1.1 - Modèle du flux de travail)

Attention : Ce flux de travail est l'un des configurations les plus courantes, mais en fonction des besoins spécifiques du scraping, certaines étapes peuvent être ajoutées ou supprimées.

Mise en pratique

Après avoir compris la logique de récupération, nous passons à la partie pratique.

  • Saisissez l'URL de la page de liste et cliquez sur démarrer (voir la photo 2.1.1).

Photo : 2.1.1 - Entrée de l'URL

  1. Si c'est un site web, comme https://www.amazon.fr/, commencez par filtrer les résultats dans le navigateur, puis une fois que vous avez obtenu la page de liste souhaitée, copiez l'URL dans le champ de saisie sur la page d'accueil.

  2. Lorsque l'URL de la page de liste est la même que celle du site web, par exemple : https://locations.wackerneuson.com/lf/ .

    Ce type de site ne s'applique pas directement à cette méthode de scraping, il vous faut activer le mode de navigation, et filtrer manuellement sur Octoparse pour obtenir l'URL (voir la photo 2.1.2)­. En ce cas, lors de l'exécution de la tâche, vous devez surprendre la tâche et refaire le filtre en mode navigation (voir la photo 2.1.3).

    Photo : 2.1.2 - filtre manuel lors de la création du flux de travail

    Photo : 2.1.3 - filtre manuel lors de l'exécution de tâche


  • Utilisez la détection automatique (auto-detection) (voir la photo 2.2.1)

  1. Si la page web ne s'est pas chargée, consultez les mesures de protection contre la récupération de données mises en place par le site.

  2. Dans le cas où la détection automatique n'a pas détecté correctement la boucle, sélectionnez-la manuellement et créez une boucle, une méthode spécifique sera expliquée séparément : https://helpcenter.octoparse.com/fr/articles/6470956-extraire-une-liste-de-donnees).

(Photo : 2.2.1 - Auto-détection)


  • Une fois la détection automatique terminée, vérifiez le bouton de pagination (voir la photo 2.3.1)

(Photo : 2.3.1 - Vérification de la pagination)


  • Cliquez pour accéder à la page de détail - deux façon :

  1. Dans le processus conseil, choisissez de cliquer sur le titre, généralement c'est le titre (voir la photo 2.4.1).

  2. Cliquez manuellement (voir la photo 2.4.2).

(Photo : 2.4.1 - Sélectionner l'URL pour entrer dans la page de détail)

(Photo : 2.4.2 - Cliquer manuellement pour entrer dans la page de détail)


  • Récupérez les informations de la page de détail

  1. Détection automatique (voir la photo 2.5.1).

  2. Sélection manuelle (voir la photo 2.5.2).

(Photo : 2.5.1 - Auto-détection)

(Photo : 2.5.2 - Choisir les éléments voulus manuellement)


  • Lancez la tâche (voir la photo 2.6.1), choisissez l'exécution locale ou l'exécution sur le cloud (voir la photo 2.6.2).

(Photo : 2.6.1 - Exécuter la tâche)

(Photo : 2.6.2 - Mode d'exécution)

Information complémentaire : Différence entre exécution en local et dans le Cloud :


  • Exportez de la tâche (voir la photo 2.7.1).

(Photo : 2.7.1 - Exporter les données)

(Photo : 2.7.2 - Format de données)


Résolution des erreurs

Après avoir créé le flux de travail et exécuté la tâche en suivant les étapes ci-dessus, il se peut que les données récupérées ne soient pas satisfaisantes. Les problèmes possibles incluent des données à zéro, des données uniquement pour la première page, des données incomplètes ou désordonnées, etc. Cela nécessite une résolution des erreurs en examinant quel étape du flux de travail a causé le problème de données.

Voici quelques méthodes courantes de dépannage :

  • Exécution en mode navigateur local.

(Photo : 3.1.1 - Afficher le navigateur)

(Photo : 3.1.2 - Page affichée dans le navigateur)

Activez le mode navigateur et exécutez la tâche (voir la photo 3.1.1). Vous pouvez voir l'état d'exécution de la tâche dans le navigateur, par exemple la pagination, l'ouverture des pages de détail, etc. Cela permet de visualiser précisément à quel moment le problème survient (voir la photo 3.1.2).


  • Consultez les journaux. En fonction du nom des étapes dans le flux, vous pouvez surveiller à quelle étape l'exécution est bloquée et quel processus a généré une erreur.

(Photo : 3.2.1 - Journaux)


  • Vérification étape par étape, du plus simple au plus complexe. Commencez par supprimer l'étape de clic pour accéder aux pages de détail et l'étape d'extraction de donnée des pages de détail (voir la photo 3.3.1)

(Photo : 3.3.1 - Supprimer des étapes)

Pour ne pas perdre votre flux de travail, vous pouvez copier une version de la tâche pour cette opération(voir la photo 3.3.2).

(Photo : 3.3.2 - Dupliquer une tâche)

Exécutez la tâche et vérifiez si l'extraction des données de la page de liste seule est correcte et complète. Si ce n'est pas le cas, cela signifie que le problème vient déjà du scraping de la page de liste (bien que cela n'exclue pas la possibilité que des problèmes existent également dans le scraping des pages de détail).

  1. Problème de la page de liste 1 : Problème de boucle. Si les éléments à boucler ne sont pas présents dans le cadre de boucle, les données récupérées seront nulles (voir la photo 3.3.3).

  2. Problème de la page de liste 2 : Problème de pagination. Si le XPath du bouton de pagination est incorrect. Cela fonctionne pour la première page, mais pas pour la seconde.

(Photo : 3.3.3 - Zéro élément dans la boucle)

(Photo : 3.3.4 - Le bouton de pagination n'est pas localisé)

En ce cas, il vous faut modifier le XPath pour bien localiser les éléments de la boucle ou le bouton de la pagination.


  • Une fois que la page de liste récupère correctement les données, rétablissez les étapes de scraping des pages de détail et vérifiez la scraping des détails.

  1. Cochez si le chargement se fait via AJAX ou si une nouvelle page s'ouvre dans un nouvel onglet (voir la photo 3.4.1).

    1. Le chargement via AJAX nécessite l'ajout d'étapes supplémentaires pour revenir à la page de liste.

  2. Configurez un délai d'attente raisonnable (voir la photo 3.4.2). L'ouverture des pages de détail peut prendre un certain temps pour charger les données. Si le scraping commence avant que les données ne soient entièrement chargées, cela peut entraîner une absence de données.

(Photo : 3.4.1 - Mode de chargement de la page de détail)

(Photo : 3.4.2 - Temps d'attente)


  • Si vous souhaitez que les données extraites (souvent situées dans la page de détail) apparaissent sur la même ligne, alors que chaque élément occupe une ligne dans les résultats, cela est dû à l'utilisation d'une boucle sur ces éléments. Pour résoudre ce problème, il vous suffit d'extraire chaque élément individuellement (voir l'exemple à la photo 3.5.2).

(Photo : 3.5.1 - Utilisation erronée de la boucle)

(Photo : 3.5.2 - Extraire des éléments un par un)


  • Si vous parvenez à obtenir les données de la page de détail, mais que celles-ci ne sont pas disposées dans l'ordre attendu, cela signifie que les éléments que vous avez sélectionnés sur la première page ont changé de position sur des pages suivantes. L'XPath que vous avez utilisé précédemment ne parvient donc plus à localiser correctement ces éléments.

Par exemple, sur la photo 3.5.2 ci-dessous, les éléments de critères ne sont pas pareils et donc on pourrait obtenir les résultats comme la photo 3.5.1.

En ce cas, il vous convient de modifier le XPath correspondant (voir la photo 3.5.3) , pour mieux comprendre les connaissances de XPath, consultez cet article :

(Photo : 3.6.1 - Résultats extraits)

(Photo : 3.6.2 - Exemple Pages 1,2,3)

(Photo : 3.6.3 - XPath des éléments)

Attention : La modification de XPath pourrait être difficile pour des débutants, vous pouvez nous contacter via Intercom pour une aide.


  • Contactez-nous pour un support technique sur votre problème spécifique :

(Photo : 3.7.1 - Contactez-nous)

Pour toute question ou point d'ombre concernant ce tutoriel, n'hésitez pas à nous contacter. Nous serons ravis de recevoir vos retours et de répondre à toutes vos interrogations.

Avez-vous trouvé la réponse à votre question ?