Qu'est-ce que « Extraire des données » ?

"Extraire les données" est une étape indispensable lorsque vous configurez votre tâche pour obtenir les données. Tous les champs de données dont vous avez besoin peuvent être trouvés dans cette étape. Dans cette étape, vous pouvez nettoyer les données, modifier XPath, changer la séquence de données, copier, supprimer des champs de données, etc.

Sans cette étape, votre tâche ne peut même pas être exécutée.

Comment ajouter une action « Extraire des données » dans le workflow ?

Il y a deux manières pour générer une action "Extraire les données".

1. Cliquer sur les éléments de la page Web pour en générer une automatiquement (la méthode la plus courante)

Si vous souhaitez extraire des données de la page, il vous suffit de cliquer d’abord sur l’élément. Ensuite, cliquez sur n’importe quelle option sous « Extraire des données » dans le panneau de conseils.

Les options peuvent être :

Texte
Lien
Texte + Lien
HTML interne (InnerHtml)
HTML externe (OuterHtml)
URL de l’image

Une fois que vous avez cliqué sur l’une de ces options, une action Extraire des données apparaîtra dans le flux de travail.

2. Ajouter à partir du workflow

Lorsque vous survolez le flux de travail, une icône + apparaît. Cliquez sur cette icône pour afficher les options du menu déroulant et choisissez Extraire des données afin d’ajouter cette étape au flux de travail.

Ensuite, choisissez n’importe quel élément sur la page web pour ajouter des champs de données à cette étape « Extraire les données ».

Paramètres d'action

Pour ajuster davantage de paramètres liés aux champs de données, vous pouvez cliquer sur l’action « Extraire les données » dans le flux de travail et trouver le panneau de paramètres en bas. Vous verrez qu’il y a trois fonctionnalités principales.

Dans la section « Général », vous trouverez « Extraction de données dans la boucle » lorsque l’action « Extraire les données » se situe à l’intérieur d’un élément de boucle.

En même temps, il y a déclencheur.

Dans la section « Options », vous trouverez « Attente avant l’action ».

1. Extraction de données dans la boucle

Cette option n’apparaît que lorsque l’action « Extraire des données » se trouve à l’intérieur d’un élément de boucle. Elle est généralement cochée automatiquement lorsque vous extrayez des données directement à partir d’une page de liste.

Voici un exemple de page de liste.

2. Déclencheur

Le déclencheur est utilisé lorsque vous souhaitez extraire des données en fonction de certaines conditions.

Par exemple, si le champ Nom d'utilisateur n'est pas vide et que vous souhaitez extraire cette ligne de données, vous pouvez utiliser le déclencheur pour y parvenir. Plus d'informations sur déclencheur.

3. Avant l'exécution de l'action (ajouter le temps d'attente)

Celle-ci vous permettra d'ajouter un temps d'attente avant d'exécuter cette action. Les sites web peuvent avoir des paramètres de délai d'attente différents pour le chargement des données. Il est donc parfois nécessaire d'ajouter un délai d'attente ou des conditions d'attente pour donner plus de temps à la page web pour se charger.

Cette fonction peut également être utilisée pour contrôler la vitesse de scraping afin que les sites web ne détectent pas les actions de scraping.

Vous pouvez consulter ce guide pour différents cas d'utilisation : Attendre avant l'action.

Définir les champs de données

Vous pouvez consulter les détails des champs de données dans la section « Aperçu des données » et effectuer des actions telles que renommer (double-cliquer sur le nom du champ), supprimer, déplacer ou nettoyer vos champs de données, ainsi qu’ajouter des champs (comme l’heure d’extraction, l’URL de la page en cours, etc.) à partir d’une liste prédéfinie.

Vous pouvez également personnaliser l’XPath d’un certain champ de données ici s’il n’est pas correctement localisé dans le résultat.

Pour mieux comprendre ce que représentent les icônes dans Octoparse, voyez les détails suivants:

Pour ajouter des champs de données personnalisés à partir d'une liste prédéfinie

Pour importer des champs de données à partir d'un fichier de données [Octoparse extract config (*.oec)].

Pour exporter des champs de données vers un fichier de données [Octoparse extract config (*.oec)].

Vues horizontale et verticale

Vous pouvez passer aux vues verticales pour modifier facilement l'XPath de tous les champs ou effectuer des actions sur plusieurs champs en cochant la case précédant chaque champ.

Supprimer les doublons des données extraites

Plus d'options : pour apporter plus de modifications à vos données

Personnaliser le champ: pour sélectionner l'information (texte, HTML, valeur d'un attribut ou URL) à extraire de l'élément de la page.

Personnaliser XPath : pour modifier le XPath pour le champ.
Nettoyer les données : pour nettoyer la sortie des données selon vos souhaits (par exemple, ajouter un préfixe, un suffixe, transformer l'heure, remplacer, etc.)
Fusionner les données d'un champ : pour combiner différentes lignes de données dans une seule cellule.
Supprimer le champ : pour supprimer le champ de données actuel.
Dupliquer le champ : pour dupliquer un certain champ de données.
Télécharger des fichiers : pour télécharger des fichiers à l'aide des liens récupérés.