Le contenu des pages Web est généralement organisé selon un certain modèle. L'un des modèles les plus courants est la liste. Voici quelques exemples d'organisation du contenu sous forme de liste.
L'extraction d'une liste est rapide et facile grâce aux fonctionnalités d'auto-détection d'Octoparse. Grâce à son algorithme avancé, Octoparse est capable d'auto-détecter les éléments d'une liste et de générer automatiquement le flux de travail de la tâche.
Cette page Web particulière est constituée d'éléments partageant la même structure. Chaque élément contient un titre, une date, un mot-clé, un article...
Notre objectif est d'obtenir des données extraites dans Excel comme ceci :
Explorons maintenant différentes manières d'accomplir cela dans Octoparse :
Vous pourriez avoir besoin de ce lien pour suivre : http://test-sites.octoparse.com/?page_id=6
1. Extraire une liste avec l'auto-détection
Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL, sélectionnez Autodétection des données de la page web. Octoparse va détecter toutes les données de la page et vous pouvez cliquer sur Créer un flux de travail pour générer le workflow.
Ensuite, vous pouvez modifier les champs dans l’aperçu des données.
Supprimez les champs indésirables.
Renommez les champs en double-cliquant sur l’en-tête.
2. Extraire une liste de données manuellement
Si la détection automatique ne parvient pas à détecter la liste, vous pouvez extraire la liste manuellement.
Méthode 1 :
Survolez le premier élément avec votre curseur jusqu'à ce que toute la section soit surlignée en bleu, puis cliquez dessus.
Continuez en cliquant sur le deuxième élément, et vous verrez que tout ce dont vous avez besoin sur la page sera sélectionné.
Choisissez Texte, et Octoparse créera automatiquement un élément en boucle.
Maintenant, toutes les données sont extraites dans un seul champ. Vous pouvez sélectionner des informations comme le titre, la date et les mots-clés sur la page Web pour créer différents champs.
Sélectionnez le titre et choisissez Texte.
Répétez les mêmes étapes pour récupérer les autres informations.
Double-cliquez sur le nom du champ pour le renommer si nécessaire.
Méthode 2 :
Survolez le premier élément avec votre curseur jusqu'à ce que la section entière soit surlignée en bleu.
Vous remarquerez qu'Octoparse détecte les sous-éléments de la section et les met en évidence en rouge.
Choisissez Sélectionner tous les sous-éléments.
Choisissez Choisir les groupes similaires.
Choisissez Données des éléments. Un élément de boucle sera généré automatiquement pour scrapper la liste des éléments de la page.
Un élément en boucle sera généré automatiquement pour extraire la liste des éléments de la page.
Le workflow final devrait ressembler à ceci :