Dans ce tutoriel, nous allons vous montrer comment extraire le texte, l’URL, l’URL d’image, le code HTML et d’autres valeurs d’attributs.

1. Extraire le Texte

Cliquez sur les données ciblées, puis sélectionnez Texte dans le panneau de Conseils.

2. Extraire l’URL (d’un lien ou d’une image)

Une URL est un lien hypertexte. En cliquant simplement sur une URL, vous pouvez ouvrir une nouvelle page web ou accéder à un autre site internet, comme lorsque vous cliquez sur le titre d’un livre sur Amazon.

En plus des pages web, l’URL permet également d’accéder à une ressource précise via Internet, comme une image ou un document PDF.

Si vous récupérez l’URL, vous pouvez ensuite télécharger le fichier ou l’image correspondant(e) depuis Internet à l’aide de cette URL.

2.1 Extraire l’URL d’un lien

Cliquez sur les données ciblées, puis sélectionnez Lien dans le panneau de Conseils.

A noter :

Lorsque vous sélectionnez un élément contenant une URL, la balise affichée en bas du panneau de conseils doit être « A », qui représente une ancre reliant une page à une autre. Veuillez vous assurer de bien sélectionner la zone appropriée.

2.2 Extraire l'URL d'une image

Cliquez sur l'image cible et puis sélectionner Image URL dans le panneau de conseils pour obtenir l'URL.

FAQ : Puis-je utiliser Octoparse pour récupérer directement une image, et non seulement son URL, depuis une page web ?

Oui ! Depuis la version 8.5.4, Octoparse prend en charge la fonctionnalité de scraper et télécharger des fichiers et des images directement.

3. Extraire HTML interne/externe

Contrairement au texte et aux URL, les données comme les icônes ne peuvent pas être extraites directement. Si vous souhaitez extraire des contenus visuels non textuels, comme les évaluations par étoiles, vous devez extraire le code HTML interne ou externe de ces éléments.

En plus des icônes, vous pouvez également récupérer des textes cachés, des graphiques et des diagrammes présents sur une page web en extrayant d’abord le code HTML de ces éléments. Une fois le code HTML obtenu, il est nécessaire d’appliquer des expressions régulières pour nettoyer les données.

Pour extraire le HTML interne/externe, cliquez sur votre donnée cible puis sélectionnez HTML interne/externe dans le panneau de Conseils.

Note :

Pour nettoyer les données, il vous faut consulter ces tutoriels :

Leçon 3 : Gére les données

Outil d'expression régulière

4. Extraire la valeur d'attribut

Les attributs se trouvent dans le code HTML et fournissent des informations supplémentaires sur les éléments HTML. Par exemple, la note par étoiles est généralement stockée dans un attribut. Les attributs sont souvent présentés sous forme de paires nom/valeur, comme name="value". Octoparse peut vous aider à extraire directement la valeur.

Cliquez sur l’élément ciblé (ici, nous prenons la note par étoiles en exemple) et sélectionnez HTML externe (OuterHtml).

Allez dans la section Aperçu des données, survolez le champ nom, cliquez sur le bouton plus « ... », sélectionnez Personnaliser le champ, puis choisissez l’attribut cible.

Extraire les attributs d’un élément web (texte, URL, code HTML, etc.)