Dans ce tutoriel, nous allons vous montrer comment extraire des informations sur les hôtels depuis Booking.com.
Vous pouvez également accéder à l’onglet Modèles dans la barre latérale d’Octoparse et utiliser directement le modèle prêt à l’emploi pour Booking afin de gagner du temps. Grâce à cette fonctionnalité, il n’est pas nécessaire de configurer manuellement la tâche d’extraction. Pour plus de détails, consultez cette page : tâche de modèle.
Si vous souhaitez apprendre à créer la tâche depuis zéro, poursuivez la lecture de ce tutoriel.
Vous aurez peut-être besoin de cette URL pour suivre le tutoriel :
Nous allons extraire des données telles que les noms des hôtels, les images, les adresses, les descriptions, les notes, les avis et les classements par étoiles avec Octoparse.
Les principales étapes sont affichées dans le menu à droite.
[Téléchargez la tâche de démonstration ici]
1.Aller à la page web - ouvrir la page web cible
Saisissez l’URL de la page d’accueil
Cliquez sur le bouton Démarrer
2.Détecter automatiquement la page web - créer un flux de travail
Cliquez sur Autodétection des données de la page web
Supprimez et renommez le champ
Il est très facile de supprimer en une seule fois les champs dont vous n’avez pas besoin après la détection automatique.
Cliquez sur l’icône Vue verticale pour passer en affichage vertical afin de supprimer et renommer les champs. Notez que vous devez double-cliquer sur le nom du champ pour le renommer.
3. Mettez à jour le XPath pour l’élément de boucle et la pagination
Cliquez sur l’élément de boucle
Saisissez le XPath :
//div[@data-testid="property-card"]
Cliquez sur Pagination et mettez à jour le XPath en :
//span[text()='Load more results']
💡 Astuce : Consultez ce tutoriel pour en savoir plus sur le XPath : Qu’est-ce que XPath et comment l’utiliser dans Octoparse
Si vous souhaitez cliquer sur chaque lien de détail pour obtenir plus d’informations, veuillez suivre les étapes suivantes.
4. Accédez à chaque lien de détail - extrayez plus d’informations
Cliquez sur l’étape Extraire des données, puis sur Saisir la sous-page
Cliquez sur Confirmer
5. Extraction des données - extraire les informations des pages de détail
S'il y a une fenêtre pop-up, activez le mode navigation pour la fermer manuellement, puis désactivez-le.
Sélectionnez les données que vous souhaitez extraire, puis cliquez sur Tous les champs de données
6. Définissez un temps d'attente - ralentissez la vitesse de scraping
Booking pourrait bloquer votre IP si vous effectuez trop de scraping. Il est donc nécessaire de contrôler la vitesse d’extraction.
Cliquez sur Extract Data1
Allez dans Options
Cochez Attendre avant l’action
Définissez un temps d’attente entre 5 et 10 secondes
Le flux de travail final ressemblera à ceci :
7. Lancer l’extraction - exécuter la tâche et récupérer les données
Cliquez sur Sauvegarder
Cliquez sur Exécuter en haut à gauche
Sélectionnez Exécuter sur votre appareil pour lancer la tâche sur votre ordinateur, ou Exécuter la tâche dans le Cloud (réservé aux utilisateurs premium)
Voici l'exemple de résultat :