Passer au contenu principal

Extraire les données des hôtels depuis Booking

Mis à jour il y a plus de 6 mois

Dans ce tutoriel, nous allons vous montrer comment extraire des informations sur les hôtels depuis Booking.com.

Vous pouvez également accéder à l’onglet Modèles dans la barre latérale d’Octoparse et utiliser directement le modèle prêt à l’emploi pour Booking afin de gagner du temps. Grâce à cette fonctionnalité, il n’est pas nécessaire de configurer manuellement la tâche d’extraction. Pour plus de détails, consultez cette page : tâche de modèle.

Si vous souhaitez apprendre à créer la tâche depuis zéro, poursuivez la lecture de ce tutoriel.

Vous aurez peut-être besoin de cette URL pour suivre le tutoriel :

Nous allons extraire des données telles que les noms des hôtels, les images, les adresses, les descriptions, les notes, les avis et les classements par étoiles avec Octoparse.

Les principales étapes sont affichées dans le menu à droite.

[Téléchargez la tâche de démonstration ici]


1.Aller à la page web - ouvrir la page web cible

  • Saisissez l’URL de la page d’accueil

  • Cliquez sur le bouton Démarrer


2.Détecter automatiquement la page web - créer un flux de travail

  • Cliquez sur Autodétection des données de la page web

  • Cliquez sur Créer un flux de travail

  • Ajouter l'étape de pagination Bonton Charger plus

  • Localiser le bouton de charger plus

  • Ajustez l’ordre des champs selon vos préférences

  • Supprimez et renommez le champ

Il est très facile de supprimer en une seule fois les champs dont vous n’avez pas besoin après la détection automatique.

Cliquez sur l’icône Vue verticale pour passer en affichage vertical afin de supprimer et renommer les champs. Notez que vous devez double-cliquer sur le nom du champ pour le renommer.


3. Mettez à jour le XPath pour l’élément de boucle et la pagination

  • Cliquez sur l’élément de boucle

  • Saisissez le XPath : //div[@data-testid="property-card"]

  • Cliquez sur Pagination et mettez à jour le XPath en : //span[text()='Load more results']

💡 Astuce : Consultez ce tutoriel pour en savoir plus sur le XPath : Qu’est-ce que XPath et comment l’utiliser dans Octoparse

Si vous souhaitez cliquer sur chaque lien de détail pour obtenir plus d’informations, veuillez suivre les étapes suivantes.


4. Accédez à chaque lien de détail - extrayez plus d’informations

  • Cliquez sur l’étape Extraire des données, puis sur Saisir la sous-page

  • Cliquez sur Confirmer


5. Extraction des données - extraire les informations des pages de détail

S'il y a une fenêtre pop-up, activez le mode navigation pour la fermer manuellement, puis désactivez-le.

  • Sélectionnez les données que vous souhaitez extraire, puis cliquez sur Tous les champs de données


6. Définissez un temps d'attente - ralentissez la vitesse de scraping

Booking pourrait bloquer votre IP si vous effectuez trop de scraping. Il est donc nécessaire de contrôler la vitesse d’extraction.

  • Cliquez sur Extract Data1

  • Allez dans Options

  • Cochez Attendre avant l’action

  • Définissez un temps d’attente entre 5 et 10 secondes

Le flux de travail final ressemblera à ceci :


7. Lancer l’extraction - exécuter la tâche et récupérer les données

  • Cliquez sur Sauvegarder

  • Cliquez sur Exécuter en haut à gauche

  • Sélectionnez Exécuter sur votre appareil pour lancer la tâche sur votre ordinateur, ou Exécuter la tâche dans le Cloud (réservé aux utilisateurs premium)

Voici l'exemple de résultat :

Avez-vous trouvé la réponse à votre question ?