Zum Hauptinhalt springen

Scraping der Hoteldaten aus Booking (V8.4/+)

Vor über 2 Jahren aktualisiert

In diesem Tutorial würden wir Ihnen anzeigen, wie man die Hotelinfo von Booking.com scrapen kann.

Eigentlich können Sie zuerst unsere vorgestellten Templates verwenden, um Ihre Zeit zu sparen. Mit dieser Funktion brauchen Sie die Scraping-Tasks nicht konfigurieren. Für weitere Details können Sie hier sehen: Aufgabenvorlagen.

Wenn Sie wissen möchten, wie man von Anfang an ein Task erstellen kann, können Sie die folgenden Anleitungen weiter lesen.

Wir würden mit Octoparse die Daten wie Hotelnamen, Bilder, Adressen, Beschreibungen, Geschäfte, Bewertungen und Kundenbewertungen scrapen.

In der rechten Seitenleiste gibt es die hauptsächlichen Schritte in diesem Tutorial. [Herunterladen der Datei hier]


Schritt 1: Go to Web Page - um die Ziel-Webseite zu öffnen

2.png

Schritt 2: Auto-Detect der Webseite - um einen Workflow zu erstellen

  • Klicken Sie auf "Auto-detect web data" und kreuzen Sie "Add a page scroll" nicht an, um einen Workflow zu erstellen.

auto-detect
  • Passen Sie die Reihenfolge der Felder an, wie Sie wünschen.

11.gif
  • Dann können Sie die Felder umbenennen oder löschen.

Mit Octoparse 8.4 ist es ganz praktisch, nach der Auto-Detektion die ungewünschten Datenfelder zu löschen. Klicken Sie auf "Vertikale Aussicht"-Icon, um den Aussichtsmodus zu verändern. Danach können Sie praktischer und klarer die Datenfelder umbenennen oder löschen. Notieren Sie, dass Sie auf den Namen des Feldes doppelt klicken sollten, wenn Sie sie umbenennen möchten.

Datenfelder bearbeiten

Wenn Sie auf jeden Deteilslink klicken möchten, um mehr Info zu erhalten, folgen Sie nächsten Schritte bitte.


Schritt 3: Klick auf jeden Link - um in die Detailseiten einzugehen

  • Wählen Sie "Click on link(s) to scrape the linked page(s)" auf die Tipps-Platte.

  • Selektieren Sie "Click on an extracted data field" und wählen Sie danach eines, worauf Sie aus dem Aufklappmenü klicken möchten (Sie können in der Datenvorschau überprüfen, ob es der richtige Link ist).

  • Klicken Sie auf "Confirm" zur Speicherung.

auf jeden Detailslink klicken


Schritt 4: Extract Data - um die Daten auf die Detailseiten zu extrahieren

  • Wählen Sie die gewünschten Daten und klicken Sie danach auf "Extract the text of the element".

_extract the text
  • Klicken Sie doppelt auf den Namen des Feldes, um ihn umzubenennen.

umbenennen

Schritt 5: Erstellen der Wartezeit - um die Geschwindigkeit des Scraping zu verlangsamen

Booking blockiert vielleicht Ihr IP, wenn Sie zu viel Daten scrapen. In diesem Fall sollten wir die Geschwindigkeit des Scraping verändern.

  • Klicken Sie auf "Extract Data1".

  • Kreuzen Sie "Wait before action" an.

  • Stellen Sie sie als 5s-10s ein.

wait before action


Schritt 6: Modifizieren des XPath für Pagination

Der auto-generierte XPath für Pagination lokalisiert wahrscheinlich nicht immer den richtigen Button von "Nächste Seite". Deshalb brauchen wir manuell den XPath modifizieren.

  • Klicken Sie auf "Pagination".

  • Ersetzen Sie den XPath mit: //button[@aria-label="Next page"].

  • Klicken Sie auf "Apply" zur Speicherung.

pagination

TIPP: Überprüfen Sie dieses Tutorial, um mehr über XPath zu lernen: Was ist XPath und wie ihn zu verwenden?


Schritt 7: Starten der Extraktion - um das Task durchzuführen und Daten zu erhalten

  • Klicken Sie auf "Save".

  • Klicken Sie auf "Run" oben rechts.

  • Wählen Sie "Run on your device", um das Task auf Ihrem eigenen Gerät durchzuführen. Oder selektieren Sie "Run task in the Cloud", um das Task in der Cloud durchzuführen.

Save and run

Hier gibt es ein Beispiel-Output:

Beispiel-Output
Hat dies deine Frage beantwortet?