In diesem Tutorial würden wir Ihnen anzeigen, wie man die Hotelinfo von Booking.com scrapen kann.
Eigentlich können Sie zuerst unsere vorgestellten Templates verwenden, um Ihre Zeit zu sparen. Mit dieser Funktion brauchen Sie die Scraping-Tasks nicht konfigurieren. Für weitere Details können Sie hier sehen: Aufgabenvorlagen.
Wenn Sie wissen möchten, wie man von Anfang an ein Task erstellen kann, können Sie die folgenden Anleitungen weiter lesen.
Wir würden mit Octoparse die Daten wie Hotelnamen, Bilder, Adressen, Beschreibungen, Geschäfte, Bewertungen und Kundenbewertungen scrapen.
In der rechten Seitenleiste gibt es die hauptsächlichen Schritte in diesem Tutorial. [Herunterladen der Datei hier]
Schritt 1: Go to Web Page - um die Ziel-Webseite zu öffnen
Schritt 2: Auto-Detect der Webseite - um einen Workflow zu erstellen
Klicken Sie auf "Auto-detect web data" und kreuzen Sie "Add a page scroll" nicht an, um einen Workflow zu erstellen.
Passen Sie die Reihenfolge der Felder an, wie Sie wünschen.
Dann können Sie die Felder umbenennen oder löschen.
Mit Octoparse 8.4 ist es ganz praktisch, nach der Auto-Detektion die ungewünschten Datenfelder zu löschen. Klicken Sie auf "Vertikale Aussicht"-Icon, um den Aussichtsmodus zu verändern. Danach können Sie praktischer und klarer die Datenfelder umbenennen oder löschen. Notieren Sie, dass Sie auf den Namen des Feldes doppelt klicken sollten, wenn Sie sie umbenennen möchten.
Wenn Sie auf jeden Deteilslink klicken möchten, um mehr Info zu erhalten, folgen Sie nächsten Schritte bitte.
Schritt 3: Klick auf jeden Link - um in die Detailseiten einzugehen
Wählen Sie "Click on link(s) to scrape the linked page(s)" auf die Tipps-Platte.
Selektieren Sie "Click on an extracted data field" und wählen Sie danach eines, worauf Sie aus dem Aufklappmenü klicken möchten (Sie können in der Datenvorschau überprüfen, ob es der richtige Link ist).
Klicken Sie auf "Confirm" zur Speicherung.
Schritt 4: Extract Data - um die Daten auf die Detailseiten zu extrahieren
Wählen Sie die gewünschten Daten und klicken Sie danach auf "Extract the text of the element".
Klicken Sie doppelt auf den Namen des Feldes, um ihn umzubenennen.
Schritt 5: Erstellen der Wartezeit - um die Geschwindigkeit des Scraping zu verlangsamen
Booking blockiert vielleicht Ihr IP, wenn Sie zu viel Daten scrapen. In diesem Fall sollten wir die Geschwindigkeit des Scraping verändern.
Klicken Sie auf "Extract Data1".
Kreuzen Sie "Wait before action" an.
Stellen Sie sie als 5s-10s ein.
Schritt 6: Modifizieren des XPath für Pagination
Der auto-generierte XPath für Pagination lokalisiert wahrscheinlich nicht immer den richtigen Button von "Nächste Seite". Deshalb brauchen wir manuell den XPath modifizieren.
Klicken Sie auf "Pagination".
Ersetzen Sie den XPath mit: //button[@aria-label="Next page"].
Klicken Sie auf "Apply" zur Speicherung.
TIPP: Überprüfen Sie dieses Tutorial, um mehr über XPath zu lernen: Was ist XPath und wie ihn zu verwenden? |
Schritt 7: Starten der Extraktion - um das Task durchzuführen und Daten zu erhalten
Klicken Sie auf "Save".
Klicken Sie auf "Run" oben rechts.
Wählen Sie "Run on your device", um das Task auf Ihrem eigenen Gerät durchzuführen. Oder selektieren Sie "Run task in the Cloud", um das Task in der Cloud durchzuführen.
Hier gibt es ein Beispiel-Output: