Zum Hauptinhalt springen

Scraping der Information aus Groupon

Vor über 2 Jahren aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Groupon ist eine Webseite, die professionelle individuelle Dienste anbietet, einschließlich Klassen, Dienstleistung der Fotografie, lokale Dienste usw.

In diesem Tutorial würden wir Ihnen anzeigen, wie man die Information über Dienstleistung der Fotografie aus Groupon.com scrapen kann.

Groupon.com

Um diesem Tutorial zu folgen, sollten Sie wahrscheinlich diese URL benötigen: https://www.groupon.com/browse/chicago?category=personal-services&category2=photography

In der rechten Seitenleiste gibt es die hauptsächlichen Schritte in diesem Tutorial. [Herunterladen der Datei hier]


Schritt 1: Go to Web Page - um die Ziel-Webseite zu öffnen

  • Geben Sie auf der Startseite die URL ein und klicken Sie dann auf "Start".

start.png


Schritt 2: Klick auf "X" - um die Anzeigen zu schließen

  • Klicken Sie auf "x", was in der oben rechten Ecke von der Anzeige liegt.

  • Klicken Sie dann auf "Click element" in der Tipps-Platte.

Anzeige schließen


Schritt 3: Starten von Auto-Detektion - um einen Workflow zu generieren

  • Klicken Sie auf "Auto-detect web page data" in der Tipps-Platte.

  • Warten Sie, bis die Detektion abgeschlossen ist.

AUTODETACT
  • Klicken Sie doppelt auf die Datenfelder, um die Daten-Dateien umzubenennen oder die ungewünschten Felder zu löschen.

Datenfelder bearbeiten
  • Kreuzen Sie "Add a page scroll" nicht an.

  • Klicken Sie auf "Create workflow".

create workflow

Schritt 4: Klicken auf den Link - um in die Detailseiten einzugehen

  • Wählen Sie "Click on link(s) to scrape the linked page(s)".

click on links
  • Wählen Sie den Titel-URL-Feld.

  • Klicken Sie auf "Confirm".

Titel-Feld auswählen

Schritt 5: Extract Data - um die Daten zum Scraping auszuwählen

  • Klicken Sie auf die gewünschten Daten.

  • Nachdem alle ausgewählten Daten in Grün hervorgehoben waren, klicken Sie auf "> Extract data" auf dem Tipps-Kasten.

extract data
  • Bearbeiten Sie den Feldnamen, indem Sie doppelt darauf klicken.

Feld bearbeiten

Der endgültige Workflow wird wie folgend aussehen:

workflow


Schritt 6: Erneute Beschreibung des XPath - um genau das Element zu lokalisieren

Um genauer die gewünschten Daten zu lokalisieren und zu vermeiden, Daten zu verlieren, sollten die XPath für Starten und Bewertung modifiziert werden.

Verwechseln Sie die Datenvorschaumodus in vertikale Vorschau und geben Sie folgende XPath ein:

  • //span[@id="numerical-rating"] >> star field

  • //span[@class="star-rating-text"]>> rating field

XPath eingeben

Schritt 7: Ausführung des Tasks - um die gewünschten Daten zu erhalten

  • Klicken Sie zuerst auf "Save"-Button, um alle Einstellungen zu speichern, die Sie gemacht haben.

  • Dann klicken Sie auf "Run", um Ihr Task in der Lokale oder in der Cloud auszuführen.

save and run
  • Wählen Sie "Run on your device" und klicken Sie danach auf "Run now", um Ihr Task auf Ihrem eigenen Gerät durchzuführen.

  • Warten Sie, bis Ihr Task abgeschlossen ist.

Folgend ist ein Beispiel-Output aus einer lokalen Ausführung. Excel-, CSV-, HTML- und JSON-Datei sind für Export unterstützt.

Beispiel-Output
Hat dies deine Frage beantwortet?