Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Groupon ist eine Webseite, die professionelle individuelle Dienste anbietet, einschließlich Klassen, Dienstleistung der Fotografie, lokale Dienste usw.
In diesem Tutorial würden wir Ihnen anzeigen, wie man die Information über Dienstleistung der Fotografie aus Groupon.com scrapen kann.
Um diesem Tutorial zu folgen, sollten Sie wahrscheinlich diese URL benötigen: https://www.groupon.com/browse/chicago?category=personal-services&category2=photography
In der rechten Seitenleiste gibt es die hauptsächlichen Schritte in diesem Tutorial. [Herunterladen der Datei hier]
Schritt 1: Go to Web Page - um die Ziel-Webseite zu öffnen
Geben Sie auf der Startseite die URL ein und klicken Sie dann auf "Start".
Schritt 2: Klick auf "X" - um die Anzeigen zu schließen
Klicken Sie auf "x", was in der oben rechten Ecke von der Anzeige liegt.
Klicken Sie dann auf "Click element" in der Tipps-Platte.
Schritt 3: Starten von Auto-Detektion - um einen Workflow zu generieren
Klicken Sie auf "Auto-detect web page data" in der Tipps-Platte.
Warten Sie, bis die Detektion abgeschlossen ist.
Klicken Sie doppelt auf die Datenfelder, um die Daten-Dateien umzubenennen oder die ungewünschten Felder zu löschen.
Kreuzen Sie "Add a page scroll" nicht an.
Klicken Sie auf "Create workflow".
Schritt 4: Klicken auf den Link - um in die Detailseiten einzugehen
Wählen Sie "Click on link(s) to scrape the linked page(s)".
Wählen Sie den Titel-URL-Feld.
Klicken Sie auf "Confirm".
Schritt 5: Extract Data - um die Daten zum Scraping auszuwählen
Klicken Sie auf die gewünschten Daten.
Nachdem alle ausgewählten Daten in Grün hervorgehoben waren, klicken Sie auf "> Extract data" auf dem Tipps-Kasten.
Bearbeiten Sie den Feldnamen, indem Sie doppelt darauf klicken.
Der endgültige Workflow wird wie folgend aussehen:
Schritt 6: Erneute Beschreibung des XPath - um genau das Element zu lokalisieren
Um genauer die gewünschten Daten zu lokalisieren und zu vermeiden, Daten zu verlieren, sollten die XPath für Starten und Bewertung modifiziert werden.
Verwechseln Sie die Datenvorschaumodus in vertikale Vorschau und geben Sie folgende XPath ein:
//span[@id="numerical-rating"] >> star field
//span[@class="star-rating-text"]>> rating field
Schritt 7: Ausführung des Tasks - um die gewünschten Daten zu erhalten
Klicken Sie zuerst auf "Save"-Button, um alle Einstellungen zu speichern, die Sie gemacht haben.
Dann klicken Sie auf "Run", um Ihr Task in der Lokale oder in der Cloud auszuführen.
Wählen Sie "Run on your device" und klicken Sie danach auf "Run now", um Ihr Task auf Ihrem eigenen Gerät durchzuführen.
Warten Sie, bis Ihr Task abgeschlossen ist.
Folgend ist ein Beispiel-Output aus einer lokalen Ausführung. Excel-, CSV-, HTML- und JSON-Datei sind für Export unterstützt.