Wenn wir Information der Produkte aus den Websites des E-Commerce scrapen möchten, wollen wir meistens die Daten nicht nur aus der Liste von Suchergebnissen, sondern auch aus jeder Detailseite des Produktes extrahieren. Hier können Sie finden, wie man einen kundenspezifischen Crawler einrichten soll.
Nehmen wir an, wir müssen Blog-Informationen von Octoparse abrufen. Siehe die Beispiel-URL unten:
In diesem Fall möchten wir zuerst die grundlegende Information der Blogs aus den Listenseiten extrahieren, und dann in die Detailseiten gehen, um vollständige Inhalte zu erhalten. Wir haben zwei Methoden zum Scraping dieser Daten.
Methode 1: Erstellung des Workflows bei der automatischen Detektionsfunktion
Diese intelligente Erkennungseigenschaft in Octoparse 8.X ist mächtiger als die frühere Versionen. Wir können es verwenden, um die Websites zu generieren und Zeit zu sparen.
Schritt 1: Klicken Sie auf „Daten der Webseite automatisch detektieren“ im Tipps-Kasten und warten Sie darauf, bis es abgeschlossen ist.
Schritt 2: Wechseln Sie die Optionen zwischen unterschiedlichen Ergebnisse, um Ihre gewünschten Datenfelder zu finden (Ergebnis 1 in diesem Fall).
Schritt 3: Prüfen Sie die Datenfelder in der Datenvorschau und sie umbenennen oder eines löschen, den Sie in der Datenvorschau nicht bekommen möchten.
Wenn wir beliebte Produktslinien wie die oben erwähnte Website suchen, brauchen wir möglicherweise verschiedene Suchergebnisseiten zu navigieren und dann die Daten daraus zu scrapen.
Schritt 4: Klicken Sie auf den Button „Überprüfen“, um zu sehen, ob Octoparse erfolgreich den Button der nächsten Seite lokalisiert.
Schritt 5: Deselektieren Sie „Seiten Scrollen hinzufügen“ und dann klicken Sie auf „Workflow erstellen“.
Octoparse hat nun eine Schleife im Workflow erstellt, mit dem man aus der Suchergebnisseite Daten scrapen kann. Wir würden weiter die Schritte aufbauen, um zur Detailseite zu gehen.
Jetzt hat uns Octoparse zur Detailseite für weitere Datenextraktion gebracht. Wir können die Information scrapen, die wir aus der Seite bekommen möchten.
Schritt 8: Klicken Sie auf jedes Webelement, das Sie scrapen möchten.
Schritt 9: Klicken Sie auf „Text“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.
Methode 2: Manuelle Erstellung des Workflows
Wenn die automatische Detektion für einige Websites fehlschlägt, können wir auch den Workflow manuell einrichten. Hier sind die Schritte:
Schritt 1: Wählen Sie das erste Item auf der Listeseite.
Schritt 2: Klicken Sie auf „Alle ähnlichen Elemente wählen“ in der Tipps-Platte.
Schritt 3: Klicken Sie auf „Text“ unter „Daten extrahieren“.
Ein Loop-Item wurde jetzt bereits dem Workflow hinzugefügt, aber nur der Titel des Produktes wird gescrapt. Wir können andere Felder hinzufügen.
Schritt 4: Wählen Sie beliebige gewünschte Information, um die Daten aus den Ergebnisseiten zu scrapen.
Schritt 5: Wählen Sie „Text“.
Wiederholen Sie die oberen Schritte, um mehr Felder hinzuzufügen.
Dann brauchen wir eine Aktion errichten, um auf die Titel-URL des Productes zu klicken.
Schritt 6: Wählen Sie den ersten Titel auf der Listeseite.
Schritt 7: Klicken Sie auf „Auf Element klicken“.
Sobald wir zur Detailseite gebracht werden, können wir die Information aus den Besonderheiten des Items extrahieren.
Schritt 8: Klicken Sie auf beliebiges gewünschtes Webelement auf, um es zu scrapen.
Schritt 9: Klicken Sie auf „Text“ aus der Tipps-Platte.
Modifizieren Sie die Namen der Datenfelder in der Datenvorschau, indem Sie auf den Feldtitel doppelt klicken.
Klicken Sie auf das Schleifenelement, um zur Listenseiten zu gehen.
Klicken Sie auf den nächsten Button, wählen Sie dann „Auf Element klicken“.
Der endgültige Workflow sollte wie folgend aussehen:
Notiz: Wenn die Website unendliches Scrollen zum Laden mehrerer Items verwendet, können Sie manuell einen Scrollen-Schritt hinzufügen. Einfach klicken Sie auf „+“-Button im Workflow und Schleife auswählen, um es zu erledigen.
Dann welchseln Sie den Schleifenmodus in „Seite scrollen“, und dann klicken Sie auf „Übernehmen“.