Im Tutorial, wie man die Listendaten aus Arbeitsagentur scrapt, bekommen wir die Methode zum Scraping der grundlegenden Informationen von Bundesagentur für Arbeit. Wenn Sie noch mehr Detaildaten auslesen möchten, sehen Sie bitte dieses Tutorial.
Zwei Methoden zum Scraping von Detaildaten
Es gibt zusammen zwei Methoden zum Scraping von Detailseiten:
Mit den gescrapten URLs von Listing Scraper direkt eine URLs-Schleife erstellen, um Details auszulesen
Einen Klick-Schritt zum Listing-Scraper hinzufügen, um in einer Aufgabe sowohl Listendaten als auch Detaildaten zu scrapen
Durch die erste Methode muss man zwei Aufgaben erstellen, aber die Geschwindigkeit des Scrapings wird schneller sein und der Crawler wird stabiler sein. Die zweite Methode kann alle Daten einmal scrapen, was jedoch nur für die Websites geeignet ist, die nicht starke Anti-Scraping-Technik verwenden.
Methode 1: Neue Aufgabe erstellen
Man hat durch Listing-Scraper zahlreiche Links von allen Items bekommen. Mit gescrapten URLs kann ein Detail-Scraper direkt erstellt.
Hier ist das Tutorial über Listing-Scraper: https://helpcenter.octoparse.com/de/articles/9530880
Folgen Sie bitte den Schritte zur Erstellung einer neuen Aufgabe über Detail-Scraping.
Schritt 1: Kopieren Sie alle URLs - um eine Schleife zu erstellen
Bewegen Sie sich Ihren Mauszeiger auf „Neu“.
Wählen Sie „Benutzerdefinierte Aufgabe“.
Wählen Sie einen Eingabe-Modus, um die URLs einzugeben, sowohl „Manuell eingeben“ als auch „Aus Datei importieren“ ist in Ordnung.
Hier nenne ich „Manuell eingeben“ als Beispiel. Kopieren Sie alle URLs und danach fügen Sie sie in den Kasten ein.
Klicken Sie auf „Speichern“.
Schritt 2: Daten extrahieren - um Daten zu scrapen
Klicken Sie auf das gewünschtes Element, nachdem die Seite geladen ist.
Nach Bedarf können Sie in der Datenvorschau die Datenfelder bearbeiten, umbenennen, löschen oder reinigen.
Jetzt wird die Aufgabe erfolgreich erstellt! Es ist ganz so einfach, oder?
Sehen wir zusammen ein Beispiel-Scraping:
Link von DEMO
Hier ist der Beispiel-Link zum Download: https://www.octoparse.de/share/xMoRjuxG
Methode 2: Sowohl Listing als auch Detail Scraping
Sie können direkt neuen Schritt zum Listing-Scraper hinzufügen, um auf jede Detailseite zu klicken. Nachdem die Detailseite angezeigt wird, können wir weiter die Daten aus Detailseiten scrapen.
Die folgenden Erfassungsschritte werden auf dem Listing-Scraper fortgesetzt, der die Daten von der Listenseite sammelt. Bitte gehen Sie in das Tutorial, um die vorangegangenen Schritte zu sehen.
Schritt 1: Auf Element klicken - um in jede Detailseite einzugehen
Wählen Sie zunächst den Schritt „Daten Scrapen“.
Klicken Sie auf einen beliebigen Titel auf das Listing.
Wählen Sie „Auf Element klicken“, um wiederholend jeden Titel anzuklicken.
Löschen Sie den Matching-XPath vom Schritt, in der Schleife verwendten wir schon ein A-Tag-Element.
Schritt 2: Wartezeit und AJAX anpassen - um Seite genuge Zeit laden zu lassen
Wechseln Sie die Platte des Schrittes in „Optionen“.
Passen Sie das AJAX-Timeout und die Wartezeit in eine anpassende Anzahl an, so dass jede Detailseite genuge Zeit hat, um die Information anzuzeigen, und das Verhalten wie menschliches aussieht. Hier stelle ich Wartezeit als 1s und AJAX als 5s ein.
Schritt 3: Daten extrahieren - um Daten aus Detailseiten zu erhalten
Wählen Sie das gewünschte Datenfeld zu scrapen, einfach darauf klicken und Format aus Tipps-Platte auswählen.
Danach wird ein Schritt „Daten Scrapen“ automatisch erstellt.
Schritt 4: Workflow zusammenfassen - um alle Items durchzulaufen
Ziehen Sie das Schleifenelement heraus, sonst wird der Crawler viele Duplikaten scrapen.
Jetzt wird der Workflow gut eingerichtet. Starten Sie Ihr Scraping und bekommen einfach die Daten!
Link von Demo
Hier ist der Beispiel-Link zum Download: https://www.octoparse.de/share/WJso80jT