Die Bundesagentur für Arbeit erbringt als Bundesagentur Leistungen für den Arbeitsmarkt, insbesondere die Arbeitsvermittlung sowie die Arbeitsförderung. Normalerweise wird die Website kurz Arbeitsagentur genannt. Darauf gibt es zahlreiche Jobs, um alle zu helfen. In diesem Tutorial können Sie lernen, wie man nach URLs die Listendaten mit Octoparse scrapen kann.
Zuerst können Sie die entsprechenden Keywords auf die Website einfügen und dann die Suchergebnisse-URL(s) kopieren, um später den automatischen Workflow in Octoparse einzurichten. Folgend ist die Beispiel-URL, die in diesem Tutorial verwendet wird:
In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial.
Schritt 1: „Zur Webseite“ - um die Ziel-Webseite zu öffnen
Geben Sie die Beispiel-URL in den Kasten auf der Startseite ein.
Dann klicken Sie auf „Starten“, um in die Seite einzugehen.
Schritt 2: Manuell „Alle Zulassen“ anklicken - um dann Schritte einzurichten
Klicken Sie auf „Alle zulassen“, um das Cookie-Fenster zu schließen.
Dann wird die Platte ganz und voll angezeigt, um den Workflow weiter zu erstellen.
Notiz: Während des Scrapings wird das Fenster nicht automatisch geschlossen, Sie können dazwischen den Browser-Modus öffnen und manuell es schließen. Die Tatsache, dass es während der Laufzeit nicht ausgeschaltet ist, hat keinen Einfluss auf die Datenerfassung, so dass es während der Laufzeit ignoriert werden kann.
Schritt 3: Schleife erstellen und Daten extrahieren - um jedes Item zu lokalisieren
Klicken Sie auf ein beliebiges Item auf das Listing.
Wählen Sie „Alle änhlichen Elemente wählen“. Die ausgewählten Items werden in Grün kenngezeichnet.
Klicken Sie auf das gewünschtes Format unter Tipps-Platte.
Verwenden Sie bitte diesen Matching-XPath für das Schleifenelement: //a[contains(@class,"ergebnisliste-item")]. Wenn eine Pagination später erstellt wird, kann der ursprüngliche XPath nur den ersten 25 Items lokalisieren.
Wenn Sie noch andere Felder auf das Listing scrapen möchten, einfach darauf klicken und das entsprechendes Format unter „Daten extrahieren“ von Tipps-Platte wählen.
Schritt 4: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen
Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.
Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.
Wenn Sie den Namen eines Feldes umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.
Wenn es an Ihrem gewünschten Datenfeld fehlt, können Sie manuell es auswählen und scrapen. Mehr Details über „Extract data“ und Beschreibung von XPath können Sie hier lernen und ansehen:
Schritt 5: Pagination erstellen - um wiederholend Items zu laden
Scrollen Sie manuell die Seite nach unten, finden Sie den Button von „Weitere Ergebnisse“ und klicken Sie darauf.
Wählen Sie „Schleife klicken“, um eine Pagination automatisch zu erstellen.
Nach Bedarf stellen Sie die Wartezeit und das AJAX-Timeout für Klick-Schritt ein, um genuge Zeit laden zu lassen.
Schritt 6: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten
Klicken Sie auf „Speichern“.
Klicken Sie auf „Starten“.
Wählen Sie „Auf Ihrem Gerät ausführen“, um das Task mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „In der Cloud ausführen“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).
Link von DEMO
Bekommen Sie hier die Beispiel-Aufgabe: https://www.octoparse.de/share/4otcCXli