Scraping der Jobdaten von Monster

Monster.de ist eine Online-Stellenportale, was für Arbeitssuchenden und Arbeitgeber unterschiedliche Arbeiten anbieten. Man kann bei Monster.de durch Eingabe der Schlüsselwörter wie Jobtitel und Ort gewünschten Joblisten finden. In diesem Tutorial würden wir Ihnen anzeigen, wie man Stellenangebote von der Liste aus Monster scrapen kann.

Prüfen Sie bitte die folgenden Schritte, wenn Sie wissen möchten, wie man von Anfang an mit Octoparse ein Task erstellen kann. Wir würden die folgende URL verwenden, um die Daten wie Titel, Standort, Öffnungszeit, Anbieter usw. scrapen.

https://www.monster.de/jobs/suche?q=manager&where=berlin&page=1&so=m.h.s

In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial.

Schritt 1: „Go to Web Page“ - um die Ziel-Webseite zu öffnen

Geben Sie die Beispiel-URL in den Kasten auf der Startseite ein.
Dann klicken Sie auf „Start“, um in die Seite einzugehen.

Schritt 2: Cookies akzeptieren - um die weiteren Schritte einzustellen

Klicken Sie auf „Cookies“ auf die Webseite, um die weiteren Shcritte anzupassen.
Dann wählen Sie „Click button“ Schritt.

Nachdem ein Schritt davon erstellt wird, stellen Sie Wartezeit und AJAX-Timeout unter „Options“ für diesen Schritt ein, um nicht blokiert zu werden.
Klicken Sie auf „Apply“ zur Speicherung.

Schritt 3: Verwendung der Auto-Detektionsfunktion - um einen Workflow zu erstellen

Klicken Sie auf „Auto-detect webpage data“ in der oben rechten Ecke, damit man automatisch einen Workflow erhalten kann.

Nach der automatischen Detektion würden einige Optionen erscheinen. Hier kreuzen Sie diese Option „Add a page scroll“ nicht an. Danach wird ein Workflow mit „Loop Item“ erstellt.
Klicken Sie auf „Create workflow“.

Wählen Sie den Schritt vom „Loop Item“ und geben Sie den XPath zur Erstellung des Ursprüngliches ein, um genau die Liste zu lokalisieren: //div[@id="JobCardGrid"]/ul/li//article.

Außerdem sollte man hier einen Schritt für Wartezeit bei „Extract Data“ einstellen, um bei diesem Schritt genuge Zeit zu verlassen, dass alle Daten gescrapt werden.

Wählen Sie den Schritt vom „Extract Data“ und wechseln Sie die Platte als „Options“.
Kreuzen Sie die Option vom „Wait before action“ an und stellen Sie die Wartezeit als 1s ein.

Schritt 4: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen

Gehen Sie zur „Data preview“, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.

Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.

Wenn Sie den Namen eines Felder umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.

Wenn es an Ihrem gewünschten Datenfeld fehlt, können Sie manuell es auswählen und scrapen. Mehr Details über „Extract data“ und Beschreibung von XPath können Sie hier lernen und ansehen:
- Funktionvorstellung von „Extract data“ und Elemente
- Was ist XPath und wie ihn zu verwenden?

Schritt 5: Erstellung eines partiellen Scrollen - um Seiten wiederholend zu scrollen

Weil der Teil vom Scrollen auf diese Webseite nicht fest ist, müssen wir hier einen Schritt über partielles Scrollen einstellen.

Klicken Sie auf „+“ Zeichen im Workflow.
Wählen Sie „Loop“ in die Liste, um ein Loop-Item im Workflow einzustellen.

Wählen Sie diesen Loop-Schritt und stellen Sie die Optionen unter „General“ ein.
Selektieren Sie dem Loop-Modus als „Scroll Page“, um die Seite wiederholend zu scrollen, weil diese Webseite unendliches Scrollen verwendet.
Wechseln Sie den Scroll-Bereich in „Partial“, weil nur die Liste scrollen benötigt.
Geben Sie den Matching-XPath in den Kasten ein, um den richtigen Bereich von Scrollen zu lokalisieren: //div[@id="card-scroll-container"].

Wählen Sie den Modus vom Scroll als „for one screen“, damit wird Octoparse jedesmal nur für einen Screen scrollen und die Daten scrapen. Die Anzahl der Wiederholungen können Sie nach Bedarf manuell einstellen.
Stellen Sie die Wartezeit hier als „0.5s“ ein.
Klicken Sie auf „Apply“ zur Speicherung.

Ziehen Sie den Extract-Schritt in den Kasten vom Scroll-Schritt.

Schritt 6: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten

Klicken auf „Save“.
Klicken auf „Run“.
Wählen „Run on your device“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Verwandte Artikel

Scraping der Daten von Google Play

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Jobinfo von Indeed (V8.4)

Scraping der Listendaten von XING

Scraping der Nachrichten von Bild.de