Zum Hauptinhalt springen

Scraping der Jobdaten von Monster

Vor über 2 Jahren aktualisiert

Monster.de ist eine Online-Stellenportale, was für Arbeitssuchenden und Arbeitgeber unterschiedliche Arbeiten anbieten. Man kann bei Monster.de durch Eingabe der Schlüsselwörter wie Jobtitel und Ort gewünschten Joblisten finden. In diesem Tutorial würden wir Ihnen anzeigen, wie man Stellenangebote von der Liste aus Monster scrapen kann.

Prüfen Sie bitte die folgenden Schritte, wenn Sie wissen möchten, wie man von Anfang an mit Octoparse ein Task erstellen kann. Wir würden die folgende URL verwenden, um die Daten wie Titel, Standort, Öffnungszeit, Anbieter usw. scrapen.

In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial.


Schritt 1: „Go to Web Page“ - um die Ziel-Webseite zu öffnen

  • Geben Sie die Beispiel-URL in den Kasten auf der Startseite ein.

  • Dann klicken Sie auf „Start“, um in die Seite einzugehen.


Schritt 2: Cookies akzeptieren - um die weiteren Schritte einzustellen

  • Klicken Sie auf „Cookies“ auf die Webseite, um die weiteren Shcritte anzupassen.

  • Dann wählen Sie „Click button“ Schritt.

  • Nachdem ein Schritt davon erstellt wird, stellen Sie Wartezeit und AJAX-Timeout unter „Options“ für diesen Schritt ein, um nicht blokiert zu werden.

  • Klicken Sie auf „Apply“ zur Speicherung.

Einstellung unter Options


Schritt 3: Verwendung der Auto-Detektionsfunktion - um einen Workflow zu erstellen

  • Klicken Sie auf „Auto-detect webpage data“ in der oben rechten Ecke, damit man automatisch einen Workflow erhalten kann.

  • Nach der automatischen Detektion würden einige Optionen erscheinen. Hier kreuzen Sie diese Option „Add a page scroll“ nicht an. Danach wird ein Workflow mit „Loop Item“ erstellt.

  • Klicken Sie auf „Create workflow“.

Auto detect
  • Wählen Sie den Schritt vom „Loop Item“ und geben Sie den XPath zur Erstellung des Ursprüngliches ein, um genau die Liste zu lokalisieren: //div[@id="JobCardGrid"]/ul/li//article.

Matching XPath

Außerdem sollte man hier einen Schritt für Wartezeit bei „Extract Data“ einstellen, um bei diesem Schritt genuge Zeit zu verlassen, dass alle Daten gescrapt werden.

  • Wählen Sie den Schritt vom „Extract Data“ und wechseln Sie die Platte als „Options“.

  • Kreuzen Sie die Option vom „Wait before action“ an und stellen Sie die Wartezeit als 1s ein.

Wartezeit vom Extract Data


Schritt 4: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen

Gehen Sie zur „Data preview“, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.

  • Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.

  • Wenn Sie den Namen eines Felder umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.


Schritt 5: Erstellung eines partiellen Scrollen - um Seiten wiederholend zu scrollen

Weil der Teil vom Scrollen auf diese Webseite nicht fest ist, müssen wir hier einen Schritt über partielles Scrollen einstellen.

  • Klicken Sie auf „+“ Zeichen im Workflow.

  • Wählen Sie „Loop“ in die Liste, um ein Loop-Item im Workflow einzustellen.

Loop Item
  • Wählen Sie diesen Loop-Schritt und stellen Sie die Optionen unter „General“ ein.

  • Selektieren Sie dem Loop-Modus als „Scroll Page“, um die Seite wiederholend zu scrollen, weil diese Webseite unendliches Scrollen verwendet.

  • Wechseln Sie den Scroll-Bereich in „Partial“, weil nur die Liste scrollen benötigt.

  • Geben Sie den Matching-XPath in den Kasten ein, um den richtigen Bereich von Scrollen zu lokalisieren: //div[@id="card-scroll-container"].

scroll page
  • Wählen Sie den Modus vom Scroll als „for one screen“, damit wird Octoparse jedesmal nur für einen Screen scrollen und die Daten scrapen. Die Anzahl der Wiederholungen können Sie nach Bedarf manuell einstellen.

  • Stellen Sie die Wartezeit hier als „0.5s“ ein.

  • Klicken Sie auf „Apply“ zur Speicherung.

  • Ziehen Sie den Extract-Schritt in den Kasten vom Scroll-Schritt.


Schritt 6: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten

  • Klicken auf „Save“.

  • Klicken auf „Run“.

  • Wählen „Run on your device“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Start
Hat dies deine Frage beantwortet?