Scraping der Jobdetails von XING

XING ist eine Plattform für Geschäftsnetzwerke überwiegend im deutschsprachigen Raum, was zahlreiche Jobsdaten anbietet. Vorher haben wir schon gelernt, wie man die Daten aus der Liste von XING scrapen kann. Weil die Infos auf die Detailseiten nicht direkt bei einem Liste-Scraping lokalisiert werden, kann man keine Jobsinfos auf die Detailseiten weiter scrapen. Damit müssen wir anhand von den URLs aus dem Scraping von Liste einen Web Scraper über Detailseiten erstellen.

Prüfen Sie bitte die folgenden Schritte, wenn Sie wissen möchten, wie man von Anfang an mit Octoparse ein Task erstellen kann. Wir würden die folgende URLs verwenden, um die Daten wie Titel, Bewertung, Typ, Branche usw. scrapen.

https://www.xing.com/jobs/berlin-web-designer-101950351

https://www.xing.com/jobs/berlin-product-managerin-product-manager-ecommerce-tracking-app-web-102266277

https://www.xing.com/jobs/berlin-erfahrener-java-entwickler-backend-web-microservices-ci-cd-docker-scrum-60-ho-mwd-102257954

https://www.xing.com/jobs/berlin-java-entwickler-backend-web-microservices-ci-cd-docker-scrum-60-ho-mwd-102258004

In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Im Anhang laden Sie die Datei herunter]

Schritt 1: „Loop URLs“ - um eine Schleife von Ziel-Webseiten zu erstellen

Es gibt hier zwei Methoden zur Eingabe der URLs.

Methode 1: Auf die Startseite eingeben

Geben Sie alle Beispiel-URLs in den Kasten auf die Startseite ein.
Dann klicken Sie auf „Start“, um eine Schleife mit URLs zu erstellen.

Methode 2: Verwendung von „Custom Task“

Bewegen Sie Ihrem Mauszeiger über den Button „+“, was links unter Ihrem Avatar liegt.
Klicken Sie auf „Custom Task“.

Geben Sie die URLs in den Kasten ein und klicken Sie auf „Save“, um eine Schleife mit URLs zu erstellen.

Jetzt wird ein URLs-Loop automatisch erstellt.

Schritt 2: Hinzufügen eines Schrittes von „Click Item“ - um die Cookies zu akzeptieren

Klicken Sie „Akzeptieren“ auf die Seite.
Dann klicken Sie auf „Click element“, um einen Schritt von „Click Item“ automatisch zu erstellen.

Nach der Erstellung des Schrittes stellen Sie dafür im Teil von „Options“ Wartezeit als 3s und AJAX-Timeout als 7s ein.

Schritt 3: „Extract data“ - um die gewünschten Daten zu scrapen

Wählen Sie die gewünschte Element auf die Wenseite aus, um die Daten zu bekommen. Hier stellen wir Text vom Titel als ein Beispiel ein.

Klicken Sie auf den Titel auf die Seite und dann wählen Sie „Text“ im Teil von „Extract data“.
Ein Datenfeld mit Titel wird in der Datenvorschau angezeigt.

Scrapen Sie alle gewünschten Datenfelder wie oben genannte Methode.

Schritt 4: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen

Nach dem Scraping können Sie diese Datenfelder umbenennen, reinigen oder bearbeiten.

Klicken Sie doppelt auf den Titel jedes Datenfeldes, um es umzubenennen.

Klicken Sie auf das oben rechts „⋮“ Zeichen, um die gescrapten Felder zu bearbeiten.

Schritt 5: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten

Klicken auf „Save“.
Klicken auf „Run“.
Wählen „Run on your device“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind die Beispieldaten.

Scraping der Jobdetails von XING.otd

Verwandte Artikel