XING ist eine Plattform für Geschäftsnetzwerke überwiegend im deutschsprachigen Raum, was zahlreiche Jobsdaten anbietet. Die Mitglieder*innen können darauf vorrangig ihre beruflichen Kontakte verwalten. Man kann bei XING durch Eingabe der Schlüsselwörter einfache Jobdaten bekommen. In diesem Tutorial würden wir Ihnen anzeigen, wie man Stellenangebote von der Liste aus XING einfach scrapen kann.
Prüfen Sie bitte die folgenden Schritte, wenn Sie wissen möchten, wie man von Anfang an mit Octoparse ein Task erstellen kann. Wir würden die folgende URL verwenden, um die Daten wie Titel, Standort, Öffnungszeit, Beschreibung usw. scrapen.
In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Im Anhang laden Sie die Datei herunter]
Schritt 1: „Go to Web Page“ - um die Ziel-Webseite zu öffnen
Geben Sie die Beispiel-URL in den Kasten auf der Startseite ein.
Dann klicken Sie auf „Start“, um in die Seite einzugehen.
Schritt 2: Verwendung der Auto-Detektionsfunktion - um einen Workflow zu erstellen
Klicken Sie auf „Auto-detect webpage data“ in der oben rechten Ecke, damit man automatisch einen Workflow erhalten kann.
Nach der automatischen Detektion würden einige Optionen erscheinen. Hier kreuzen Sie diese Option „Add a page scroll“ nicht an. Danach wird ein Workflow mit „Loop Item“ erstellt.
Klicken Sie auf „Create workflow“.
Schritt 3: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen
Gehen Sie zur „Data preview“, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.
Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.
Wenn Sie den Namen eines Felder umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.
Wenn es an Ihrem gewünschten Datenfeld fehlt, können Sie manuell es auswählen und scrapen. Mehr Details über „Extract data“ und Beschreibung von XPath können Sie hier lernen und ansehen:
Schritt 4: Erstellung einer Paginierung - um Seiten wiederholend zu scrollen
Scrollen Sie nach unten auf diese Webseite.
Wählen Sie den Button von „Nächste“ und dann klicken Sie auf „Loop click“, um eine Paginierung einzustellen. Damit kann man wiederholend die Daten aus allen Seiten scrapen.
Wählen Sie den Schritt von Pagination und dann gehen Sie in den Teil von „General“. Hier müssen Sie den Matching-XPath verändern, weil der automatisch detektierte XPath nicht genau den Button lokalisiert hat. Verwenden Sie diesen XPath zur Ersetzung ursprüngliches XPaths: //ol[@class="sc-2wok21-0 fRwxsz"]/li[position()=last()].
Klicken Sie auf „Apply“ zur Speicherung.
Schritt 5: Einstellung der Wartezeit - um die Geschwindigkeit des Scraping zu verlangsamen
Das Prinzip von Octoparse ist eigentlich es, dass Octoparse dem Verhalten der Menschheit nachahmt und damit einen Workflow erstellt, um den Prozess zu automatisieren.
Man muss beachten, dass Wartezeit und AJAX-Timeout über jeden Schritt von Klick eingestellt werden muss. Auf diese Weise erhält Octoparse damit mehr Zeit zum Laden der Seite und wird garantiert nicht von der Seite blockiert.
Wählen Sie den Schritt von „Click to Pagination“.
Geben Sie den Matching-XPath in den Kasten ein: /a. Dann klicken Sie auf „Apply“ zur Speicherung.
Wechseln Sie die Platte in den Teil von „Options“ und dann stellen Sie Wartezeit als 3s und AJAX-Timeout als 7s ein.
Klicken Sie auf „Apply“ zur Speicherung Ihrer Einstellungen.
Schritt 6: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten
Klicken auf „Save“.
Klicken auf „Run“.
Wählen „Run on your device“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).
Hier sind die Beispieldaten.