LinkedIn ist eine gute Datenbank, um wertvolle Job-Informationen zu finden. In diesem Tutorial erfahren Sie, wie man die Job-Infos von LinkedIn.com extrahieren kann.
Um diesem Tutorial zu folgen, können Sie diesen Link als Beispiel verwenden:
Wir würden die Daten wie Jobtitel, Unternehmen, Typ, Funktionen und Industrie in Octoparse scrapen.
Die Website verwendet einen unendlichen Bildlauf in Verbindung mit einer „Mehr anzeigen“-Funktion, um weitere Bewertungen zu laden. Nachdem wir etwa sechs Mal bis zum Ende der Seite gescrollt haben, wird eine „Mehr anzeigen“-Schaltfläche angezeigt. Wenn wir weitere Stellenangebote laden möchten, müssen wir auf diese Schaltfläche klicken.
Die hauptsächlichen Schritte sind im Menü auf der rechten Seite aufgeführt.
[Bekommen Sie die Demo-Aufgabe hier]
Schritt 1: „Zur Webseite” - um die Ziel-Webseite zu öffnen
Geben Sie die URL auf der Startseite ein und klicken Sie auf „Starten”.
Schritt 2: Anmelden bei Ihrem LinkedIn-Konto
Da Sie sich bei LinkedIn zuerst anmelden müssen, bevor Sie auf die Stellenangebote zugreifen können, müssen wir uns anmelden und die Cookies speichern.
Öffnen Sie bitte den Browser-Modus.
Melden Sie sich bei Ihrem LinkedIn-Konto unter dem intergrierten Modus an.
Schließen Sie den Browser-Modus ab.
Gehen Sie zur „Optionen“.
Kreuzen Sie „Cookies verwenden“ an.
Wählen Sie „Verwenden Sie Cookies aus dieser aktuellen Seite“.
Klicken Sie auf „Übernehmen“ zur Speicherung.
Schritt 3: Scrollen-Einstellung hinzufügen - um nach unten zu scrollen
Da die Webseite zum Laden weiterer Stellenangebote nach unten gescrollt werden muss, müssen Sie für „Zur Webseite“ Scroll-Einstellungen vornehmen.
Klicken Sie auf „Zur Webseite”.
Klicken Sie auf „Optionen”.
Wählen Sie dann „Scrollen Sie die Seite nach unten, nachdem sie geladen wird.”
Geben Sie diesen Matching-XPah ein: //*[@id="main"]/div/div[2]/div[1]/div
Wählen Sie die Option „nur einen Bildschirm” und stellen Sie die Werte von der Anzahl des Scrollen und Wartezeit ein.
Klicken Sie auf „Übernehmen”.
Schritt 4: Automatische Detektion - um einen Workflow zu erstellen
Klicken Sie auf „Daten der Webseite automatisch detektieren”.
Warten Sie, bis die Detektion abgeschlossen ist.
Kreuzen Sie „Klicken Sie auf einen Mehr Laden Button“ unter Tipps-Platte nicht an.
Klicken Sie auf „Workflow erstellen“.
Schritt 5: Klicken auf jeden Link - um mehr detaillierte Information zu erhalten
Wenn Sie die Jobdetials aus jeder Jobartikel scrapen möchten, müssen Sie auf jede Job-URL klicken, um die Detialseite zu laden.
Klicken Sie auf den ersten Jobtitel.
Wählen Sie „Auf Element klicken“.
Bitte beachten Sie, dass A-Tag in diesem Schritt ausgewählt werden muss, um den Link richtig zu lokalisieren.
Richten Sie das AJAX-Timeout als 10s ein.
Schritt 6: Daten extrahieren - um die Daten für Extraktion zu scrapen
Klicken Sie auf die Daten nach Ihrem Badarf.
Wählen Sie dann „Text” oder beliebiges anderes Feld unter Tipps-Platte.
Wiederholen Sie die zwei vorliegenden Schritte, bis alle von Ihnen gewünschten Daten im angezeigt sind.
Editieren Sie die Namen von jedem Datenfeld.
Deaktivieren Sie „Daten in der Schleife extrahieren”.
Stellen Sie die Wartezeit auf 7s ein.
Schritt 7: Einrichtung eines Scroll-Schrittes für Klick zum Paginieren
Klicken Sie auf „Zum Paginieren klicken“.
Passen Sie die Scroll-Einstellungen wie Beispiel an.
Schritt 8: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
Klicken Sie auf „Speichern”.
Klicken Sie auf „Starten”.
Wählen Sie „Auf Ihrem Gerät ausführen”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Tipp: Bitte führen Sie die Aufgabe nicht in der Cloud aus, da LinkedIn die Anmeldung fehlschlägt, wenn verdächtige IP-Adressen erkannt werden.
Hier ist eine Datenausgabe als Beispiel.