LinkedIn è un buon database per trovare informazioni preziose sul lavoro. In questo tutorial, introdurremo come estrarre informazioni sul lavoro da LinkedIn.com.
Iniziamo con questo URL di esempio: https://www.linkedin.com/jobs/search/?currentJobId=2011756127&geoId=105080838&keywords=accountant&location=New%20York%2C%20United%20States
Raccoglieremo dati come titoli di lavoro, aziende, livelli, tipi, funzioni e settori in Octoparse.
Il sito Web applica uno scorrimento infinito abbinato a un caricamento con pulsante di Carica altro per caricare nuovi contenuti. Dopo aver fatto scorrere la pagina fino in fondo circa 6 volte, verrà visualizzato un pulsante Carica altro e, se vogliamo continuare a caricare i lavori, dobbiamo fare clic sul pulsante.
I passaggi principali vengono visualizzati nella menù destra. È possibile scaricare l'attività di esempio cliccando qui.
1. Vai alla pagina: per aprire la pagina web di destinazione
Inserisci l'URL target nella casella di ricerca nella schermata principale e fai clic su Inizia
2. Configurare l'azione di scorrimento: per fare Octoparse scorrere verso il basso la pagina
Poiché la pagina web richiede di scorrere verso il basso 6 volte, è necessario configurare le impostazioni di scorrimento per l'azione Vai alla pagina prima che venga visualizzato il pulsante di Vedi più offerte di lavoro.
3. Rileva automaticamente i dati sulla pagina web: per creare un flusso di lavoro
Si può utilizzare la funzionalità di rilevamento automatico di Octoparse per estrarre l'elenco di offerte di lavoro.
Seleziona Rileva autimaticamente i dati sulla pagina web
Attendi il completamento del rilevamento
Controlla i campi dati nell'Anteprima dei dati ed elimina i campi indesiderati o rinomina i campi se necessario.
Deseleziona la casella di Aggiungi scorrimenti di pagina sulla panello dei suggerimenti
Clicca su Crea flusso di lavoro
4. Clicca su ciascun link: per ottenere più informazioni dettagliate
Se vuoi estrapolare dettagli del lavoro da ogni offerta di lavoro, è necessario fare clic sui URL di ogni offerta di lavoro per caricare la pagine dei dettagli.
Fai clic su Seleziona URL delle sottopagine sul pannello dei suggerimenti
Seleziona Clicca su un campo dati estratto e scegli basecard__fulllink_URL dalla menù a tendina (puoi confermare se è il campo corretto per i link nella sezione di Anteprima dei dati)
Clicca su Conferma
Nelle Opzioni dell'azione Clicca gli URL nell'elenco, deseleziona la casella Apri in una nuova scheda
Spunta la casella Carica con AJAX e imposta un timeout tra 5 e 7 secondi per il caricamento AJAX
Fai clic su Applica per confermare
5. Estrai dati: per selezionare i dati desiderati per l'estrazione
Fai clic sull'informazione che vuoi estrarre sulla pagina
Seleziona Testo nel pannello dei suggerimenti
Ripeti i passaggi finché non ottieni tutti i dati necessari per lo scraping
Imposta il tempo di attesa a 7s
6. Modifica l'XPath dell'azione Elementi in loop: per individuare il pulsante di Vedi più offerte di lavoro
Aggiungi un passaggio di loop
Metti il loop precedente nell'interno del nuovo loop
Cambia l'XPath corrispondente a //button[@aria-label="Load more results"] e fai clic su Applica
7. Esegui la tua attività
Fai clic su Salva e poi su Esegui in alto a destra
Seleziona Esegui sul tuo dispositivo per eseguire l'attività sul tuo computer
SUGGERIMENTO: non eseguire l'attività nel cloud poiché LinkedIn richiede l'accesso quando rileva IP sospetti.
Ecco un esempio dell'output dei dati: