Cos'è JSON?
JSON (JavaScript Object Notation) è un semplice formato per lo scambio di dati. Per le persone è facile da leggere e scrivere, mentre per le macchine risulta facile da generare e analizzarne la sintassi. Di conseguenza, viene ampiamente utilizzato dai siti web a migliorare l'efficienza della trasmissione di rete.
Perché si fa l'estrazione da link JSON?
L'estazione dai link JSON ti permette di una conversione di dati dal formato JSON a un formato strutturato in modo più veloce e sicuro. Ti aiuta a
raggiungere un'estrazione di dati più rapidamente senza il caricamento di immagini e simili.
bypassare tecniche anti-scraping su molti siti web.
occuparsi in modo più facile dei pulsanti carica altro e dello scrrimento infinito.
Come usare l'estrazione da JSON in Octoparse?
A scopo dimostrativo, raschiamo i dati da una pagina di lista su Booking.com utilizzando l'estrazione da JSON.
Controlla l'url di prova: https://jobs.booking.com/careers?location=netherlands&query=&domain=booking.com
1. Ispezionare la pagina web in un browser - per identificare l'URL che contiene il file JSON desiderato
Aprire l'URL di esempio in Chrome
Fare clic con il tasto destro sulla pagina web e seleziona Ispeziona per aprire DevTools
Selezionare Fetch/XHR dalla scheda Rete in DevTools
Fare clic sull'icona di cancellazione per cancellare tutte le informazioni caricate
Scorrere in basso nella lista dei lavori nella colonna scorrevole per aggiornare la pagina
Controllare gli URL ricaricati in XHR per vedere se contengono qualche file JSON.
Cliccare sul nome di un url e controllare le informazioni sulle sue intestazioni, e possiamo vedere che il content type sotto le intestazioni della risposta contiene JSON.
Andare al tab Anteprima a vedere quanti dati stiamo parlando. Possiamo trovare che il conteggio totale è 363 per questa demo.
Scorrere ancora un po' verso il basso e confrontare gli URL delle richieste per trovare uno schema
Dal confronto tra gli URL di richiesta, troviamo che il parametro start= nell'URL aumenta ogni volta di 10.
Copiare l'url che contiene il file JSON (l'url di richiesta nelle intestazioni), vale a dire
Suggerimento: Alcuni siti web potrebbero visualizzare tutte le informazioni con un collegamento JSON, quindi non è necessario generare in batch gli URL.
2. Generazione in batch di url JSON in Octoparse - per estrarre dati da una lista di link di file JSON
Successivamente, dobbiamo generare in batch una lista di URL JSON in Octoparse.
Aprire Octoparse e avvia una nuova attività personalizzata che genera in batch URL di input
Incollare l'URL copiato nella casella del formato URL
Selezionare l'elemento che vuoi cambiare nell'url e fare clic su Add Parameter (aggiungi parametro)
Impostare l'Initial value (valore iniziale) su 0, Every time (ogni volta) su +10 e l'End value (valore finale) su 363 e fare clic su Confirm (conferma) per salvare
Suggerimento: Il valore finale cambia costantemente. Inserisci il valore effettivo che trovi in Chrome.
Fare clic su l'azione Go to Web Page e spunta la casella JSON nel tab General.
Cliccare su Apply per salvare le tue impostazioni.
3. Scegliere i data da estrarre - per ottenere i dati desiderati
Attivare/disattivare la struttura ad albero e selezionare gli elementi della pagina che desideriamo nel nodo delle posizioni
Fare clic su le informazione e scegliere Element data (dati dell'elemento) per estrarre i campi dati come name, display_job id, business unit, e location.
Salvare l'attività ed eseguirla per acquistare i dati che vuoi.
Ecco l'output dei dati di esempio: