Vai al contenuto principale

Estrazione di dati da link JSON

Aggiornato più di un anno fa

Cos'è JSON?

JSON (JavaScript Object Notation) è un semplice formato per lo scambio di dati. Per le persone è facile da leggere e scrivere, mentre per le macchine risulta facile da generare e analizzarne la sintassi. Di conseguenza, viene ampiamente utilizzato dai siti web a migliorare l'efficienza della trasmissione di rete.

Perché si fa l'estrazione da link JSON?

L'estazione dai link JSON ti permette di una conversione di dati dal formato JSON a un formato strutturato in modo più veloce e sicuro. Ti aiuta a

  1. raggiungere un'estrazione di dati più rapidamente senza il caricamento di immagini e simili.

  2. bypassare tecniche anti-scraping su molti siti web.

  3. occuparsi in modo più facile dei pulsanti carica altro e dello scrrimento infinito.

Come usare l'estrazione da JSON in Octoparse?

A scopo dimostrativo, raschiamo i dati da una pagina di lista su Booking.com utilizzando l'estrazione da JSON.


1. Ispezionare la pagina web in un browser - per identificare l'URL che contiene il file JSON desiderato

  • Aprire l'URL di esempio in Chrome

  • Fare clic con il tasto destro sulla pagina web e seleziona Ispeziona per aprire DevTools

  • Selezionare Fetch/XHR dalla scheda Rete in DevTools

  • Fare clic sull'icona di cancellazione per cancellare tutte le informazioni caricate

  • Scorrere in basso nella lista dei lavori nella colonna scorrevole per aggiornare la pagina

  • Controllare gli URL ricaricati in XHR per vedere se contengono qualche file JSON.

  • Cliccare sul nome di un url e controllare le informazioni sulle sue intestazioni, e possiamo vedere che il content type sotto le intestazioni della risposta contiene JSON.

  • Andare al tab Anteprima a vedere quanti dati stiamo parlando. Possiamo trovare che il conteggio totale è 363 per questa demo.

  • Scorrere ancora un po' verso il basso e confrontare gli URL delle richieste per trovare uno schema

Dal confronto tra gli URL di richiesta, troviamo che il parametro start= nell'URL aumenta ogni volta di 10.

Suggerimento: Alcuni siti web potrebbero visualizzare tutte le informazioni con un collegamento JSON, quindi non è necessario generare in batch gli URL.


2. Generazione in batch di url JSON in Octoparse - per estrarre dati da una lista di link di file JSON

Successivamente, dobbiamo generare in batch una lista di URL JSON in Octoparse.

  • Aprire Octoparse e avvia una nuova attività personalizzata che genera in batch URL di input

  • Incollare l'URL copiato nella casella del formato URL

  • Selezionare l'elemento che vuoi cambiare nell'url e fare clic su Add Parameter (aggiungi parametro)

  • Impostare l'Initial value (valore iniziale) su 0, Every time (ogni volta) su +10 e l'End value (valore finale) su 363 e fare clic su Confirm (conferma) per salvare

Suggerimento: Il valore finale cambia costantemente. Inserisci il valore effettivo che trovi in Chrome.

  • Fare clic su l'azione Go to Web Page e spunta la casella JSON nel tab General.

  • Cliccare su Apply per salvare le tue impostazioni.


3. Scegliere i data da estrarre - per ottenere i dati desiderati

  • Attivare/disattivare la struttura ad albero e selezionare gli elementi della pagina che desideriamo nel nodo delle posizioni

  • Fare clic su le informazione e scegliere Element data (dati dell'elemento) per estrarre i campi dati come name, display_job id, business unit, e location.

  • Salvare l'attività ed eseguirla per acquistare i dati che vuoi.

Ecco l'output dei dati di esempio:

Hai ricevuto la risposta alla tua domanda?