Vai al contenuto principale

Lezione 7: Fai pure! Crea la tua prima attività di data scraping!

Aggiornato più di un anno fa

Ecco l'ultima lezione della serie introduttiva. Ci speriamo che ti sia divertito imparando qualcosa di nuovo e utile. Per mettere insieme tutti i pezzi del puzzle, facciamo un riepilogo con un tutorial passo passo su come costruire un'attività di estrazione dati da zero. Ti guideremo attraverso l'intero processo dall'immissione dell'URL all'esportazione dei dati estratti. Andiamo subito!


1. Creare un'attività nuova

  • Inserisci l'url target nella casella di ricerca e clicca Start per costruire un'attività nuova.


2. Commincia il Rilevamento automatico

Non appena la pagina web viene caricata nel browser integrato, seleziona Auto-detect web page data (rileva automaticamente i dati della pagina web) dal pannello dei suggerimenti. Octoparse inizierà immediatamente a rilevare i dati della pagina web.


3. Vedere in anterpima i dati

Una volta completato il processo di rilevamento automatico, vai avanti e controlla i tuoi dati nella sezione Anteprima dei dati. Fai doppio clic sul nome del campo per rinominarlo o fai clic sull'icona del cestino per rimuovere quelli che non sono necessari.


4. Salvare le impostazioni del rilevamento automatico

Ritorna al pannello dei suggerimenti e controlla le impostazioni sottoposte:

  • Spunta la casella Add a page scroll se il tuo sito web target continua a caricare più elementi mentre si scorre la pagina.

  • Spunta la casella Paginate to scrape more pages se vorresti raschaire dati da più di una pagina.

  • Verifica se il pulsante d'impaginazione viene selezionato giustamente dal sito web (evidenziato).

Adesso fai clic su Create workflow e Octoparse genererà automaticamente il flusso di lavoro.

Oltre alla pagina di elenco, se desideri ottenere più dati dalla pagina dei dettagli del prodotto, segui i passaggi seguenti:

  • Scegli Click on link(s) to scrape the linked page(s) (clicca su i link per estrarre i dati sulle pagine collegate)

  • Seleziona Click on an extracted data field (clicca su un campo di dati estratti), scegli product_url dal menù a tendina e fai clic su Confirm (conferma)

Nota come viene aggiunto un passaggio aggiuntivo al flusso di lavoro, ovvero il passaggio di Click URL in the list (fai clic su gli url nell'elenco).


5. Selezionare dati dalla pagina di dettagli

Ora arriverai alla pagina dei dettagli. Ancora una volta, seleziona Auto-detect web page data dal pannello dei suggerimenti.

SUGGERIMENTO: il processo di rilevamento automatico verrà avviato automaticamente. È possibile passare da un risultato rilevato all'altro finché non vengono selezionati i dati corretti.

Fai clic su Create workflow (crea flusso di lavoro) e il flusso di lavoro aggiornato dovrebbe essere simile al seguente:

Puoi anche selezionare manualmente le informazioni sulla pagina web per raschiarle:


6. Pulire i data estratti

Sembra che c'è qualcosa che vorremmo cambiare per i dati estratti. Ad esempio, vorremmo eliminare la preposizione "from" nel campo "Location", quindi per farlo dobbiamo utilizzare Clean Data (pulisci i dati).

Fai clic sull'icona Altro nell'angolo in alto a destra e seleziona Clean data.

In seguito clicca Add step (aggiungi passaggio) - Replace (sostituisci). Dobbiamo eliminare "from" e assicurarci che tutte le righe possano essere abbinate ad esso, quindi dobbiamo sostituire "from" con nulla, come mostrato di seguito in questa GIF.


7. Provare l'attività

L'attività di data scraping è ora completata. Come detto in precedenza, è sempre consigliabile esaminare il flusso di lavoro passo dopo passo, assicurandosi che ogni passaggio faccia ciò che deve fare, ad esempio, se si fa clic su Go to Web Page, dovrebbe caricare la pagina web nel browser integrato senza problemi.

Avvia il flusso di lavoro e provalo facendo clic su tutti i passaggi dall'alto verso il basso e dall'interno verso l'esterno per i passaggi nidificati (come l'impaginazione). Osserva se la pagina web risponde come previsto.

mceclip5.gif


8. Pianificazione ed esecuzione

Ora che la tua attività è completamente esaminata e funzionante, puoi estrarre i dati molto più velocemente eseguendo l'attività nel Cloud oppure puoi anche pianificarne l'esecuzione su base ricorrente.

Per avviare un'esecuzione nel cloud, fai clic su Standard Mode (Modalità standard) o Boost Mode (Modalità d'accelerazione) sotto Run in the Cloud (esegui nel cloud).

Per pianificare l'attività, clicca su Schedule Local Runs (pianifica esecuzioni locali) o Schedule Cloud Runs (pianifica esecuzioni nel cloud).

Scegli la frequenza desiderata e designa un giorno e un'ora per l'esecuzione.


9. Esportare i dati

Vai alla Dashboard per trovare la tua attività e fai clic sullo stato dell'attività per visualizzare i dati estratti. Clicca su Export Data (esporta dati) in basso e scegli il formato in cui desideri scaricare i dati.

Congratulazioni per arrivare fin qui e lavorare per diventare il prossimo esperto di web scraping! Ci speriamo che questa non sia la fine del tuo apprendimento ma l'inizio del tuo viaggio nel data mining.

Hai ricevuto la risposta alla tua domanda?