Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
Il data scraping da un motore di ricerca è un buon modo di raccogliere informazioni relative a un argomento. In questo articolo ti presenteremo come estrarre i risultati di ricerca su Google search.
Per risparmiare il tempo, è possibile utilizzare semplicemente il modello predefinito della ricerca su Google al Catalogo di modelli, il quale ti consente di fare lo scraping con pochi clic senza configurare le attività di scraping. Per ulteriori dettagli consulta qui: Modelli predefiniti
Se si vuole creare un'attività da se stesso con la modalità avanzata, si può prendere questo video guida come riferimento. Estraiamo dati come titolo, URL e descrizione dalla pagina dei risultati di ricerca in Octoparse.
Potresti usare il link di esempio per seguirci:
I passaggi principali sono mostrati nel menù alla destra. È possibile anche scaricare il file dell'attività demo qui.
1. Creare un'azione di Go to Web Page: per aprire il sito web di destinazione
Inserire l'URL nella homepage e cliccare su Start
2. Inserire i testi: per iniziare la ricerca
Cliccare sulla casella di ricerca e poi Enter Text sul pannello dei suggerimenti
Inserire le parole chiave che vuoi cercare su Google nella Textbox1
Ecco il flusso di lavoro per questo passaggio:
Se si desidera di cercare risultati di una lista di parole chiave, scegliere Enter text in the loop (inserisci in loop i testi)
Viene visualizzata nel flusso di lavoro una finestrina di Loop item con un passaggio di Enter text al suo interno.
È necessario di cliccare su un tasto di Cerca quando cerchiamo qualcosa sul motore di ricerca, quindi qui aggiungiamo un clic. Si può configurarlo nelle opzioni del passaggio Enter text.
Cliccare su Options
Spuntare la casella Hit the Enter/Return key when finish entering (premi il tasto Invio una volta terminato l'inserimento)
Fare clic su Apply
Ecco l'intero processo del passaggio 2:
3. Rilevare autimaticamente la pagina web: per fare lo scraping nella pagina dei risultati di ricerca
Selezionare Auto-detect the page data
Deselezionare la casella Add a page scroll (aggiungi uno scorrimento di pagina) e fare clic su Create workflow (crea flusso di lavoro)
Fare doppio clic sui campi dati per rinominarli o cancellare i campi non desiderati
Suggerimenti:
Se la funzione di rilevamento automatico raccoglie diversi campi che non desideri, è più comodo passare alla visualizzazione verticale per eliminarli in batch.
4. Modificare gli XPath: per individuare accuratamente gli elementi
Cliccare su Loop Item1 e inserire nella casella di Matching XPath //h1[contains(text(),'Page Navigation')]/following-sibling::a[1]
Fare clic su Loop Item2 e immettere //H3[@class='LC20lb MBeuO DKV0Md']/../../../../../../.. nella casella di Matching XPath. Non dimenticare di cliccare su Apply in entrambe impostazioni.
Fare clic su Extract data
Cambiare alla visualizzazione verticale
Inserire gli XPath nei campi che vuoi
Ecco alcuni esempi:
Title: //H3[1]
Title_URL: //div[@class='yuRUbf']//a[1]
Description: /div/div[2]
Nota: scopri di più sulle conoscenze su XPath qui: Cos'è XPath e come utilizzarlo in Octoparse
5. Aggiungere manualmente uno scorrimento di pagina
Il tasto di Carica altro viene visualizzato solo dopo che si scorre leggermente la pagina.
Fare clic su + e scegli Ciclo per creare uno scorrimento della pagina
Fare clic su Loop Item3 e scegliere Scroll Page (scorri pagina) in modalità loop
Scegliere scroll to the bottom of the page (scorri fino alla fine della pagina) e impostare il numero di ripetizione a 5
Cliccare su Apply
Ecco il processo completo del passoggio 5:
6. Modificare il tempo di attesa: per rallentare lo scraping
La ricerca di Google applica una tecnica anti-scraping e mostrerebbe reCAPTCHA da risolvere. Dobbiamo rallentare lo scraping impostando il tempo di attesa.
Fare clic sull'azione Extract Data
Andare su Opzioni
Spuntare la casella di Wait before action
Selezionare il tempo di attesa tra 1 e 3 secondi e fare clic su Apply per confermare
7. Eseguire l'attività: per ottenere i dati target
Fare clic su Save
Cliccare su Run in alto a sinistra
Selezionare una modalità di esecuzione sul tuo dispositivo o nel Cloud (solo per utenti premium)
Ecco i dati di esempio esportati.