Vai al contenuto principale

Come estrarre dati dalla ricerca su Google

Aggiornato oltre 11 mesi fa

Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!

Il data scraping da un motore di ricerca è un buon modo di raccogliere informazioni relative a un argomento. In questo articolo ti presenteremo come estrarre i risultati di ricerca su Google search.

Per risparmiare il tempo, è possibile utilizzare semplicemente il modello predefinito della ricerca su Google al Catalogo di modelli, il quale ti consente di fare lo scraping con pochi clic senza configurare le attività di scraping. Per ulteriori dettagli consulta qui: Modelli predefiniti

Se si vuole creare un'attività da se stesso con la modalità avanzata, si può prendere questo video guida come riferimento. Estraiamo dati come titolo, URL e descrizione dalla pagina dei risultati di ricerca in Octoparse.

Potresti usare il link di esempio per seguirci:

I passaggi principali sono mostrati nel menù alla destra. È possibile anche scaricare il file dell'attività demo qui.


1. Creare un'azione di Go to Web Page: per aprire il sito web di destinazione

  • Inserire l'URL nella homepage e cliccare su Start


2. Inserire i testi: per iniziare la ricerca

  • Cliccare sulla casella di ricerca e poi Enter Text sul pannello dei suggerimenti

  • Inserire le parole chiave che vuoi cercare su Google nella Textbox1

Ecco il flusso di lavoro per questo passaggio:

  • Se si desidera di cercare risultati di una lista di parole chiave, scegliere Enter text in the loop (inserisci in loop i testi)

Viene visualizzata nel flusso di lavoro una finestrina di Loop item con un passaggio di Enter text al suo interno.

È necessario di cliccare su un tasto di Cerca quando cerchiamo qualcosa sul motore di ricerca, quindi qui aggiungiamo un clic. Si può configurarlo nelle opzioni del passaggio Enter text.

  • Cliccare su Options

  • Spuntare la casella Hit the Enter/Return key when finish entering (premi il tasto Invio una volta terminato l'inserimento)

  • Fare clic su Apply

Ecco l'intero processo del passaggio 2:


3. Rilevare autimaticamente la pagina web: per fare lo scraping nella pagina dei risultati di ricerca

  • Selezionare Auto-detect the page data

  • Deselezionare la casella Add a page scroll (aggiungi uno scorrimento di pagina) e fare clic su Create workflow (crea flusso di lavoro)

  • Fare doppio clic sui campi dati per rinominarli o cancellare i campi non desiderati

22.gif

Suggerimenti:

Se la funzione di rilevamento automatico raccoglie diversi campi che non desideri, è più comodo passare alla visualizzazione verticale per eliminarli in batch.

10.png


4. Modificare gli XPath: per individuare accuratamente gli elementi

  • Cliccare su Loop Item1 e inserire nella casella di Matching XPath //h1[contains(text(),'Page Navigation')]/following-sibling::a[1]

  • Fare clic su Loop Item2 e immettere //H3[@class='LC20lb MBeuO DKV0Md']/../../../../../../.. nella casella di Matching XPath. Non dimenticare di cliccare su Apply in entrambe impostazioni.

  • Fare clic su Extract data

  • Cambiare alla visualizzazione verticale

  • Inserire gli XPath nei campi che vuoi

Ecco alcuni esempi:

Title: //H3[1]

Title_URL: //div[@class='yuRUbf']//a[1]

Description: /div/div[2]

Nota: scopri di più sulle conoscenze su XPath qui: Cos'è XPath e come utilizzarlo in Octoparse


5. Aggiungere manualmente uno scorrimento di pagina

Il tasto di Carica altro viene visualizzato solo dopo che si scorre leggermente la pagina.

  • Fare clic su + e scegli Ciclo per creare uno scorrimento della pagina

  • Fare clic su Loop Item3 e scegliere Scroll Page (scorri pagina) in modalità loop

  • Scegliere scroll to the bottom of the page (scorri fino alla fine della pagina) e impostare il numero di ripetizione a 5

  • Cliccare su Apply

Ecco il processo completo del passoggio 5:


6. Modificare il tempo di attesa: per rallentare lo scraping

La ricerca di Google applica una tecnica anti-scraping e mostrerebbe reCAPTCHA da risolvere. Dobbiamo rallentare lo scraping impostando il tempo di attesa.

  • Fare clic sull'azione Extract Data

  • Andare su Opzioni

  • Spuntare la casella di Wait before action

  • Selezionare il tempo di attesa tra 1 e 3 secondi e fare clic su Apply per confermare


7. Eseguire l'attività: per ottenere i dati target

  • Fare clic su Save

  • Cliccare su Run in alto a sinistra

  • Selezionare una modalità di esecuzione sul tuo dispositivo o nel Cloud (solo per utenti premium)

Ecco i dati di esempio esportati.

13.png

Hai ricevuto la risposta alla tua domanda?