Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
Il data scraping da un motore di ricerca è un buon modo di raccogliere informazioni relative a un argomento. In questo articolo ti presenteremo come estrarre i risultati di ricerca su Google search.
Per risparmiare il tempo, è possibile utilizzare semplicemente i modelli pre-costruiti per Google Search al Catalogo di modelli, i quali ti consentono di fare lo scraping con pochi clic senza configurare le attività di scraping.
Se si vuole creare un'attività da se stesso con la modalità avanzata, si può prendere questo video guida come riferimento. Estraiamo dati come titolo, URL e descrizione dalla pagina dei risultati di ricerca in Octoparse.
Potresti usare il link di esempio per seguirci:
I passaggi principali sono mostrati nel menù alla destra. È possibile anche scaricare il file dell'attività demo qui.
1. Vai alla pagina web: per aprire il sito web di destinazione
Inserire l'URL nella homepage e cliccare su Start
2. Inserire i testi: per iniziare la ricerca
Cliccare sulla casella di ricerca e poi Inserisci il testo sul pannello dei suggerimenti
Inserire le parole chiave che vuoi cercare su Google nella Casella di testo1
Spuntare la casella Premi il tasto Invio/Indietro una volta terminato l'inserimento
Impostare un timeout (5-7 secondi)
Ecco il flusso di lavoro per questo passaggio:
Se si desidera di cercare risultati di una lista di parole chiave, scegliere Inserisci il testo in loop
Viene visualizzata nel flusso di lavoro una finestrina di Elementi in loop con un passaggio di Inserisci il testo al suo interno.
Ecco l'intero processo del passaggio 2:
3. Rilevare autimaticamente la pagina web: per fare lo scraping nella pagina dei risultati di ricerca
Selezionare Rileva automaticamente i dati sulla pagina
Deselezionare la casella Add a page scroll (aggiungi uno scorrimento di pagina) e fare clic su Create workflow (crea flusso di lavoro)
Fare doppio clic sui campi dati per rinominarli o cancellare i campi non desiderati
Suggerimenti:
Se la funzione di rilevamento automatico raccoglie diversi campi che non desideri, è più comodo passare alla visualizzazione verticale per eliminarli in batch.
4. Modificare gli XPath: per individuare accuratamente gli elementi
Cliccare su Loop Item1 e inserire nella casella di Matching XPath //h1[contains(text(),'Page Navigation')]/following-sibling::a[1]
Fare clic su Loop Item2 e immettere //H3[@class='LC20lb MBeuO DKV0Md']/../../../../../../.. nella casella di Matching XPath. Non dimenticare di cliccare su Apply in entrambe impostazioni.
Fare clic su Extract data
Cambiare alla visualizzazione verticale
Inserire gli XPath nei campi che vuoi
Ecco alcuni esempi:
Title: //H3[1]
Title_URL: //div[@class='yuRUbf']//a[1]
Description: /div/div[2]
Nota: scopri di più sulle conoscenze su XPath qui: Cos'è XPath e come utilizzarlo in Octoparse
5. Aggiungere manualmente uno scorrimento di pagina
Il tasto di Carica altro viene visualizzato solo dopo che si scorre leggermente la pagina.
Fare clic su + e scegli Ciclo per creare uno scorrimento della pagina
Fare clic su Loop Item3 e scegliere Scroll Page (scorri pagina) in modalità loop
Scegliere scroll to the bottom of the page (scorri fino alla fine della pagina) e impostare il numero di ripetizione a 5
Cliccare su Apply
Ecco il processo completo del passoggio 5:
6. Modificare il tempo di attesa: per rallentare lo scraping
La ricerca di Google applica una tecnica anti-scraping e mostrerebbe reCAPTCHA da risolvere. Dobbiamo rallentare lo scraping impostando il tempo di attesa.
Fare clic sull'azione Extract Data
Andare su Opzioni
Spuntare la casella di Wait before action
Selezionare il tempo di attesa tra 1 e 3 secondi e fare clic su Apply per confermare
7. Eseguire l'attività: per ottenere i dati target
Fare clic su Save
Cliccare su Run in alto a sinistra
Selezionare una modalità di esecuzione sul tuo dispositivo o nel Cloud (solo per utenti premium)
Ecco i dati di esempio esportati.























