Vai al contenuto principale

Come estrarre lead da Pagine Gialle

Aggiornato oltre 11 mesi fa

La lead generation è una delle parti più importanti di qualsiasi processo di vendita. PagineGialle è una buona risorsa di dati per le aziende di qualsiasi settore per raccogliere lead. In questo tutorial, ti mostreremo come ottenere informazioni su business e professionisti su PagineGialle.it.

Per questo sito d'indicazione, si può visitare il Catalogo di modelli in Octoparse e trovare i modelli pronti all'uso di PagineGialle, i quali ti consentono di estrarre le informazioni che vuoi con solo pochi clic. Basta inserire "paginegialle" nella casella di ricerca e vengono visualizzati i risultati relativi. Scopri si più sui modelli qui: Modelli predefiniti

Si può comunque costruire un'attività di scraping da se stesso in modo da adattarla meglio alle proprie esigenze. I principali passaggi sono visualizzati nel menù alla destra.

Avresti bisogno del link di esempio per seguire i passaggi:


1. Vai alla pagina: per aprire il sito web di destinazione

  • Inserire l'URL nella homepage e cliccare su Start


2. Rileva automaticamente i dati sulla pagina web: per creare il flusso di lavoro

  • Fare clic su Rileva automaticamente i dati della pagina web e attendere il completamento del rilevamento

  • Deselezionare la casella Aggiungi scorrimento di pagina

  • Fare clic su Crea flusso di lavoro

Due azioni di Elementi in loop verrebbero generate automaticamente nel flusso di lavoro.

  • Nell'anteprima dei dati si può eliminare i campi dati non necessari.

  • Cliccare sull'intestazione del campo dati per rinominarlo.

  • Cambiare alla visualizzazione verticale e incollare al campo di numero_telefono l'XPath //span[@class="search-itm__icoTel"]/..

  • Se ci sono informazioni non rilevate da Octoparse, è possibile selezionarle manualmente.

Se tutti i dati di cui hai bisogno possono essere estratti dalla pagina della lista, puoi fermarti qui e passare a impostare il limite di tempo per il caricamento AJAX per l'azione Click to Paginate. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nei seguenti passaggi.


3. Fare clic sul link di ogni prodotto: per ottenere ulteriori informazioni

  • Cliccare sul titolo del primo elemento nella pagina

  • Fare clic su A nel elenco degli elementi pagina e scegliere Click URL (clicca sull'url) sul pannello dei suggerimenti

Ecco l'intero processo del passaggio 3:


4. Estrarre dati: per estrarre i dati dalle pagine dei dettagli

  • Selezionare le informazioni che vuoi sulla pagina web

  • Scegliere Testo

  • Ripetere i passaggi precedenti per estrarre tutti i dati necessari


5. Impostare il timeout di caricamento AJAX per l'azione Click to Paginate

  • Fare clic per aprire le impostazioni dell'azione Clicca sul tasto Carica altro

  • Andare su Opzioni

  • Spuntare la casella Carica con AJAX e selezionare 10 come timeout AJAX


6. Aggiungere un tempo di attesa: per rallentare la velocità di estrazione

Dato che PagineGialle potrebbe limitare l'accesso al sito con reCAPTCHA se rileva che stai effettuando lo scraping troppo velocemente, dobbiamo controllare la velocità di estrazione.

  • Fare clic sull'azione Clicca l'elemento

  • Andare alle Opzioni

  • Spuntare la casella Attendi prima dell'azione e impostare il tempo a 5s

  • Cliccare su Applica per salvare

  • Ripetere gli stessi passaggi per l'azione Estrai dati1


7. Eseguire l'estrazione

  • Fai clic su Salva ed Esegui in alto a destra

  • Selezionare Esegui sul tuo dispositivo per eseguire l'attività sul tuo computer oppure scegliere Esegui nel Cloud per eseguirla sui nostri server cloud (solo per utenti premium)

Ecco i dati di esempio estratti:

Hai ricevuto la risposta alla tua domanda?