La lead generation è una delle parti più importanti di qualsiasi processo di vendita. PagineGialle è una buona risorsa di dati per le aziende di qualsiasi settore per raccogliere lead. In questo tutorial, ti mostreremo come ottenere informazioni su business e professionisti su PagineGialle.it.
Per questo sito d'indicazione, si può visitare il Catalogo di modelli in Octoparse e trovare i modelli pronti all'uso di PagineGialle, i quali ti consentono di estrarre le informazioni che vuoi con solo pochi clic. Basta inserire "paginegialle" nella casella di ricerca e vengono visualizzati i risultati relativi. Scopri si più sui modelli qui: Modelli predefiniti
Si può comunque costruire un'attività di scraping da se stesso in modo da adattarla meglio alle proprie esigenze. I principali passaggi sono visualizzati nel menù alla destra.
Avresti bisogno del link di esempio per seguire i passaggi:
1. Vai alla pagina: per aprire il sito web di destinazione
Inserire l'URL nella homepage e cliccare su Start
2. Rileva automaticamente i dati sulla pagina web: per creare il flusso di lavoro
Fare clic su Rileva automaticamente i dati della pagina web e attendere il completamento del rilevamento
Deselezionare la casella Aggiungi scorrimento di pagina
Fare clic su Crea flusso di lavoro
Due azioni di Elementi in loop verrebbero generate automaticamente nel flusso di lavoro.
Nell'anteprima dei dati si può eliminare i campi dati non necessari.
Cliccare sull'intestazione del campo dati per rinominarlo.
Cambiare alla visualizzazione verticale e incollare al campo di numero_telefono l'XPath //span[@class="search-itm__icoTel"]/..
Se ci sono informazioni non rilevate da Octoparse, è possibile selezionarle manualmente.
Se tutti i dati di cui hai bisogno possono essere estratti dalla pagina della lista, puoi fermarti qui e passare a impostare il limite di tempo per il caricamento AJAX per l'azione Click to Paginate. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nei seguenti passaggi.
3. Fare clic sul link di ogni prodotto: per ottenere ulteriori informazioni
Cliccare sul titolo del primo elemento nella pagina
Fare clic su A nel elenco degli elementi pagina e scegliere Click URL (clicca sull'url) sul pannello dei suggerimenti
Ecco l'intero processo del passaggio 3:
4. Estrarre dati: per estrarre i dati dalle pagine dei dettagli
Selezionare le informazioni che vuoi sulla pagina web
Scegliere Testo
Ripetere i passaggi precedenti per estrarre tutti i dati necessari
5. Impostare il timeout di caricamento AJAX per l'azione Click to Paginate
Fare clic per aprire le impostazioni dell'azione Clicca sul tasto Carica altro
Andare su Opzioni
Spuntare la casella Carica con AJAX e selezionare 10 come timeout AJAX
6. Aggiungere un tempo di attesa: per rallentare la velocità di estrazione
Dato che PagineGialle potrebbe limitare l'accesso al sito con reCAPTCHA se rileva che stai effettuando lo scraping troppo velocemente, dobbiamo controllare la velocità di estrazione.
Fare clic sull'azione Clicca l'elemento
Andare alle Opzioni
Spuntare la casella Attendi prima dell'azione e impostare il tempo a 5s
Cliccare su Applica per salvare
Ripetere gli stessi passaggi per l'azione Estrai dati1
7. Eseguire l'estrazione
Fai clic su Salva ed Esegui in alto a destra
Selezionare Esegui sul tuo dispositivo per eseguire l'attività sul tuo computer oppure scegliere Esegui nel Cloud per eseguirla sui nostri server cloud (solo per utenti premium)
Ecco i dati di esempio estratti: