Ora che hai scaricato Octoparse sul tuo dispositivo e hai imparato le conoscenze di base su Octoparse, è ora di iniziare il tuo progetto di web scraping!
La maggior parte dei siti web (web directory, e-commerce, siti immobiliari, ecc.) condividono layout simili, ad esempio, una pagina che mostra molti elementi nidificati in un elenco. Diamo un'occhiata ad alcuni esempi.
Bestbuy.com
Amazon.com
Il nuovissimo algoritmo di rilevamento automatico (auto-detect) di Octoparse è appositamente progettato per raschiare pagine come suddette. Rileva automaticamente i dati dell'elenco (inclusi elementi di testo e link), i pulsanti di Pagina successiva, i pulsanti di carica altro e scorre una pagina verso il basso, quindi genera automaticamente l'attività di scraping.
In questa lezione ti spiegheremo come raccogliere i dati delle pagine web utilizzando l'algoritmo di rilevamento automatico.
Suggerimento: la Guida per principianti Octoparse fornisce una serie di pagine di prova per aiutarti a esercitarti nell'estrazione dei dati da varie pagine web.
PASSAGGIO 1. Creare una nuova attività
Inserisci l'URL di prova (http://test-sites.octoparse.com/?product_cat=e-commerce-category-1) nella casella di ricerca nella parte superiore della schermata home. Clicca Start per creare una nuova attività nella modalità avanzata.
PASSAGGIO 2. Ottenere dati utilizzando il Rilevamento automatico
Octoparse caricherà l'URL della pagina web nel browser integrato e avvierà automaticamente il processo di rilevamento automatico. Attendi con pazienza fino al completamento del processo e quando verranno fornite ulteriori informazioni sul pannello dei suggerimenti.
Suggerimento: se i dati di cui hai bisogno non sono accessibili al caricamento della pagina, consulta questo tutorial su come interagire con la pagina web prima che i dati vengano rilevati automaticamente.
PASSAGGIO 3. Controllare i dati
Una volta completato il rilevamento automatico, segui le istruzioni fornite sul pannello dei suggerimenti e controlla i tuoi dati nella sezione di anteprima. Puoi rinominare i campi dati o rimuovere quelli che non sono necessari. I dati rilevati verranno evidenziati anche sulla pagina web.
PASSAGGIO 4. Confermare le tue opzioni
Ora vai al pannello dei suggerimenti e controlla le tue opzioni. In base al tipo di dati rilevati, vengono fornite una serie di scelte. Per esempio, vengono rilevati i dati dell'elenco, pertanto vengono fornite le opzioni per:
1. Extract the data in the list (estrarre i dati nell'elenco) - L'opzione è selezionata per impostazione predefinita poiché Octoparse ritiene che questo sia ciò che devi fare sicuramente.
2. Paginate to scrape more pages (paginare per raccogliere dati da più pagine) - Apparentemente Octoparse ha rilevato un pulsante di Avanti sulla pagina. Seleziona questa opzione se vuoi che Octoparse faccia clic sul pulsante di Avanti per estrarre dati da più pagine.
Nota: Per scoprire se il pulsante rilevato è quello corretto, clicca su Check e osserva se viene evidenziato nella pagina web. Se è necessario selezionare di nuovo il pulsante di Avanti, fai clic su "Edit" e seguire le istruzioni sel pannello dei suggerimenti.
PASSAGGIO 5. Creare il flusso di lavoro
Dopo aver confermato le impostazioni, fai clic su Create workflow.
Octoparse genererebbe automaticamente un flusso di lavoro basato sui dati rilevati e sulle impostazioni salvate. Si può scegliere di eseguire l'attività adesso o modificare manualmente il flusso di lavoro.
Continua a leggere >> Lezione 2: Ottimizzare l'attività