Allo scopo di migliorare l'efficacia e l'accuratezza del riconoscimento degli elementi delle pagine web, abbiamo effettuato alcuni nuovi aggiornamenti importanti alla funzionalità del rilevamento automatico:

Migliorata l'accuratezza e la completezza dell'identificazione degli elementi validi.
Aggiunta la possibilità di riconoscere il contenuto richiesto per lo scorrimento all'interno di un'area designata di una pagina web.
Miglioramento del tasso di successo del riconoscimento per scenari che coinvolgono bottoni di impaginazione, scorrimento infinito, ecc.
Denominazione multilingue implementata per alcuni campi di uso comune.

Cosa indica l'Auto-detect?

La funzione di rilevamento automatico è una delle innovazioni più recenti di Octoparse versione 8. La nuova assistante consente agli utenti di iniziare facilmente il proprio lavoro semplicemente facendo clic su un singolo pulsante. È stato dimostrato con successo che la funzionalità gestisce pagine web con design diversi con elenchi, tabelle, scorrimenti infiniti, caricamento di più pulsanti, ecc. Ora è il momento di presentarti questa funzionalità utilissima e potentissima.

Come utilizzarlo?

1. Inserire l'url del tuo sito web di destinazione per iniziare un'attività

Immettere l'URL nella casella di ricerca e cliccare su Start. Per questo case prendiamo questo sito come esempio:

https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276

2. Comincia il rilevamento automatico

Una volta che il sito web è stato completamente caricato nel browser integrato, fare clic su Auto-detect web page data (rileva automaticamente i dati della pagina web) dal pannello dei suggerimenti per avviare il rilevamento automatico.

3. Modificare le impostazioni

Puttare i campo dati non desiderati

Cliccare sull'icona del cestino nell'anteprima dei dati per rimuovere qualsiasi campi dati non necessari.

Confermare le impostazioni sul pannello dei suggerimenti

Esistono scelte come "extract list", "paginate", e "page scroll" sul panel.

Extract data list: spuntato predefinitamente per aiutare a raccogliere l'elenco dei dati nella pagina.
Paginate to scrape more pages: individua un tasto di "Pagina successiva" per estrarre dati da più pagine.
Add page scrolls: consente di scorrere la pagina verso il basso dopo il caricamento.

È possibile controllare/modificare/deselezionare le impostazioni.

a) Controllare le impostazioni

Fare clic su Check sotto Paginate to scrape more pages e ti verrà diritto al pulsante per l'impaginazione evidenziato.

b) Modificare le impostazioni

Cliccare su Edit per modificare le setting

c) Deselezionare le impostazioni

Se non hai bisogno della scelta, semplicemente deselezionare la sua casella.

Cliccare su Create workflow (crea flusso di lavoro)

Dopo aver confermato le impostazioni, si può scegliere di creare il flusso di lavoro per generare le azioni.

Rinominare i campi dati

Fare doppio clic sull'intestazione dei campi dati per rinominarli.

4. Ulteriori azioni di scraping

Il rilevamento automatico può aiutare a configurare il flusso di lavoro di base con l'impaginazione e l'estrazione dei dati. Se desideri fare clic su ciascun link per ottenere maggiori informazioni o fare clic sul pulsante "Carica altro", puoi scegliere le opzioni nel pannello dei suggerimenti per configurare facilmente le azioni.

Next page button (tasto pagina successiva): Nel caso in cui Octoparse non riconosca un pulsante di impaginazione, è possibile selezionare manualmente il bottone tramite questa opzione.

Load more button (tasto carica altro): se sulla pagina web è presente un pulsante Carica altro, puoi scegliere questa opzione, selezionare il pulsante Carica altro sulla pagina per consentire allo scraper di fare clic automaticamente sul pulsante per caricare più dati per lo scraping.

Infinite scroll (scorrimento infinito): per impostazione del modo del scorrimento di pagina e il numero delle volte di ripetizione.

Select subpage URL (seleziona URL sottopagina): se desideri fare clic sui collegamenti rilevati ed estrarre maggiori informazioni dalle pagine dei dettagli, scegli questa opzione e seleziona un campo dati di link a cui desideri accedere.

5. Aggiungere manualmente i dati mancanti

A volte ci saranno alcuni campi dati che non verranno rilevati dal rilevamento automatico. Dovrai aggiungere manualmente i campi dati. Basta selezionare le informazioni sulla pagina web e scegliere Text.

6. Salvare le impostazioni e iniziare l'estrazione

Cliccare sul tasto Save per salvare tutte le impostazioni, in seguito fare clic su Run per eseguire l'attività di scraping localmente o nel cloud.

Cos'è il rilevamento automatico e come utilizzarlo?