Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
Dopo aver seguito le lezioni introduttive, dovresti aver appreso le basi di Octoparse e riuscito a creare alcune attività. In questo articolo, andiamo un po' più a fondo, con la spiegazione su come Octoparse funziona per estrarre dati da qualsiasi pagina web e, ancora più importante, come tutte le varie azioni funzionano insieme in un flusso di lavoro. Avere una buona comprensione di questi principi di base rappresenta la colonna vertebrale per creare task di scraping più complessi ed efficaci.
1. Come Octoparse funziona per estrarre dati web
1.1 Octoparse simula i comportamenti umani di navigazione
Octoparse funziona tramite la simulazione dei comportamenti di navigazione umani sul suo browser integrato. Azioni come aprire pagine web, fare clic su elementi della pagina, fare clic sul pulsante della pagina successiva o scorrere in basso la pagina possono essere fatte in Octoparse. Il processo di scraping simulato è identico a come si accederebbe ai dati web in qualsiasi browser quotidiano.
1.2 Octoparse raccoglie i dati automaticamente attraverso il flusso di lavoro
Quando stai creando un task di scraping in Octoparse, stai essenzialmente creando un flusso di lavoro di scrape che può essere tradotto in una serie di istruzioni per Octoparse da seguire. Tuttavia, questo flusso di lavoro viene creato automaticamente da Octoparse mentre stai interagendo con il browser integrato. In alcuni casi, potrebbe non essere necessario modificare il flusso di lavoro creato automaticamente; tuttavia, in altri casi, potrebbe essere necessario costruire/gestire il flusso di lavoro manualmente se le cose non stanno funzionando come previsto. In entrambi i casi, è fortemente consigliato comprendere le basi del flusso di lavoro di modo da poter acquisire più precisamente e accuratamente.
2. Comprendere il flusso di lavoro
Un flusso di lavoro consiste in una lista di azioni che vengono messe insieme in un ordine specifico per estrarre i dati web di destinazione.
I passaggi del flusso di lavoro dovrebbero essere sempre letti dall'alto verso il basso, e dall'interno verso l'esterno per le azioni nidificate. Diamo un'occhiata ad alcuni esempi.
Esempio 1 - Estrarre da una lista di elementi per ottenere dati
Passaggio 1: Go to Web Page - per aprire la pagina web di destinazione
Passaggio 2: Pagination - per localizzare il tasto della pagina successiva sulla pagina (attualmente ti trovi sulla Pagina 1)
Passaggio 3: Loop Item - per localizzare la lista di elementi nella pagina
Passaggio 4: Extract Data - per estrarre i dati necessari dalla lista di elementi
Passaggio 5: Click to Paginate - per fare clic sul pulsante della pagina successiva per passare alla Pagina 2
Passaggio 6: Continua ad estrarre dati dal loop e fa clic sul tasto della pagina successiva fino a quando Octoparse arriva all'ultima pagina
Passaggio 7: Nessun pulsante di pagina successiva è trovato sull'ultima pagina e il flusso di lavoro finisce
Esempio 2 - Fare clic su una lista di elementi nella pagina web ed estrarre dati dalla pagina di dettagli
Passaggio 1: Go to Web Page - per aprire la pagina web di destinazione
Passaggio 2: Pagination - per localizzare il tasto della pagina successiva sulla pagina (attualmente ti trovi sulla Pagina 1)
Passaggio 3: Loop Item - per localizzare la lista di elementi nella pagina e andare alla pagina di dettaglio
Passaggio 4: Click Item - per cliccare sui elementi nel loop item e andare alla pagina dei dettagli
Passaggio 5: Extract Data - per estrarre i dati necessari dalla lista di elementi
Passaggio 6: Click to Paginate - per fare clic sul pulsante della pagina successiva per passare alla Pagina 2
Passaggio 7: Continua a fare clic sugli elementi in loop, estrae dati dalla pagina dei dettagli e fa clic sul tasto della pagina successiva fino a quando Octoparse arriva all'ultima pagina
Passaggio 8: Viene trovato nessun pulsante di pagina successiva nell'ultima pagina e il flusso di lavoro termina
Esempio 3 - Caricare più elementi facendo clic sul tasto Carica Altro e raccogliere i dati dalla lista di elementi
Passaggio 1: Go to Web Page - per aprire la pagina web di destinazione
Passaggio 2: Pagination - per localizzare il tasto di Carica altro
Passaggio 3: Fare clic per Impaginare, per fare clic sul pulsante Carica altro per caricare più elementi nella pagina
Passaggio 4: Continua a fare clic sul tasto di Carica altro fino a non se lo trova
Passaggio 5: Loop Item - per localizzare la lista di elementi nella pagina
Passaggio 6: Extract Data - per estrarre i dati necessari dalla lista di elementi
3. Esaminare l'esecuzione del flusso di lavoro
È importante eseguire un test del flusso di lavoro passo dopo passo prima di eseguire il task. Quando fai clic su un passaggio nel flusso di lavoro, Octoparse eseguirà l'azione nel browser integrato per aiutarti a verificare se l'azione funziona come previsto e puoi modificarla di conseguenza. Ad esempio, quando si fa clic su Vai alla Pagina Web, Octoparse caricherà la pagina web nel browser integrato automaticamente.
Si può controllare più dettagli sul test del flusso di lavoro qui.
Suggerimenti:
Non esistono modi fissi per costruire un flusso di lavoro. Puoi aggiungere qualsiasi azione fintanto che funzionano logicamente insieme.
Puoi utilizzare più azioni di clic o elementi loop per raspare dati da pagine di più livelli, ad esempio, pagina elenco e pagina prodotto per siti web di directory.
Puoi facilmente trascinare e spostare l'azione nel punto giusto.