È interessante avere i dati rilevati automaticamente, ma nessun algoritmo è perfetto. Ci saranno occasioni in cui i dati di cui hai bisogno non vengono rilevati accuratamente. In questa lezione esamineremo alcune semplici soluzioni che puoi applicare per ottimizzare l'attività di scraping.
1. Quando i campi di dati di destinazione non vengono rilevati
Quando Octoparse rileva i dati su qualsiasi pagina web, esamina l'intera pagina e tirare uno o più set di dati utilizzando il suo algoritmo di apprendimento automatico. Se non vedi che i dati di destinazione vengono rilevati al primo tentativo, è possibile passare al secondo set di dati facendo clic su Switch auto-detect results (cambia i risultati del rilevamento automatico). La frazione qui significa che Octoparse ha rilevato 3 set di dati e ti viene mostrato il primo.
2. Quando non è giusta la paginatura rilevata automaticamente
Se il rilevamento automatico non riesce a individuare correttamente la paginazione, clicca su Edit (modifica) e segui le istruzioni sul pannello dei suggerimenti per selezionare nuovamente il pulsante Pagina successiva corretto.
Suggerimenti: Se il pulsante di Avanti o Carica altro non viene rilevato, controlla i tutorial seguenti per impostare la paginatura manualmente: |
3. Quando hai bisogno di scorrere ulteriormente verso il basso per caricare più dati
Ogni volta che viene rilevata una pagina web con uno scorrimento infinito, Octoparse specifica automaticamente il numero di volte in cui scorrere la pagina verso il basso. Se preferisci scorrere di più prima di acquisire i dati, ti basta cliccare su Edit e quindi completare le impostazioni per modificare il numero di volte di scorrimento.
In questo esempio, Repeats (ripete) indica quante volte Octoparse deve scorrere su questa pagina e Wait (aspetta) vuol dire il tempo di permanenza tra ogni scorrimento.
4. Se è necessario fare clic sui link nella pagina per ottenere dati più dettagliati
In molti casi, dovrai fare clic sul link di ciascun prodotto per accedere alla pagina dei dettagli dell'articolo che fornisce informazioni più specifiche, come la descrizione del prodotto. Octoparse offre un'opzione semplice per te sul pannello dei suggerimenti.
Dopo aver fatto clic su Create workflow (crea un flusso di lavoro), clicca su Select subpage URL (seleziona l'URL della sottopagina) e scegli il campo di dati su cui si fa clic.
In alternativa, puoi scegliere Select an anchor element on the webpage (seleziona un elemento di ancoraggio sulla pagina web) e selezionare il link direttamente dalla pagina web.
4. Lavorare direttamente con il flusso di lavoro
Quando si crea un'attività di raschiatura in Octoparse, simula azioni di navigazione umana reali, come l'apertura di una pagina web e il clic su un elemento/pulsante della pagina per estrarre automaticamente i dati. L'intero processo di estrazione viene definito automaticamente in un flusso di lavoro in cui ogni singolo passaggio/azione rappresenta una particolare istruzione nell'attività di scraping.
Sebbene Octoparse cerchi di semplificarti le cose generando automaticamente il flusso di lavoro tramite il rilevamento automatico, è possibile costruire il flusso di lavoro da zero o modificare il flusso di lavoro generato automaticamente per assicurarti che l'attività faccia ciò che desideri.
Esistono molti tipi diversi di azioni che puoi aggiungere al flusso di lavoro. Ogni passaggio/azione ha varie impostazioni che puoi modificare per ottimizzare l'attività di scraping.
Riorganizzare i passaggi del flusso di lavoro trascinandoli nel punto giusto.
Cliccare per controllare e modificare le impostazioni di un passaggio specifico.
Per aggiungere un altro passo al flusso di lavoro, posiziona il mouse nel punto in cui desideri inserire il passaggio. Attendi finché non viene visualizzato il segno +, fai clic su di esso e seleziona l'azione che desideri aggiungere.
Rinominare, coppiare o eliminare un passaggio facendo clic destro su ogni passo del flusso di lavoro.
Continua a leggere >> Lezione 3: Perfezionare i dati