Molti siti web utilizzano il tasto Carica altro o Mostra altro per caricare continuamente i contenuti. I siti web utilizzano molto comunemente questa tecnica per creare un'esperienza utente migliore.
A differenza dell'impaginazione con un tasto Avanti, il Carica altro continua ad aggiungere più contenuti su una pagina web, che la rende più difficile da recuperare. In questo articolo ti mostreremo come fare lo scraping a questo tipo di pagine web in Octoparse.
Potrebbe essere necessario questo link di esempio da seguire:
1. Utilizzare il rilevamento automatico
Avvia il processo di rilevamento automatico e troverai l'opzione Click on a "Load More" button (fai clic sul tasto Carica altro) nel pannello dei suggerimenti.
Fai clic su Check (controlla) per verificare se il pulsante Carica altro è stato posizionato correttamente. In caso contrario, puoi clicca su Edit (modifica) per scegliere il pulsante giusto.
Fai clic su Edit per cambiare il numero di clic, ovvero quante volte desideri fare clic sul pulsante Carica altro.
Clicca su Create workflow (crea flusso di lavoro) per generare le impostazioni
Il flusso di lavoro dovrebbe assomigliare all'immagine seguente:
2. Creare manualmente un'impaginazione
Seleziona il tasto Carica altro sulla pagina web e scegli Loop click single element (fai clic in ciclo elemento singolo)
Imposta un timeout AJAX corretto (cos'è AJAX?)
Suggerimenti:
1. Se desideri fare clic sul tasto Carica altro solo per X volte, clicca sulla casella Impaginazione, spunta la casella Ripete e imposta Ripetizioni di X volte.
2. Se scopri che l'attività riceve molti duplicati durante lo scraping, puoi trascinare il Loop Item fuori dall'Impaginazione in modo che Octoparse inizi lo scraping dopo aver caricato tutti gli elementi.