Raccogliere dati da una parte di una pagina web che deve essere fatta scorrere verso il basso è stato a lungo un problema per Octoparse, soprattutto per le pagine web con più barre di scorrimento.
Che cos'è "Scorrimento all'interno di un'area designata"?
Nella maggior parte dei casi, dobbiamo scorrere l'intera pagina con la barra di scorrimento predefinita normalmente sul lato destro dell'intera pagina web. Per questo tipo di pagina web, il metodo di scorrimento predefinito, che consiste nello scorrimento all'interno della barra di scorrimento predefinita, funziona bene.
Tuttavia, ci sono pagine, ad esempio le pagine di recensioni o di post, che sono progettate diversamente.
Prendiamo come esempio la pagina delle recensioni di Google Maps: https://www.google.com/maps/place/The+Schoolhouse/@51.4374112,-1.0878661,9.7z/data=!4m10!1m2!2m1!1srestaurants+in+ londra!3m6!1s0x4876058fd98fc091:0xbf1c07755166b551!8m2!3d51.4604646!4d-0.1757991!9m1!1b1
Le recensioni vengono visualizzate nella parte sinistra della pagina web e in questa parte esiste una barra di scorrimento. Quando trascini questa barra verso il basso, la parte delle recensioni scorrerà verso il basso e caricherà più commenti. Tuttavia, noterai che le altre parti della pagina non cambieranno.
Dovremo impostare uno scorrimento parziale nelle impostazioni dell'attività con Octoparse.
Ecco un altro esempio della pagina dei commenti di un video TikTok. Come puoi vedere, nella sezione delle recensioni c'è una barra di scorrimento separata dalla pagina principale del video.
Come scorrere all'interno di un'area designata in Octoparse?
Esistono due modi per configurarlo:
1. Configurare lo scorrimento all'azione Vai alla pagina Web o Fai clic sull'elemento (scorri prima per terminare il caricamento e poi estrai i dati)
Fare clic su Vai alla pagina web o Fai clic su elemento
Clicca su Opzioni e seleziona Scorri verso il basso la pagina dopo averla caricata
Selezionare Parziale dall'area di scorrimento
2. Impostare lo scorrimento dell'azione Elementi in loop (scorri ed estrai allo stesso tempo)
Aggiungere un passaggio Elementi in loop al flusso di lavoro
Fare clic su Elementi in loop e scegliere Scorrimento di pagina nella Modalità di loop
Scegliere Parziale nella'area da scorrere
Inserire l'XPath dell'area di scorrimento
Successivamente, devi dire a Octoparse dove scorrere. È necessario inserire l'XPath dell'area di scorrimento.
Potresti scrivere un XPath se sai come farlo. Scopri i dettagli su XPath in questo tutorial: Cos'è XPath e come usarlo in Octoparse
Se non sai come scrivere un XPath da solo, fai clic sull'icona accanto alla casella di input XPath corrispondente e seleziona manualmente l'area di scorrimento dalla pagina web. Octoparse genererà automaticamente un XPath.
Nota: tieni presente che quello generato automaticamente e anche quello che scrivi da solo non funzioneranno sempre bene. Potrebbe essere necessario riprovare più volte per assicurarsi che l'area selezionata sia scorrevole.
Scegliere il modo di scorrimento: scorri per una schermata o scorri fino in fondo
Impostare il numero di volte per lo scorrimento e il tempo di attesa (intervallo di tempo tra ogni scorrimento)
Fare clic su Applica per salvare le impostazioni