Vai al contenuto principale

Perché Octoparse fa clic solo sul primo elemento e poi si ferma?

Aggiornato più di un anno fa

Quando hai aggiunto un'azione Fai clic in loop nel flusso di lavoro, per impostazione predefinita Octoparse sceglie di aprire la pagina di ogni singolo link in una nuova scheda. Pertanto, mentre il software fa clic per aprire ciascun link nell'elenco, non perderà mai la scheda contenente la pagina dell'elenco degli elementi nel loop.

Tuttavia, ci sono casi particolari in cui la nuova pagina può essere caricata solo nella scheda corrente. In questo caso, Octoparse non è in grado di fare clic sul secondo elemento nell'elenco del loop poiché non può più accedere all'elenco originale. In questo modo otterrai un'azione di clic in loop che fa clic solo sul primo elemento nel loop senza procedere agli elementi successivi nell'elenco.


Come faccio a sapere se il mio loop funziona o no?

Puoi verificare se l'azione Elementi nel loop funziona correttamente facendo clic manualmente sulle azioni nel flusso di lavoro.

  • Fai clic sull'azione Elementi in loop dopo il caricamento della pagina dell'elenco

  • Fai clic sull'azione Clicca l'elemento o Clicca gli URL nell'elenco e attendere il caricamento della nuova pagina

  • Fai nuovamente clic sull'azione Elementi in loop per vedere se Octoparse mostra la pagina dell'elenco

Se riesci a vedere la pagina dell'elenco, significa che Octoparse è in grado di tornare alla pagina dell'elenco e il Loop dovrebbe funzionare. Altrimenti, dovrai modificare il flusso di lavoro per farlo funzionare. Di seguito sono riportate alcune soluzioni rapide che puoi provare tu stesso.


1. Aprire la pagina dei dettagli in una nuova scheda

Per i siti web che supportano l'apertura dei link in una nuova scheda, vai alle impostazioni dell'elemento clic (che fa clic per aprire la nuova pagina). Controlla se è spuntata la casella di Apri in una nuova scheda. In caso contrario, semplicemente selezionando l'opzione sarà possibile risolvere il problema.


2. Aggiungere un pulsante Indietro

Se l'azione Elementi in loop continua a non funzionare correttamente anche con Apri in una nuova scheda selezionata, è probabile che le nuove pagine non possano essere caricate nella nuova scheda.

In questo caso, la nuova pagina sovrascriverà la pagina di elenco non appena verrà caricata, quindi Octoparse non potrà tornare alla pagina di elenco.

Per risolvere questo problema, cerca i pulsanti che ti riporteranno alla pagina dell'elenco. Nell'esempio sottoposto, sarebbe il pulsante Intermediario per la vendita d'auto. Imposta un'azione Clic cliccando sul pulsante Intermediario per la vendita d'auto. In questo modo, quando Octoparse termina di raccogliere i dati sulla pagina, farà clic sul pulsante Intermediario per la vendita d'auto per tornare all'elenco originale e continuare a scorrere gli altri elementi nell'elenco.

  • Fai clic sul pulsante Intermediario per la vendita d'auto.

  • Scegli Fai clic su URL o Fai clic su elemento sul pannello dei suggerimenti.

  • Allunga il timeout per AJAX per impostare un tempo sufficiente per il caricamento del contenuto nella pagina

Ecco il flusso di lavoro arrivato a questo passaggio:


3. Aggiungiere un'azione Apri la pagina

Anche quando è selezionata l'opzione Apri in una nuova scheda ma non è disponibile alcun tasto Indietro, c'è ancora un altro trucco che si può provare: aggiungere manualmente un'azione Apri la pagina per aiutare Octoparse a tornare alla pagina dell'elenco originale.

Posiziona il cursore sul flusso di lavoro e aggiungi un passaggio Apri la pagina come ultimo passaggio nell'azione Elementi in loo. Questa azione riaprirà la pagina dell'elenco ogni volta che Octoparse termina di scansionare la pagina dell'articolo corrente. Tuttavia, questo trucco potrebbe non funzionare bene se stai creando un elenco che si estende su più pagine.

  • Aggiungi un'azione Apri la pagina al flusso di lavoro

  • Copia e incolla l'URL della pagina degli elenchi


4. Aggiungere un'azione Torna alla pagina precedente

Se, per caso, i metodi sopra descritti non sembrano produrre risultati positivi, potresti prendere in considerazione l'aggiunta dell'opzione Torna alla pagina precedente.

Basta fare clic sull'icona "+" e aggiungere Torna alla pagina precedente come passaggio finale nella finestrella di Elementi nel ciclo. Questa funzione consentirà alla tua attività di tornare facilmente alla pagina dell'elenco originale e accedere ad altri elementi dell'elenco.


5. Dividere l'attività in due attività diverse

Ecco l'ultima soluzione. Indipendentemente da quanto lungo è il tuo elenco o dal motivo per cui la pagina non viene caricata in una nuova scheda, puoi sempre provare a dividere l'attività in due, uno che raccoglie gli URL incorporati negli elementi dell'elenco e l'altro altra attività impostata per estrarre informazioni specifiche da ciascuno di questi URL. Questo è un trucco che fa miracoli perché non solo è affidabile ma rende il processo di scraping molto più efficiente non dovendo passare avanti e indietro tra le schede.

Per automatizzare ulteriormente il processo di scraping, puoi anche associare le attività da eseguire insieme utilizzando la funzione: importa URL da un'altra attività.

Hai ricevuto la risposta alla tua domanda?