Vai al contenuto principale

Creare un'attività usando una lista di URL

Aggiornato più di un anno fa

In alcuni casi, potresti avere a disposizione una lista di URL a struttura simile (come un lotto di URL di prodotti) e vuoi estrarne i dati direttamente. L'articolo ti introduce un modo facile e potente per estrarre dati da molteplici pagine web utilizzando una lista di URL.

Quando dovresti considerare di estrarre dati utilizzando un elenco di URL?

Ecco alcuni casi in cui è possibile iniziare l'attività con una lista di URL per l'estrazione.

  1. Tutti gli URL appartengono allo stesso dominio e condividendo la stessa struttura della pagina web (molto importante).

    • Esempio: Ho una lista di URL di prodotti e voglio avviare un'attività con un elenco di URL direttamente per estrarre i dati di prezzo aggiornati regolarmente.

  2. Alcuni siti web usano lo scorrimento infinito/carica altro per caricare i contenuti. Se hai bisogno di raccogliere dati cliccando su ciascun URL per estrarre i dettagli sullo strato più profondo, allora dovrai dividere l'attività di scraping in due: una per caricare la pagina e raccogliere gli URL, l'altra per utilizzare una lista di URL estratti per acquisire le informazioni dettagliate.

    • Esempio: La pagina dei risultati di ricerca di Zara utilizza lo scorrimento infinito per caricare nuovi articoli. Se i dati di cui hai bisogno sono sulla pagina del prodotto, allora devresti impostare quante volte si deve scorrere la pagina e raccogliere prima un numero sufficiente di URL di prodotto per la prossima attività.

  3. Il sito web applica AJAX (Soluzioni su AJAX) per caricare nuovi contenuti, il che significa che dopo aver fatto clic sulla prima pagina del prodotto, il sistema non torna automaticamente alla pagina di elenco (e clicca sulla seconda pagina del prodotto da lì). Dovremo estrarre prima gli URL delle pagine di dettaglio e poi estrarre i dati che desideri con la lista degli URL.

  4. Alcuni siti web tendono a caricare le pagine molto lentamente durante la paginazione, il che potrebbe influire sull'estrazione dei dati delle attività pianificate, quindi è meglio scorrere direttamente gli URL delle pagine per evitare il problema.

Come faccio a sapere se le pagine hanno la stessa struttura?

Se stai estraendo articoli di notizie da un particolare sito web, molto probabilmente le pagine degli articoli condivideranno la stessa struttura della pagina, come:

22.png

Un altro esempio proviene da Google maps. Ogni pagina aziendale viene visualizzata come sotto:

23.png

Per eseguire lo scraping con un elenco di URL, dovremo semplicemente impostare un loop di tutti gli URL da cui abbiamo bisogno di estrarre dati, quindi aggiungere un'azione di estrazione dati subito dopo per ottenere i dati di cui abbiamo bisogno. Octoparse caricherà gli URL uno per uno ed estrarre i dati da ciascuna pagina.

Creata una modalità di loop "List of URLs", Octoparse non ha bisogno di gestire passaggi extra come Cliccare per paginare o Cliccare sull'oggetto per entrare nella pagina dell'oggetto. Di conseguenza, la velocità di estrazione sarà più veloce, in particolare per l'estrazione nel cloud. Controlla l'articolo di Velocizza lo scraping utilizzando l'elenco degli URL.

Domande Frequenti:

1. Posso utilizzare URL che non condividono lo stesso layout di pagina?

Sfortunatamente, solo gli URL che condividono la stessa struttura di pagina possono essere estratti sotto la modalità di loop "List of URLs". Per garantire che i dati vengano estratti in modo coerente e accurato, è necessario garantire che queste pagine condividano lo stesso layout di pagina.

Scopri di più sulla modalità "List of URLs", puoi consultare il seguente articolo: Elementi in loop

2. Esiste un limite al numero di URL che posso aggiungere contemporaneamente?

Sì. Suggeriamo di non aggiungere più di 10.000 URL se copi e incolli direttamente gli URL in Octoparse. Tuttavia, la funzione di inserimento in batch di URL, è possibile inserire fino a 1 milione di URL.

3. Octoparse può raccogliere e aggiungere automaticamente gli URL?

Octoparse può inserire URL da un'altra attività. È possibile utilizzare un task per estrarre gli URL e quindi configurare un altro compito per utilizzare gli URL.

L'API di Octoparse consente di modificare l'elenco degli URL senza accedere all'app.

Per estrarre dati da un elenco di URL, il processo di estrazione può essere generalmente suddiviso in 3 semplici passaggi:

web scraping with octoparse - scraping with a list of urls

Ti postrebbero servire i link sottoposti per seguire la guida:

Nell'uso di Octoparse, esistono due modi per creare un loop di "List of URLs". Si può scegliere il modo che è adatto al tuo caso. Continua a leggere:


Metodo 1. Iniziare una nuova attività con un elenco di URL

1). Fare clic su +New e poi su Custom Task (personalizza attività) per creare una nuova attività

2). Incollare l'elenco degli URL nella casella di testo e cliccare su Save

Dopo aver salvato i passaggi suddetti, un'azione di URL in loop (che scorre ciascun URL nell'elenco) viene creata automaticamente nel flusso di lavoro. Se fai clic su Loop URLs, si può vedere che gli URL che hai inserito sono stati aggiunti agli elementi in loop.

332.png

3). Dopo aver salvato gli URL, la prima pagina si aprirà automaticamente e potrai selezionare i dati sulla pagina da estrarre.


Metodo 2. Creare un loop con modalità di loop "List of URLs" nel flusso di lavoro

Il passaggio si applica al caso in cui hai avviato un'attività e puoi crearci direttamente un ciclo per gli URL.

1) Aggiungere un Loop nel flusso di lavoro

2) Andare alla modalità di loop e selezionare List of URLs. Fare clic sul tasto del modificare per incollare l'elenco degli URL. Non dimenticare di cliccare su Apply per salvare le impostazioni.

333.png

3). Aggiungere un'azione di Open Page all'interno della finestrina del Loop Item, poi spuntare la casella Load URLs in the loop e fare clic su Apply per confermare

Nota: Se lo scraping si interrompe subito dopo aver avviato l'estrazione, possiamo provare ad aggiungere un timeout più lungo per l'apertura della pagina web, in modo che il sistema aspetti più a lungo che la pagina web sia completamente caricata.

338.png

4). Dopo aver salvato gli URL, la prima pagina si aprirà automaticamente e potrai selezionare i dati sulla pagina da estrarre.


Ecco alcuni suggerimenti aggiuntivi per i due scenari sopra.

Nota:

1. A volte se Octoparse lavora troppo velocemente, è possibile che le pagine non vengano caricate completamente prima che venga eseguito il passaggio dell'estrazione dei dati, il che potrebbe portare a dati non estratti o incompleti. Per evitarlo, possiamo configurare un'azione di Wait before action.

Fai clic sulle impostazioni per l'azione Extract Data e imposta un tempo di attesa prima che l'azione venga eseguita (di solito funziona fra 2 e 3 secondi).

wait_time.png

2. Se vuoi ottenere dati esportati allineati con l'elenco degli URL originali che hai inserito, puoi aggiungere l'URL della pagina corrente qui:

339.png

Dopo il processo suddetto, quando esegui il task, scoprirai che dopo aver finito lo scraping di un sito web, Octoparse passerà automaticamente alla pagina successiva.

440.png
Hai ricevuto la risposta alla tua domanda?