Vai al contenuto principale

Fare clic su ogni link in una lista e estrarre dati da nuove pagine

Aggiornato più di un anno fa

Fare clic su ciascun link in una lista e acquisire dati da una nuova pagina è uno scenario comune nel web scraping. Questo tutorial ti mostrerà come fare clic su una pagina di elenco per raggiungere una pagina dei dettagli per ottenere i dati di cui hai bisogno. Ciò è particolarmente utile quando si estrae da siti di e-commerce (Amazon, eBay, ecc.) e directory aziendali (Yelp, Yellowpage, ecc.).

web scraping with octoparse - extract from item page

Avrebbe bisigno di questo link per seguire i passi:


1. Utilizzare il Rilevamento automatico per costruire il flusso di lavoro

  • Dopo aver creato una nuova attività inserendo l'URL di esempio (https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008), seleziona Auto-detect web page data (rileva automaticamente i dati della pagina web). Octoparse ora rileverà tutti i dati sulla pagina e potrai fare clic su Create workflow (crea flusso di lavoro) per generare il flusso di lavoro.

  • Seleziona Select subpage URL (seleziona URL pagina secondaria) nel pannello dei suggerimenti e scegli un'opzione dal menu a tendina. Qui puoi scegliere Title_URL.

Octoparse ti porterà ora alla pagina dei dettagli del primo prodotto.

  • Rileva di nuovo automaticamente i dati web o fai clic sui campi dati di destinazione come titolo, condizione, prezzo, ecc. per raccoglierli.


2. Configurare manualmente il flusso di lavoro

  • Fai clic sul primo titolo del prodotto che contiene l'URL della pagina del prodotto. Il titolo selezionato verrà evidenziato in verde mentre tutti gli altri titoli di prodotti simili verranno evidenziati in rosso.

1.png

  • Clicca su Select all similar elements (seleziona tutti gli elementi simili) sul pannello dei suggerimenti

Nota: se non è presente l'opzione Select all (seleziona tutto) nel pannello dei suggerimenti dopo aver selezionato il primo URL, continua a selezionare il secondo URL.

  • Seleziona Loop click each element (fai clic ripetutamente su ogni elemento) oppure Loop click each URL (fai clic su ciascun URL) dal pannello dei suggerimenti.

  • Quando appare questa finestra pop-up, fai clic su No

Il passaggio del clic in loop verrà generato automaticamente e aggiunto al flusso di lavoro.

Nota: per fare clic in sequenza su tutti i link nella lista, è importante selezionare l'elemento di ancoraggio. Octoparse identifica automaticamente i tag per gli elementi selezionati. Pertanto, quando selezioni un elemento con un URL, il tag selezionato sarà "A", che sta per un'ancora che solitamente collega una pagina a un'altra.

Se trovi che Octoparse non individua il tag A, puoi fare clic sulla "A" nel pannello dei suggerimenti.

  • Fai clic sui campi dati target come titolo, recensione, prezzo, ecc. Per estrarli.

Nota: l'impostazione di un tempo di attesa nelle Opzioni per passaggi come Clicca sull'elemento o Estrai dati può effettivamente evitare il salto dei dati e rendere il processo di scansione più simile a quello umano. (Di solito, 2-5 secondi funzionerebbero bene). Quindi fare clic su Applica per confermare.

1112.png

Hai ricevuto la risposta alla tua domanda?