Vai al contenuto principale

Come estrarre dettagli dei prodotti su Amazon

Aggiornato più di un anno fa

Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!

Amazon è uno dei siti web dell'e'commerce più visitati al mondo. Molti utenti provano a fare lo scraping del negozio online per raccogliere velocemente informazioni sui prodotto. In questo tutorial ti mostreremo come estrarre i dettagli dei prodotti da Amazon.

Si può anche andare alla Template Gallery e fare lo scraping utilizzando i modelli predefiniti per risparmiare il tempo. Octoparse fornisce diversi modelli Amazon progettati per diversi paesi come Germania, Francia, Stati Uniti, Spagna e India. Con questa funzionalità non è necessario configurare attività di scraping. Per ulteriori dettagli, puoi verificarlo qui: Modelli


È possibile anche creare l'attività da zero se desideri. Puoi continuare a leggere la guida seguente o vedere il video sotto.

Per seguire il tutorial, ti serve l'url di esempio:

I passaggi principali sono mostrati nel menù a destra e si può scaricare il file dell'attività di esempio qui.


1. Go to Web Page: per aprire il sito web di destinazione

  • Inserire l'URL nella homepage e cliccare su Start


2. Auto-detect the web page: per creare il flusso di lavoro

  • Fare clic su Auto-detect web page data (rileva automaticamente i dati della pagina web) e attendere il completamento del rilevamento

  • Deselezionare Add a page scroll (aggiungi uno scorrimento di pagina)

  • Cliccare su Create workflow

Un'azione di Pagination e di Loop Item verrebbero generati automaticamente nel flusso di lavoro.

5.png

  • Fare clic su Altro e poi Delete field (elimina campo) per cancellare i dati indesiderati

  • Fare doppio clic sull'intestazione del campo per rinominarlo

Se tutti i dati di cui hai bisogno possono essere estratti dalla pagina della lista, puoi fermarti qui e passare a impostare il limite di tempo per il caricamento AJAX per l'azione Click to Paginate. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nei seguenti passaggi.


3. Fare clic sul link di ogni prodotto: per ottenere ulteriori informazioni

Cliccare sul secondo elemento nella pagina e scegliere Click element (clicca sull'elemento) sul pannello dei suggerimenti

Arrivato a questo passaggio, il flusso di lavoro dovrebbe assomigliare a:

  • Cliccare sull'azione Click Item e incollarci l'XPath nuovo: //a[@class="a-link-normal s-no-outline"]

  • Fare clic su Apply


4. Extract Data: per estrarre i dati dalle pagine dei dettagli

  • Selezionare le informazioni che vuoi sulla pagina web

  • Scegliere Text

  • Ripetere i passaggi precedenti per estrarre tutti i dati necessari


5. Impostare il timeout di caricamento AJAX per l'azione Click to Paginate

  • Fare clic per aprire le impostazioni dell'azione Click to Paginate

  • Andare su Opzioni

  • Spuntare la casella Load with AJAX (carica con AJAX) e selezionare 10 come timeout AJAX


6. Eseguire l'estrazione: esegui l'attività e ottieni i dati

  • Fare clic su Save

  • Cliccare su Run in alto a sinistra

  • Scegliere Run on your device (esegui sul tuo dispositivo) per eseguire l'attività sul tuo computer oppure selezionare Run task in the Cloud (esegui nel cloud) per eseguire l'attività nel Cloud (solo per utenti premium)

Ecco i dati di esempio esportati.

56156156.png
Hai ricevuto la risposta alla tua domanda?