Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
Fare lo scraping ai negozi online come eBay e Amazon è diventato un metodo di ottenere fonte di dati di fondamentale importanza, che ti consente di confrontare in modo veloce e comodo i prodotti in vendita a caldo in base a prezzi, caratteristiche e descrizioni dei prodotti.
Il tutorial ti presenterà come raccogliere i dati dei prodotti da eBay.
Si può andare su Modelli predefiniti nella schermata principale di Octoparse e iniziare direttamente con i modelli eBay pronti all'uso per risparmiare tempo. Con questa funzionalità non è necessario configurare da se stesso attività di scraping. Per ulteriori dettagli, puoi verificarlo qui: Modelli predefiniti
Se desideri sapere come creare l'attività da zero, puoi continuare a leggere il l'articolo. Raccoglieremo dati come nome, condizione, prezzo e ulteriori informazioni dalla pagina dei dettagli del prodotto con Octoparse.
Per proseguire, potresti voler utilizzare questo URL nel tutorial:
Andiamo a estrarre le informazioni dei prodotti sotto la parola chiave caffetiera su eBay. Controlla i passaggi principali nel menù alla destra. (Scarica il file dell'attività)
1. Creare un'azione Go To Web Page: per aprire la pagina web di destinazione
Inserire l'URL di esempio e fare clic su Start
2. Rilevare automaticamente i dati della pagina web: per creare il flusso di lavoro
Fare clic su Auto-detect web page data (rileva automaticamente i dati della pagina web) e attendere il completamento del rilevamento
Cancellare i campi indesiderati
Deselezionare Add a page scroll (aggiungi uno scorrimento di pagina)
Cliccare su Create workflow (crea flusso di lavoro) sul pannello dei suggerimenti
Si ottiene un flusso di lavoro come quello sottoposto:
Se tutti i dati necessari possono essere raccolti dalla pagina dell'elenco, puoi fermarti qui e passare a Avviare estrazione: esegui l'attività e ottieni i dati. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nel seguente modo.
3. Selezionare il link - per estrarre i dati dalla pagina dei dettagli
Cliccare su Select subpage URL (seleziona URL pagina secondaria)
Scegliere Title_URL dall'opzione a tendina
Fare clic su Confirm
Octoparse navigherà automaticamente alla pagina dei dettagli del primo prodotto.
4. Estrarre dati: per raccogliere i dati dalla pagina dei dettagli del prodotto
Cliccare su qualsiasi elemento desiderato e selezionare Text
Fare doppio clic sul nome di un campo per rinominarlo se necessario
Suggerimento: controlla i tutorial seguenti per scoprire che tipo di dati puoi acquisire:
5. Modificare l'XPath dei campi dati - per raschiare i dati con precisione
Potrebbe essere necessario modificare l'XPath di alcuni campi dati che non vengono visualizzati su ogni pagina del prodotto oppure la posizione del campo varia da pagina a pagina, come MPN o UPC. Possiamo modificare XPath per rendere più preciso lo scraping dei dati. Non ti preoccupare! Ti abbiamo preparato per te alcuni XPath utilizzati di frequente. È possibile semplicemente usare l'elemento XPath fornito di seguito.
Cliccare su More
Fare clic su Customize XPath
Sostituire l'attuale XPath con quello riesaminato
MPN: //span[@itemprop='mpn']
UPC: //span[text()='UPC']/../../../../div[2]/div
Item Weight: //span[text()='Item Weight']/../../../../div[2]//span
Aggiungere un Xpath di riserva:
MPN: //div[text()='MPN']/../div[2]
UPC: //div[text()='UPC']/../div[2]
Item Weight: //div[text()='Item Weight']/../div[2]
Fare clic su Apply per salvare
Suggerimento: puoi consultare i tutorial XPath di seguito per scrivere XPath per altri campi, se necessario:
6. Avviare l'estrazione: per eseguire l'attività e ottenere i dati
Fare clic su Save
Cliccare su Run in alto a sinistra
Selezionare Run task on your device (esegui attività sul tuo dispositivo) per eseguire l'attività sul tuo computer oppure scegliere Run task in the Cloud (esegui attività nel Cloud) per eseguirla sui nostri server Cloud (solo per utenti premium)
Ecco i dati di esempio esportati.