Quando raccogliamo informazioni sui prodotti dai siti di e-commerce, il più delle volte, ci aspettiamo di estrarre i dati non solo dalla pagina dei risultati di ricerca ma anche dalla pagina dei dettagli di ciascun prodotto. In questo tutorial ti presenteremo come costruire un crawler personalizzato per raggiungere tale scopo.
Per esempio, cerchiamo "camera lens" su eBay. Ecco l'url di prova:
In questo caso, vogliamo estrarre prima il titolo dell'obiettivo fotografico dalla pagina di lista, in seguito andiamo alla sua pagina dei dettagli per ottenere le sue specifiche. Per raggiungere questi goal, abbiamo due metodi.
1. Usare il rilevamento automatico della pagina web per creare un flusso di lavoro
La funzionalità di rilevamento intelligente di Octoparse 8.X è più potente che mai. Possiamo usarlo per rilevare la pagina web per risparmiare tempo.
Fare clic su Auto-detect web page data nel pannello dei suggerimenti e aspetta che lo completi
Controllare i risultati del rilevamento automatico per trovare i campi dati che vuoi (in questo caso il risultato 1)
Controllare i campi dati nell'Anteprima dei dati e cancellare quelli non desiderati
Quando cerchiamo linee di prodotti popolari come quella che utilizziamo per la dimostrazione, è probabile che dobbiamo navigare attraverso più pagine dei risultati di ricerca ed estrarre dati da ciascuna di esse.
Fare clic sul tasto Check per controllare se Octoparse riesce a individuare un pulsante Pagina succesiva
Deselezionare Add a page scroll (aggiungi uno scorrimento della pagina) e cliccare su Create workflow (crea un flusso di lavoro)
Octoparse ora ha creato un Loop Item nel flusso di lavoro, che può aiutare a estrarre dalla pagina dei risultati di ricerca. Continueremo a sviluppare i passaggi per accedere alle pagine dei dettagli.
Scegliere Select subpage URL
Scegliere un campo con gli url desiderati e poi cliccare su Confirm
Ora Octoparse ci ha portato alla pagina dettagliata per un'ulteriore estrazione dei dati. Possiamo rimuovere le informazioni che desideriamo dalla pagina.
Fare clic su qualsiasi elemento web che vuoi estrarre
Cliccare su Text sul pannello dei suggerimenti
Fare doppio clic sull'intestazione del campo dati nell'Anteprima dei dati per modificare il suo nome.
2. Creare manualmente il flusso di lavoro
Se la funzione di rilevamento automatico fallisce per alcuni siti web, possiamo anche costruire manualmente il flusso di lavoro. Vedi i passaggi seguenti:
Selezionare il primo prodotto sulla pagina di lista.
Continuare a scegliere il secondo.
Fare clic su Text
Un Loop Item è stato ora aggiunto al flusso di lavoro, ma solo un campo è stato eliminato. Possiamo aggiungere altri campi.
Selezionare qualsiasi informazione desiderata da raccogliere dalla pagina dei risultati
Scegliere Text
Ripetere i passaggi precedenti per aggiungere più campi dati
Quindi dobbiamo creare un'azione per fare clic sull'URL del titolo del prodotto.
Selezionare il primo titolo nella pagina di lista
Fare clic su Click element
Una volta indirizzati alla pagina dei dettagli, possiamo estrarre le informazioni dalle specifiche dell'articolo.
Fare clic su qualsiasi elemento web che vuoi estrarre
Cliccare su Text nel pannello dei suggerimenti
Modifica i nomi dei campi dati nella sezione Anteprima dei dati facendo doppio clic sulla sua intestazione