Vai al contenuto principale

Cos'è l'Attività Personalizzata?

Aggiornato più di un anno fa

L'attività personalizzata consente a tutti di acquisire dati da qualsiasi sito web utilizzando un semplice punta-e-clicca senza codice. Se stai cercando di fare lo scraping su pagine web un po' più complicate o se non riesci ancora ad estrarre dati utilizzando il rilevamento automatico, ti consigliamo vivamente di provare l'Attività personalizzata e scoprire davvero il mondo delle possibilità:

  • Raccogliere informazioni da quasi tutte le pagine web

  • Estrarre dati come testo, URL, immagine e HTML

  • Interagire con le pagine web per eseguire azioni complesse come l'autenticazione dell'accesso, la ricerca di parole chiave e il passaggio da un menu a tendina

  • Perfezionare il tuo flusso di lavoro, ad esempio aggiungendo tempi di attesa, modificando XPath e riformattando i dati estratti


Iniziare un task di scraping all'Attività personalizzata

Esistono due modi per avviare rapidamente una nuova attività utilizzando l'attività personalizzata:

1) Inserire l'URL della pagina web di destinazione nella homepage e cliccare su Inizia.

2) Mettere il cursore su l'icona + Nuovo sotto il logo di Octoparse e fare clic su Attività personalizzata.


Area di lavoro in un'attività personalizzata

  • Navigatore integrato: una volta inserito l'URL di una pagina web di destinazione, la pagina web verrà caricata nel browser integrato di Octoparse. È possibile navigare nel sito web in modalità Browse oppure fare clic per estrarre i dati necessari in modalità Select.

  • Flusso di lavoro: mentre procedi con l'interazione con la pagina web, ad esempio aprendo una pagina web e facendo clic su un elemento/pulsante della pagina, l'intero processo viene definito automaticamente sotto forma di flusso di lavoro.

  • Pannello dei suggerimenti: Octoparse utilizza suggerimenti intelligenti per "parlarti" durante il processo di scraping, per guidarti attraverso il processo di creazione delle attività.

  • Anteprima dei dati: visualizza un'anteprima dei dati selezionati. Si può anche rinominare i campi dati o rimuovere quelli che non sono necessari.

  • Impostazioni: le opzioni di impostazione per le azioni nel flusso di lavoro verranno visualizzate dopo aver selezionato un'azione.


Come costruire manualmente attività con la funzione Attività personalizzata

Per creare manualmente un'attività utilizzando l'attività personalizzata, è sufficiente fare clic sui dati di destinazione nella pagina web. Segui i suggerimenti sul processo della costruzione delle attività forniti dal pannello dei suggerimenti. I passaggi generali sono semplici e diretti:

Seleziona i dati necessari nella pagina web >> Segui le istruzioni fornite nel pannello dei suggerimenti >> Controlla il flusso di lavoro >> Esegui l'attività per ottenere i dati

Alla luce della natura del web, le pagine web cambiano continuamente e diversi insiemi di dati possono essere necessari a individui diversi. L'attività personalizzata viene creata con la flessibilità e la versatilità necessarie per gestire tutti i tipi di esigenze di scraping, assicurandosi che sia comunque compatibile con i non programmatori con la guida passo dopo passo fornita dai suggerimenti intelligenti.

1. Selezionare i dati necessari nella pagina web

Nel browser integrato si possono fare semplicemente clic per selezionare i dati che desideri estrarre dalla pagina web. Quando metti il cursore sulla pagina web, Octoparse cerca di "capire" cosa desideri recuperare evidenziando gli elementi della pagina attorno al cursore. Si può spostare leggermente il cursore se l'area evidenziata non è abbastanza vicina a ciò che desideri estrarre.

Una volta che i dati che vuoi vengono evidenziati in blu, puoi cliccarci per confermare la selezione. Adesso l'elemento della pagina selezionata dovrebbe essere evidenziato in verde, il che significa che sei riuscito a selezionarlo.

Ripeti la stessa procedura se desideri estrarre più elementi sulla stessa pagina.

2. Seguire le istruzioni fornite nel pannello dei suggerimenti

Octoparse tenta di guidarti attraverso il processo di creazione delle attività offrendo tutti i possibili passaggi successivi nel pannello Suggerimenti per le azioni. È un modo per Octoparse di "parlare" con te.

Ogni volta che selezioni un elemento, verrà visualizzato il pannello dei suggerimenti per le azioni con una serie di opzioni tra cui scegliere. Segui semplicemente le istruzioni fornite e scegli come procedere con i dati selezionati. Ad esempio, se desideri estrarre il testo degli elementi selezionati, puoi scegliere Testo; oppure se desideri fare clic sull'elemento selezionato per accedere alla pagina collegata, puoi scegliere Fai clic su elemento.

Di seguito sono riportate le azioni utilizzate più frequentemente:

  • Testo: estrae il testo dell'elemento della pagina selezionato

  • Fai clic su elemento: clicca sull'elemento della pagina selezionato

  • InnerHtml e OuterHtml: cattura la stringa del codice sorgente dell'elemento selezionato

  • Clic in loop: fa clic ripetutamente sull'elemento selezionato

  • Link: acquisisce l'URL del link selezionato (quando viene selezionato un collegamento)

  • URL immagine: cattura l'URL dell'immagine (quando viene selezionata un'immagine)

SUGGERIMENTI:

  • Nei casi in cui un elemento target è difficile da individuare con il cursore, è possibile utilizzare i tag HTML situati nella parte inferiore del pannello Suggerimenti per perfezionare la selezione.

  • Il pulsante per espandere la selezione

    Può essere utilizzato per espandere la selezione corrente per includere il tag HTML esterno. Ad esempio, se desideri estrarre l'intera parte che circonda l'elemento selezionato, puoi continuare a fare clic sul pulsante di espansione finché l'intera parte non viene evidenziata in verde.

3. Controllare il flusso di lavoro

Mentre procedi con la costruizione dell'attività di scraping, Octoparse crea contemporaneamente un flusso di lavoro in base al modo in cui hai interagito con la pagina web e con il pannello dei suggerimenti.

Un esempio di flusso di lavoro:

Suggerimento: dai un'occhiata a questo tutorial per saperne di più su come testare il flusso di lavoro passo dopo passo: Lezione 4: Provare l'attività

4. Esegui l'attività per ottenere i dati

Ora che hai finito di creare e testare la tua attività, puoi eseguirla facendo clic sul pulsante Esegui. Puoi eseguire l'attività sul tuo dispositivo o eseguirla nel Cloud.

Hai ricevuto la risposta alla tua domanda?