Vai al contenuto principale

Raffinare i dati estratti (sostituisci il contenuto, aggiungi un prefisso, ecc.)

Scopri come pulire i dati in Octoparse.

Aggiornato oggi

Durante il tuo progetto di web scraping, potresti voler pulire i campi dati durante l'operazione. Octoparse offre 10 opzioni di pulizia dei dati per trasformare i dati estratti nel formato desiderato.


Quando dovrei affinare i dati estratti?

Se disponi del formato dati desiderato per un campo specifico, puoi utilizzare la nostra funzione "Pulisci dati" per affinare il campo all'interno di Octoparse. Octoparse estrarrà e affinerà i dati direttamente durante il processo di scraping. Non è necessario riformattare il campo dopo aver esportato i dati in un file Excel.


Come raffinare i dati estratti in Octoparse?

Per accedere a queste funzionalità in Octoparse, è necessario seguire i 4 passaggi seguenti:

  • Selezionare il campo dati da raffinare

  • Fare clic sull'icona "..." e selezionare Pulisci dati

  • Fare clic su Aggiungi un passaggio

  • Selezionare un'operazione per riformattare i dati

Suggerimento:

In programmazione, una stringa si riferisce a un insieme di caratteri come lettere, numeri, simboli e segni di punteggiatura. Ad esempio, " " (spazio) è una stringa; "Octoparse" è una stringa; e anche "Hello 2 *% World!" è una stringa. Una stringa può anche non contenere alcun carattere. In altre parole, una stringa che non contiene alcun carattere è vuota. Sostituire una parola con una stringa vuota, colloquialmente, equivale a dire che si elimina la parola.

La parola "stringa" si troverebbe in molte istruzioni funzionali delle opzioni di riformattazione dei dati di Octoparse. Supponiamo di vedere la parola "stringa" lì. In tal caso, puoi utilizzare le opzioni corrispondenti per gestire vari tipi di caratteri nei dati estratti, come lettere, parole, frasi, numeri, spazi, simboli e segni di punteggiatura.


10 Riforma dei dati

1. Sostituisci

Funzione: Sostituisci le stringhe specifiche nei dati estratti con le nuove stringhe desiderate.

2. Sostituisci con espressione regolare

Funzione: Utilizza un'espressione regolare specifica per sostituire le stringhe corrispondenti nei dati estratti con le stringhe desiderate.

Suggerimento:

Se non sai come scrivere un'espressione, ti offriamo strumenti utili!

  • Le espressioni più comunemente utilizzate da selezionare e applicare direttamente

  • Strumento AI RegEx per generare le tue espressioni

3. Corrispondenza con espressione regolare

Funzione: Utilizza un'espressione regolare specifica per estrarre le stringhe corrispondenti dai dati estratti.

Puoi saperne di più sulle espressioni regolari su W3schools.

4. Ritagli gli spazi

Funzione: Rimuove gli spazi indesiderati dall'inizio e/o dalla fine dei dati estratti.

Se si desidera eliminare gli spazi tra i dati, è possibile utilizzare Sostituisci o Sostituisci con espressione regolare.

5. Aggiungi un prefisso

Funzione: Aggiunge una o più stringhe all'inizio dei dati estratti.

6. Aggiungi suffisso

Funzione: Aggiunge una stringa alla fine dei dati estratti.

7. Riformatta la data/ora estratta

Funzione:

  • Sposta la data/ora estratta in uno dei formati predefiniti o in un formato personalizzato.

Ad esempio, è possibile riformattare "2025-09-11 16:15:10.2310" in "2025/09/11".

  • Converte una data e un'ora relative in una data e un'ora specifiche.

Ad esempio, puoi convertire "2 giorni fa" in 2025/09/09. Questa funzione è utile quando si estraggono dati relativi all'orario di pubblicazione per lavori, articoli o video.

8. Conversione timestamp

Funzione: converte il timestamp Unix nel tuo formato personalizzato.

Il timestamp Unix è una sequenza di numeri che rappresenta una data e un'ora specifiche. Questa funzione converte l'ora Unix in un formato facilmente comprensibile.

9. Conversione fuso orario

Funzione: converte la data e l'ora nel fuso orario di destinazione.

Per alcuni siti web, la data e l'ora mostrate sulla pagina si basano sul paese di provenienza del sito web. Se desideri modificare il fuso orario in base al tuo paese, puoi utilizzare questa funzione per farlo facilmente.

Suggerimento:

Questa funzione è utile se stai estraendo i dati relativi all'orario da Cloud Run. Il fuso orario di Cloud Run è basato su UTC+0. Puoi convertirlo nel fuso orario di destinazione per evitare confusione.

10. Transcodifica HTML

Funzione: converte automaticamente specifici tag HTML in testo normale. Ad esempio, transcodifica "&" in "&".

Nota: tutti i passaggi aggiunti possono essere modificati ed eliminati qui cliccando sulle icone di modifica ed eliminazione.


Strumento Regex di Octoparse

Octoparse offre anche un generatore AI di espressioni regolari e un generatore di espressioni regolari per generare automaticamente l'espressione regolare desiderata.

Clicca qui per maggiori informazioni sull'utilizzo dello strumento Regex.

Hai ricevuto la risposta alla tua domanda?