Vai al contenuto principale

Estrarre e scaricare file da siti Web

Aggiornato oltre 10 mesi fa

Octoparse supporta il download di immagini e file di documenti in cartelle locali durante il processo di scraping locale. Attualmente sono supportati documenti in formato jpg, png, gif, doc, pdf, ppt, txt, xls e zip.

In questo tutorial, ti mostreremo come scaricare file e immagini con Octoparse.

Nota:

  • I download di file possono essere utilizzati solo in esecuzioni locali al momento. Cloud Run non può scaricare file.

  • Octoparse può essere scaricato solo in base agli URL di download scrapati. Se non riusciamo a scrapare gli URL di download, non possiamo scaricare il file.

  • Octoparse non può attivare un download cliccando sul pulsante di download.


1. Scarica file

URL di esempio per le impostazioni del file scaricato:

  • Fai clic su uno dei file: scegli il documento che desideri scaricare e l'elemento selezionato diventerà verde.

  • Fare clic su File documento - Per estrarre i collegamenti e scaricare i file nelle cartelle locali

Nell'anteprima dei dati verranno creati due campi: un campo mostra l'URL per il download, mentre l'altro campo mostra la posizione del file da scaricare.

Nota:

  • Eliminando il campo con un'icona di cartella nel nome verranno annullate le impostazioni di download.

  • Se hai già impostato un campo per estrarre l'URL di download, puoi cliccare su Altro-> Scarica file

  • Assegna un nome ai file scaricati: puoi facilmente rinominare i file scaricati utilizzando le quattro opzioni fornite. Queste opzioni possono essere trovate nel pannello Suggerimenti dopo aver cliccato su File documento.

  1. Valore hash MD5: usa il valore MD5 per nominare i file

  2. Nome file originale: nome file originale predefinito

  3. Tempo di completamento: usa il tempo di completamento del download per nominare i file

  4. Valore campo dati: usa un valore campo dati per nominare il file

  • Cosa fare se il nome del file esiste già: se il nome del file esiste già nella cartella, ci sono tre modi per gestire la situazione.

  1. Salta il nuovo file: Salta il file scaricato corrente

  2. Sostituisci il file esistente: Sostituisci il file esistente con il file appena scaricato

  3. Rinomina il nuovo file: Rinomina il nuovo file con un (1) alla fine del nome del file


2. Scarica immagini

Scaricare immagini in cartelle locali condivide la stessa logica del download di file.

L'URL di esempio per le impostazioni delle immagini scaricate è

  • Fai clic su un'immagine

  • Fare clic su File immagine - Per estrarre i collegamenti e scaricare le immagini nelle cartelle locali

Nota: solo gli URL completi con "https://" possono essere scaricati direttamente con Octoparse. Se il valore URL estratto è solo una parte del link di download completo, puoi usare Aggiungi prefisso o altre funzionalità di raffinazione dei dati nella funzione Pulisci dati per ottenere i link di download validi.

file_downlad.png

3. Impostazioni di download

3.1 ​​Impostazioni di download del file

  • Fare clic sull'icona della freccia davanti al campo dati

__.png

  • Puoi rinominare i file scaricati, separare più URL e immettere URL per saltare i file scaricati qui

REMOVE_DUPLICATES.png

3.2 Scarica le impostazioni della posizione

  • Fai clic sull'icona Impostazioni attività nell'angolo in alto a destra della schermata delle impostazioni attività

  • Scegli Download

  • Fai clic sul pulsante Browse - Scegli una cartella locale per i file e le immagini scaricati

  • Scegli un'opzione per When a local run starts

  • Fai clic su Save - Salva tutte le modifiche

Hai ricevuto la risposta alla tua domanda?