Vai al contenuto principale

Estrarre dati protetti da un accesso

Come impostare il flusso di lavoro se i dati target sono protetti da un login

Aggiornato più di un anno fa

Quando i dati target sono dietro autenticazione, è ancora possibile accedere ai dati con Octoparse. In questo tutorial ti mostreremo come estrarre i dati protetti da accessi e come salvare i cookie per ottimizzare il flusso di lavoro della tua attività.


1. Inserire le tue informazioni di login per accedere

  • Fare clic sulla casella di testo per l'inserimento del nome utente sulla pagina web

  • Selezionare Inserisci il testo sul pannello dei suggerimenti

  • Inserire il nome utente nella Casella di testo1 e cliccare su Conferma, il nome utente inserito viene automaticamente popolato nella casella di testo del nome utente sulla pagina web.

  • Fare clic su Continua e seleziona Fai clicca su bottone sul pannello dei suggerimenti (puoi saltarlo se la casella della password si trova direttamente sotto la casella E-mail/nome utente).

  • Seguire gli stessi passaggi per inserire la password

  • Cliccare su il pulsante di accedere sulla pagina web e selezionare Fai clicca su bottone sul pannello dei suggerimenti.

Octoparse ora è riuscito a effettuare l'accesso al sito web!

Nota: Cancellare i cookie

Poiché tutti i siti web gestiscono i cookie in modo diverso, per garantire che il flusso di lavoro dell'attività funzioni in modo coerente, inizia con i passaggi di accesso ogni volta che l'attività viene eseguita. Per raggiungere l'obiettivo, è possibile cancellare qualsiasi cookie salvato prima che venga caricata la pagina di accesso. In questo modo, il sito web di destinazione ti "dimenticherà" sempre e ti porterà alla pagina di accesso su cui puoi inserire tutte le informazioni di accesso.

  • Clicca su il passo Vai alla pagina e seleziona Opzioni

  • Scegli Cancella la cache prima di caricare la pagina web

  • Clicca su Applica per salvare


2. Utilizzare cookie a ottimizzare il flusso di lavoro

La maggior parte delle volte è possibile ottimizzare il flusso di lavoro salvando i cookie nell'attività dopo l'accesso. In questo modo, Octoparse invierà i cookie salvati al sito web durante il caricamento, e c'è una buona probabilità che il sito web ti ricordi e salti i passaggi di accesso.

  • Cambia alla modalità di navigazione

  • Puoi accedere al sito web proprio come si fa su un browser regolare.

  • Dopo aver effettuato l'accesso, vai alle impostazioni del passaggio Vai alla pagina, spunta Usa Cookie e fai clic su Usa cookie dell'attuale pagina.

  • Clicca su Applica per salvare le impostazioni

  • Adesso la pagina web dovrebbe avere ricordato l'accesso e salterà i passaggi di login nel prossimo lavoro del crawler.

Nota:

1. Un cookie salvato è efficace solo prima della sua scadenza

I cookie si presentano in molte forme diverse. Alcuni hanno un tempo di scadenza specifico, altri scadono immediatamente non appena viene chiuso il browser. In Octoparse, il cookie salvato non funzionerà più quando scade. Per risolverlo, dovrai passare nuovamente attraverso l'accesso in modalità browser per ottenere e salvare il cookie aggiornato.

2. La tua password è ben protetta

  • In Octoparse, quando inserisci la tua password, è accessibile solo al tuo account. Quando viene esportato un'attività, la password salvata viene automaticamente rimossa.

  • Qualsiasi informazione di accesso salvata verrà rimossa permanentemente dal tuo account non appena l'attività viene eliminata.

3. Inserimento manuale del captcha durante l'estrazione locale

Se incontri un captcha, puoi inserirlo manualmente quando esegui il task localmente. Octoparse può gestire automaticamente certi tipi di captcha, e puoi fare riferimento al link di Risolvi Captcha.

Hai ricevuto la risposta alla tua domanda?