Vai al contenuto principale

Estrazione degli attributi di un elemento web (testo, URL, HTML, ecc.)

Aggiornato più di un anno fa

In questo tutorial ti presenteremo come estrarre testo, URL, URL di immagine, HTML e altri valori di attributo.


1. Estrazione del testo

Fai clic su i tuoi dati target e seleziona Testo sul pannello dei suggerimenti


2. Estrazione degli URL (di un link o di un'immagine)

Un URL è un collegamento ipertestuale. Con un solo clic su un URL puoi aprire una nuova pagina web o passare a un nuovo sito web, proprio come succede quando clicchi sul titolo di un libro su Amazon.

Oltre a una pagina web, l'URL consente anche di accedere alla risorsa file specifica tramite Internet, ad esempio un'immagine o un documento PDF. Se ottieni l'URL, puoi scaricare il file o l'immagine corrispondente da Internet tramite l'URL.

2.1 Estrazione dell'URL di un link

Cliccare su i dati target e selezionare Link sul pannello dei suggerimenti

SUGGERIMENTO: quando selezioni un elemento con un URL, il tag selezionato nella parte inferiore del pannello dei suggerimenti dovrebbe essere "A", che sta per un'ancora che solitamente collega una pagina a un'altra. Assicurati di selezionare l'area giusta.

14.png

2.2 Estrazione dell'URL di un'immagine

Fare clic su i dati target e scegliere URL immagine sul pannello dei suggerimenti

DOMANDE FREQUENTI: Posso utilizzare Octoparse per ottenere direttamente un'immagine, non il suo URL, dalla pagina web?

SÌ! Con la nuovissima funzionalità di scraping e download introdotta nella versione 8.5.4, ora puoi scaricare l'immagine direttamente durante lo scraping.


3. Estrarre l'HTML interno/esterno

A differenza del testo e dell'URL, i dati come le icone non possono essere estratti direttamente. Se desideri estrarre alcuni contenuti visivi non testuali, come la valutazione in stelle, devi estrarre l'HTML interno/esterno di questi contenuti.

Oltre alle icone, puoi anche estrarre testi, diagrammi e grafici nascosti da una pagina Web estraendo prima l'HTML di questi elementi. Dopo aver ottenuto il codice HTML, devi applicare le espressioni regolari per ripulire i dati.

Per estrarre HTML interno/esterno, fai clic sui dati di destinazione quindi seleziona HTML interno/esterno sul pannello dei suggerimenti.

SUGGERIMENTO: per perfezionare l'HTML interno/esterno estratto in dati utili, potresti voler dare un'occhiata a questi tutorial:


4. Estrarre il valore dell'attributo

Gli attributi si trovano all'interno del codice HTML e forniscono informazioni aggiuntive sugli elementi HTML. Ad esempio, la valutazione in stelle viene solitamente memorizzata nell'attributo. Di solito è disponibile in coppie name/value come name="value". Octoparse può aiutare a ricavare direttamente il valore.

Fai clic sull'elemento target (qui prendiamo come esempio la valutazione in stelle) e selezionare OuterHtml.

Vai alla sezione Anteprima dei dati, passa con il mouse sul campo del nome, fai clic sul pulsante ... altro, selezionare Campo personalizzato, poi scegliere l'attributo desiderato nell'opzione Seleziona altri attributi.

Hai ricevuto la risposta alla tua domanda?