Una pagina web è un documento HTML. Un tag HTML è un pezzo del linguaggio di markup utilizzato per indicare l'inizio e la fine di un elemento web di un documento HTML.
Per selezionare correttamente il tag HTML, diamo un'occhiata ai tag che di solito incontriamo in un'attività di scraping. Conoscere il significato dei tag può aiutarci a capire quale tag selezionare nei diversi casi.
<a> </a> | definisce il collegamento ipertestuale, si può aprire una nuova pagina con un clic |
<p> </p> | definisce i paragrafi durante l'organizzazione del contenuto testuale |
<div> </div> | definisce un blocco o una manopola per segmentare diverse aree della pagina |
<li> </li> | definisce un elemento dell'elenco |
<img> </img> | definisce gli elementi dell'immagine della pagina |
<table> </table> | definisce l'elemento della tabella HTML |
<tr> </tr> | definisce una riga in una tabella HTML |
<td> </td> | definisce una cella di dati standard in una tabella HTML |
<select><option></option></select> | definisce un menu a tendina con opzioni |
Quando vengono individuati tag diversi, Octoparse mostrerà diverse opzioni nel pannello dei suggerimenti. Nella parte inferiore del pannello dei suggerimenti, viene visualizzato un percorso HTML e l'ultimo tag è dove si trova ora.
Se quello attualmente individuato non è quello che desideri, puoi fare clic sugli altri tag desiderati dal percorso.
Se non riesci a trovare quello corretto nel percorso corrente, puoi anche fare clic sull'icona ">" per visualizzare altri tag dell'intero percorso.
Ecco un pulsante Espandi la selezione che ti aiuterà a espandere l'area selezionata. Se trovi difficile selezionare direttamente l'area di destinazione, puoi selezionarne prima una parte e continuare a fare clic sul tasto Espandi la selezione finché non viene selezionata l'area di destinazione.
Prendiamo ad esempio alcuni elementi:
1. Estrazione dell'immagine
Se desideri estrarre l'URL di un'immagine, dovrai individuare il tag img poiché nel tag si trova l'URL dell'immagine.
Fai clic sull'immagine e se trovi il tag IMG situato all'ultima posizione, il che significa che stai individuando il tag corretto.
2. Estrazione dei link
Per ottenere il link di un elemento, devi assicurarti di individuare l'elemento che contiene l'URL. Di solito in un tag A si può individuare l'URL desiderato.
Solo quando fai clic sul tag A, verrà visualizzata l'opzione Link.