Cos'è l'iFrame?
Un Iframe (Inline Frame) è un documento HTML incorporato all'interno di un altro documento HTML su un sito web. Ti consente di includere un contenuto da fonti esterne. Essenzialmente, è una finestra sulla tua pagina web che guarda un altro contenuto online.
Dal punto di vista del codice, ogni Iframe include il tag HTML <iframe> così come un attributo sorgente src che indica la posizione del contenuto che si desidera incorporare.
<iframe src="URL"></iframe>
Sebbene gli Iframe siano utili per mantenere la separazione tra un sito e il contenuto esterno, sono diventati ostacoli per gli strumenti di web scraping.
Come fare lo scraping con Octoparse da un IFrame?
Il browser integrato di Octoparse rileva automaticamente l'iFrame, quindi tutto ciò che devi fare è selezionare l'elemento nell'iFrame ed estrarlo normalmente - come se non esistesse nulla chiamato iFrame su Internet!
Quando estrai dati all'interno di un iFrame, controlla il suo XPath dell'elemento generato automaticamente per vedere se Octoparse lo ha già rilevato.
Tuttavia, nota che Octoparse localizza gli elementi negli IFrames con la combinazione di IFrame XPath e XPath corrispondente. Se l'XPath generato automaticamente non è accurato, dovrai riscrivere entrambe le espressioni XPath.
Cosa succede se Octoparse non riconosce automaticamente l'IFrame?
Non ti preoccupare - esistono due soluzioni per questo tipo di situazione.
Estrarre qualsiasi elemento della pagina come campo di dati e riscrivere il suo XPath per localizzare l'elemento IFrame. Ricordati di inserire sia l'XPath dell'IFrame che l'XPath corrispondente quando modifichi l'XPath.
Ottienere l'indirizzo del link IFrame dal codice sorgente e usarlo come URL di partenza per una nuova attvità.
Premere F12, o Ctrl + Shift + I per aprire gli strumenti per sviluppatori in Chrome e individuare il codice sorgente dell'elemento IFrame. Se ci sono più link IFrame nel codice sorgente, assicurati di occuparti di quello con i dati desiderati.
Fare clic con il tasto destro del mouse sul tag src dell'iframe e copia l'indirizzo del link per ottenere l'URL.
Usare l'url a costruire un'attività. È facile come raschiare una pagina normale senza IFrame.
È possibile per Octoparse fare lo scraping da un IFrame all'interno di un IFrame?
No, Octoparse non può eseguire lo scraping da IFrame all'interno di un altro IFrame. Tuttavia, puoi comunque ottenere prima il link dell'IFrame dal codice sorgente in un browser e quindi utilizzarlo come URL di avvio per creare una nuova attività.