Passer au contenu principal

Extraire des données depuis une IFrame

Mis à jour cette semaine

Qu’est-ce qu’une IFrame ?

Une IFrame (Inline Frame) est un document HTML intégré à l’intérieur d’un autre document HTML sur une page web. Elle permet d'afficher un contenu provenant d’une source externe — en quelque sorte, une « fenêtre » ouverte sur un autre contenu en ligne.

D’un point de vue technique, chaque IFrame inclut la balise HTML <iframe> ainsi qu’un attribut src qui indique l’URL du contenu à afficher :

<iframe src="URL"></iframe>

Les IFrames sont pratiques pour séparer le contenu principal de contenu externe, mais elles constituent souvent un obstacle pour les outils de web scraping.


Comment extraire des données d’une IFrame avec Octoparse ?

Le navigateur intégré d’Octoparse détecte automatiquement les IFrames.

Vous n’avez donc qu’à sélectionner l’élément se trouvant dans l’IFrame et l’extraire normalement — comme s’il n’existait aucune IFrame !

Lorsque vous extrayez des données à l’intérieur d’une IFrame, vérifiez l’XPath auto-généré pour confirmer qu’Octoparse l’a bien identifiée.

Cependant, notez qu'Octoparse localise les éléments dans les IFrames avec la combinaison de IFrame XPath et Matching XPath. Si le XPath généré automatiquement n'est pas précis, vous devrez réécrire les deux expressions XPath.


Et si Octoparse ne détecte pas l’IFrame automatiquement ?

Pas de panique — voici deux solutions :

  1. Utiliser l’option “Capturer un élément” : Cliquez sur Capturer un élément de la page, puis saisissez l’XPath correspondant à l’IFrame. N’oubliez pas d’indiquer à la fois l’XPath de l’IFrame et le Matching XPath lors de la modification.

2. Utiliser directement le lien de l’IFrame comme URL de départ

  • Ouvrez les Outils de développement (DevTools) dans Chrome avec F12 ou Ctrl + Shift + I.

  • Repérez dans le code source la balise <iframe> contenant les données qui vous intéressent.

  • Faites un clic droit sur la balise et copiez l’adresse du lien (src).

  • Utilisez cette URL comme URL de départ pour créer une nouvelle tâche.

Ainsi, vous pourrez extraire les données comme sur n’importe quelle page sans IFrame.

Octoparse peut-il extraire des données d’une IFrame à l’intérieur d’une autre IFrame ?

Non, Octoparse ne peut pas scraper de l'IFrame dans l'IFrame. Cependant, vous pouvez toujours obtenir le lien IFrame sur le code source dans un navigateur, puis l'utiliser comme URL de départ pour construire une nouvelle tâche.

Avez-vous trouvé la réponse à votre question ?