Octoparse permet d’extraire des données de 98 % des sites web, y compris ceux utilisant AJAX, JavaScript ou d’autres technologies dynamiques. Il est également facile d’interagir avec les formulaires, les listes déroulantes, le défilement infini, et bien d’autres éléments dans Octoparse.
En règle générale, toute donnée ou information pouvant être copiée-collée depuis un site web peut être extraite avec Octoparse. Plus précisément, si les données ciblées se trouvent dans le code source HTML du site (même si elles ne sont pas visibles sur la page), elles peuvent être extraites avec Octoparse.
1. Éléments visibles sur la page web :
Texte
URL des images
Liens (URLs)
Code HTML interne/externe
Valeur des attributs
Pour plus d’informations, consultez : Extraire les attributs d’un élément web (texte, URL, HTML, etc.)
2. Toutes les informations cachées dans le code source, telles que :
URL de la page
Titre de la page
Métadonnées
Code source HTML
Heure actuelle
Pour plus de détails, consultez :
3. Quels types de sites Octoparse ne peut-il pas scraper ?
Actuellement, Octoparse n’est pas capable d’extraire des données depuis :
Sitemap XML
Fichier PDF
Si vous trouvez que l’extraction de données sur des sites complexes est trop longue ou si vous souhaitez vous concentrer pleinement sur votre activité, n’hésitez pas à nous contacter pour notre Service de Données.