Passer au contenu principal

Quels types de sites web ou de données Octoparse peut-il extraire ?

Mis à jour il y a plus d'un mois

Octoparse permet d’extraire des données de 98 % des sites web, y compris ceux utilisant AJAX, JavaScript ou d’autres technologies dynamiques. Il est également facile d’interagir avec les formulaires, les listes déroulantes, le défilement infini, et bien d’autres éléments dans Octoparse.

En règle générale, toute donnée ou information pouvant être copiée-collée depuis un site web peut être extraite avec Octoparse. Plus précisément, si les données ciblées se trouvent dans le code source HTML du site (même si elles ne sont pas visibles sur la page), elles peuvent être extraites avec Octoparse.


1. Éléments visibles sur la page web :

  • Texte

  • URL des images

  • Liens (URLs)

  • Code HTML interne/externe

  • Valeur des attributs


2. Toutes les informations cachées dans le code source, telles que :

  • URL de la page

  • Titre de la page

  • Métadonnées

  • Code source HTML

  • Heure actuelle

Pour plus de détails, consultez :


3. Quels types de sites Octoparse ne peut-il pas scraper ?

Actuellement, Octoparse n’est pas capable d’extraire des données depuis :

  • Sitemap XML

  • Fichier PDF

Si vous trouvez que l’extraction de données sur des sites complexes est trop longue ou si vous souhaitez vous concentrer pleinement sur votre activité, n’hésitez pas à nous contacter pour notre Service de Données.

Avez-vous trouvé la réponse à votre question ?