Les sites web, tels que les portails d’actualités ou les forums, publient généralement de nouveaux contenus très rapidement, parfois même de manière dynamique. Pour rester à jour sur ce type de sites, l’extraction incrémentielle d’Octoparse vous permet de collecter les données beaucoup plus efficacement : les pages déjà extraites sont ignorées et seules les nouvelles pages sont prises en compte.
Quand utiliser l’Extraction incrémentielle ?
Lorsque vous avez besoin d’obtenir fréquemment les dernières données d’un site web.
Lorsque les nouvelles informations apparaissent sous forme de nouvelles pages avec de nouvelles URL (et non comme une mise à jour de pages existantes).
Un exemple parfait est CNN.com. Imaginez que vous ayez besoin de récupérer le fil d’actualités de CNN presque en temps réel. Dans ce cas, il est important de planifier et exécuter la tâche aussi souvent que nécessaire, afin que toute nouvelle publication puisse être extraite rapidement. Ainsi, le critère 1 est rempli.
De plus, chaque article publié sur CNN.com possède une URL distincte, facilement identifiable — ce qui satisfait également le critère 2.
Si vous avez déjà configuré une tâche pour ce travail, il n’est pas logique de ré-extraire les articles déjà collectés lors des précédentes exécutions. Grâce à l’Extraction incrémentielle, Octoparse vérifie d’abord si une URL a déjà été traitée. Seules les nouvelles URL seront extraites, garantissant un gain de temps et d’efficacité.
Comment l’Extraction incrémentielle identifie-t-elle les « nouvelles » données ?
L’Extraction incrémentielle ne fonctionne que si les données ajoutées peuvent être identifiées par de nouvelles URL.Pendant le processus d’extraction, Octoparse vérifie chaque URL des pages ouvertes afin de déterminer si elle a déjà été collectée lors d’une exécution précédente. Si une URL correspond à une déjà extraite, elle sera automatiquement ignorée lors de l’exécution avec l’Extraction incrémentielle.
En d’autres termes, l’Extraction incrémentielle ne peut pas être utilisée si vous n’extrayez que depuis une page de liste, car l’URL de la page de liste reste inchangée.
Comment configurer l’Extraction incrémentielle ?
Allez dans les paramètres de la tâche.
Rendez-vous dans Paramètres d’exécution et cochez Activer l’extraction incrémentielle.
Sélectionnez l’une des options suivantes : Correspondre à l’intégralité de l'URL ou Correspondance par partie d’URL.
Cliquez sur Sauvegarder.
Remarque :
Avec l’option « Correspondre à l’intégralité de l'URL », Octoparse utilise l’URL complète pour déterminer s’il s’agit d’une nouvelle URL. Même la plus petite différence fera en sorte qu’elle soit identifiée comme une « nouvelle » URL.
Avec l’option « Correspondance par partie d’URL », Octoparse détecte automatiquement certains attributs et les rend disponibles en tant que paramètres. En sélectionnant un ou plusieurs attributs comme paramètres de correspondance, vous indiquez à Octoparse de comparer les URL sur la base de ces attributs. Si l’un de ces attributs est identique, la page sera ignorée ; sinon, elle sera extraite.
Seules les tâches comportant une seule action Extraire les données peuvent être exécutées avec l’Extraction incrémentielle, car Octoparse analyse l’URL de la page dès que l’action d’extraction est exécutée afin de détecter les différences.