En affichant presque toutes les informations sur Internet, Google est toujours considéré comme un trésor. Quand on rencontre une question dans la vie, on ne manque jamais de Googler. Dans la vie professionnel, les données intéressent beacoup de gens qui en profitent pour créer des blogs, lancer des business etc. Mais comment récupérer tant de résultats de recherche rapidement et efficacement ?
Ce tutoriel vous montrera comment extraire des données des résultats de la recherche Google avec Octoparse.
Voilà l'URL d'exemple :
Utiliser le modèle prêt à l'emploi
Dans la fin de faciliter le travail de ses utilisateurs, Octoparse propose un modèle prêt à l'emploi pour extraire les résultats de recherche de Google.
Avez un modèle, trois étapes sont suffisantes :
Étape 1 : tapez Google dans la barre de recherche d'Octoparse et trouver le modèle. Il y a plusieurs modèles disponibles, et pour une recherche française, celui qui s'appelle [FR] Résultats de recherche_Google est le plus recommendé.
Étape 2 : lire l'introduction, la description, la saisie et les données extraites du modèle pour comprendre comment l'utiliser.
Étape 3 : saisir les mots-clés et cliquer sur Démarrer pour commencer l'extraction.
Attention que les modèles sont exclusifs aux utilisateurs premium. Vous pouvez demander un essai gratuit de 14 jours pour en profiter.
En effet, le scraping de Google devient beaucoup plus compliqué ces derniers jours car il applique de différents méthodes de chargement de contenu (parfois button de pagination, parfois défilement infini), ce qui apporte des erreurs dans le xpath généré automatiquement par Octoparse. Par conséquent, vous ne pouvez pas toujours obtenir les données voulues.
La meilleure et la plus rapide/facile solution est d'utiliser directement le modèle [FR] Résultats de recherche_Google qui est assez performant, surtout quand votre besoin consiste à extraire titre, url, description.
Créer la tâche par vous-même
Voici les principales étapes de ce tutoriel : [Télécharger le fichier de tâches ici]
1. Aller à la page Web - pour ouvrir le site cible
Saisissez l'URL dans la barre de recherche de l'écran d'accueil et cliquez sur Démarrer.
2. Créer une pagination - pour charger plus de données
Cliquez sur Suivant au bas de la page Web
Cliquez sur Loop pour accéder à la page suivante
Définissez le temps d'attente d'AJAX : 7-10s recommandé
Remarque : il arrive parfois que Google utilise un Captcha pour lutter contre le scrapping. Pour résoudre le Captcha manuellement, activez le mode de navigation et suivez les instructions.
Si vous souhaitez en savoir plus sur la façon dont Octoparse peut résoudre le Captcha automatiquement pendant l'extraction, veuillez consulter cette page : Résoudre le Captcha
3.Créez une extraction de données - pour extraire les résultats de la recherche
Cliquez sur le titre et le contenu du premier élément de la page Web
Cliquez sur Sélectionner tout pour créer une boucle d'extraction
Cliquez sur Extraire les données
Cliquez sur le bouton Plus à côté du champ de données > Personnaliser XPath
Modifiez le XPath du champ de données comme ci-dessous :
title: //div[@data-header-feature]/div/a/h3
contenu: //div[@data-content-feature]/div/span[2]
4. Définir un temps d'attente avant l'action - pour vous assurer que les données sont entièrement chargées
Attendre avant l'action est une fonction qui peut être définie pour chaque action dans le flux de travail. Elle permettra à la tâche d'attendre avant l'exécution de l'action.
Dans ce cas, il est préférable d'ajouter une fonction Attendre avant l'action pour chaque étape du flux de travail.
Cliquez sur chaque étape respectivement > Options
Définissez le délai d'attente avant action : 2-3s recommandé
Cliquez sur Appliquer pour enregistrer la modification
5.Exécuter la tâche - pour obtenir les données souhaitées
Cliquez sur Enregistrer en haut à droite pour sauvegarder votre tâche.
Cliquez sur Exécuter à côté de la tâche et attendez que la fenêtre Exécuter la tâche s'affiche.
Sélectionnez Exécuter sur votre appareil pour exécuter la tâche.
Attendez que la tâche soit terminée
Voici l'exemple de résultat d'une exécution locale :
Attention que dans la plupart de cas, vous ne pouvez obtenir que des centaines de données. La raison consiste à ce que Google ne présente que un tel nombre de données à votre recherche. Le nombre final se diversifie parfois selon la région et les mots-clés.