Passer au contenu principal

Comment scraper des leads B2B avec Octoparse — exemple avec annuaire.tecsol.fr

Vous cherchez à constituer une liste de prospects B2B sans passer des heures à copier-coller manuellement des coordonnées ? Avec Octoparse, vous pouvez extraire automatiquement les informations de contact d'entreprises depuis un annuaire professionnel — noms, téléphones, adresses — en quelques clics.

Dans ce tutoriel, nous prenons annuaire.tecsol.fr comme exemple, un annuaire spécialisé dans les professionnels du secteur solaire.


Ce que vous allez extraire

  • Nom de l'entreprise

  • Adresse

  • Numéro de téléphone

  • Email

  • Site internet

  • ...


Prérequis


Étape 1 : Saisir l'URL cible

Ouvrez Octoparse et collez l'URL de la page de liste souhaitée dans la barre de recherche, puis appuyez sur Démarrer.

💡 Vous pouvez adapter cette méthode à n'importe quel annuaire professionnel dont la structure est similaire.


Étape 2 : Lancer l'Auto-détection

Une fois la page chargée dans Octoparse, cliquez sur Auto-détection.

Octoparse analyse automatiquement la structure de la page et identifie les champs extractibles : titre, description, lien, etc.

Une fois la détection terminée, cliquez sur Créer un flux de travail dans le panneau de conseils.


Étape 3 : Accéder à la page de détail et extraire les coordonnées

Dans le panneau de conseils, cliquez sur Sélectionner l'URL de la sous-page pour accéder à la page de détail d'une entreprise.

Sur cette page, cliquez manuellement sur chaque champ que vous souhaitez extraire, puis sélectionnez Text dans le panneau de conseils pour l'ajouter à votre flux de travail. Répétez cette opération pour chacun des champs souhaités.


Étape 4 : Optimiser les XPath des champs extraits

Les XPath générés automatiquement par Octoparse sont basés sur la position des éléments dans le code HTML. Par exemple :

  • Email : //div[@class="detailasso"]/div[2]/a[1]

  • Site Internet : //div[@class="detailasso"]/div[2]/a[2]

Cette approche fonctionne bien lorsque toutes les pages de détail ont la même structure. Cependant, si certaines fiches n'ont pas d'adresse email, l'ordre des liens change et les champs extraits peuvent se retrouver mélangés.

Pour éviter ce problème, il est recommandé de remplacer ces XPath par des expressions plus robustes :

  • Email : //div[@class="detailasso"]/div/a[contains(@href, "mailto")]

  • Site Internet : //div[@class="detailasso"]/div/a[contains(@href, "http")]

Ces XPath ciblent les éléments par leur contenu plutôt que par leur position, ce qui garantit une extraction fiable quelle que soit la structure de la page.


Étape 5 : Extraire le numéro de téléphone

Le numéro de téléphone présente une difficulté particulière : il est intégré dans un bloc de texte avec d'autres informations, ce qui rend difficile son extraction directe via le mode Text.

Pour contourner ce problème, procédez ainsi :

1. Au lieu de cliquer sur Text, sélectionnez OuterHtml afin d'extraire le code HTML brut du bloc.

2. Utilisez ensuite la fonction de nettoyage de données pour isoler le numéro de téléphone :

  • Choisissez Faire correspondre avec une expression régulière

  • Cliquez sur l'outil Regex intégré

  • Analysez le texte source, puis renseignez les champs Début et Fin pour délimiter le numéro de téléphone

  • Cliquez sur Tester pour vérifier le résultat

  • Si le résultat est correct, cliquez sur Appliquer

3. Cliquez sur Appliquer pour valider la formule.

Le champ HTML est alors converti en numéro de téléphone propre et exploitable.


Étape 6 : Finaliser les champs

Avant d'exécuter la tâche, prenez le temps de nettoyer votre flux de travail :

  • Supprimez les champs auto-détectés dont vous n'avez pas besoin

  • Renommez les champs en double-cliquant sur leur nom pour plus de clarté


Étape 7 : Exécuter la tâche

Une fois le workflow finalisé, cliquez sur Exécuter et sélectionnez votre mode d'exécution.

Pour une première exécution, il est recommandé de choisir le mode local (sur votre ordinateur). Ce mode affiche le navigateur intégré en temps réel, ce qui vous permet de vérifier le bon déroulement de la collecte et de consulter les journaux en cas d'erreur.


Étape 8 : Exporter vos données

Une fois la collecte terminée, cliquez sur Exporter les données et choisissez votre format préféré : Excel ou CSV etc..

Vos données sont prêtes à être intégrées dans votre CRM ou utilisées pour votre campagne de prospection.


Résultat attendu

À l'issue de la collecte, vous obtenez un fichier structuré de ce type :


Pour aller plus loin

Vous souhaitez collecter des données sur des sites plus complexes ou protégés contre le scraping ? Les versions payantes d'Octoparse donnent accès à des templates prêts à l'emploi, conçus et optimisés par notre équipe pour extraire des données sans configuration manuelle.

Vous rencontrez des difficultés sur votre propre tâche ? N'hésitez pas à nous contacter à support@octoparse.com, nous serons ravis de vous aider.

Avez-vous trouvé la réponse à votre question ?