Parfois, nous ne pouvons pas extraire directement les informations d'évaluation comme nous le faisons pour d'autres contenus textuels, tels que le titre d'une page. Dans l'exemple ci-dessous, les informations d'évaluation sont stockées dans la valeur de l'attribut alt de l'élément img. Dans ce tutoriel, nous vous montrerons comment extraire ce type d'informations sur les évaluations en étoiles à partir de pages web.
Exemple de site :
Il existe deux façons de récupérer les informations sur l'évaluation en étoiles
1. Extraire les attributs du code source
✅ Idéal pour
Extraire facilement les évaluations à partir des attributs alt, src ou autres.
Étapes :
1. Sélectionnez la zone d’évaluation sur la page web et choisissez Image URLdans le panneau de Conseils. Vous pouvez également choisir OuterHtml ici. Cette étape sert uniquement à créer un champ de données.
2. Cliquez sur l'action Extraire des données et cliquez sur l'icône "...". Choisissez ensuite Personnaliser les champs
3. Sélectionnez d'autres l'attributs, puis sélectionnez alt
4. Le résultat sera affiché dans le champ
2. Extraire et nettoyer le code HTML
✅ Idéal pour
Les cas complexes où les évaluations sont enfouies dans le HTML.
Étapes :
1. Sélectionnez la zone d’évaluation sur la page web et choisissez OuterHtml.
2. Cliquez sur l'icône "...". Choisissez ensuite Nettoyer les données.
3. Après cela, cliquez sur Ajouter une étape, puis choisissez Faire correspondre avec une expression régulière.
4. Si vous savez comment utiliser l'expression régulière, vous pouvez saisir la formule directement dans la boîte Expression régulière. Si vous n'êtes pas familiarisé avec cette technique, cliquez sur Essayez l'outil RegEx !
5. Cochez Commencer par, puis saisissez la partie de la chaîne qui précède les informations souhaitées. Ensuite, cochez Terminer par, et entrez la partie de la chaîne qui suit les informations nécessaires.
Après cela, cliquez sur Adapter pour vérifier si les informations extraites sont correctes, puis cliquez sur Appliquer.
6. Retournez dans les paramètres et confirmez-les.
7. Après avoir défini tous les paramètres, cliquez sur Appliquer pour enregistrer
Pour Octoparse version 8.8.0 et ultérieure ——l’outil IA Regex
Cliquez sur « Essayez l'aide IA ou l'outil regex »
Pour chaque chaîne de test, surlignez manuellement uniquement le texte que vous souhaitez extraire.
Cliquez sur Générer. L’IA analysera vos exemples et proposera un modèle RegEx.
Cliquez sur Tester pour vérifier que le motif fonctionne avec tous vos exemples.
Cliquez sur Appliquer & Enregistrer, donnez un nom à votre motif, puis confirmez.