Passer au contenu principal

Ajouter l'URL d'origine (avant la redirection) avec les données collectées

Mis à jour il y a plus de 2 ans

Vous naviguez dans un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version antérieure d'Octoparse, nous vous recommandons fortement de mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour ici si ce n'est pas déjà fait !

Si vous collectez une liste d'URL, vous voudrez peut-être obtenir l'URL d'entrée d'origine en tant que champ avec vos données cibles afin de pouvoir les associer pour voir s'il y a des URL qui n'ont pas été collectées.

Cependant, il se peut que les URL changent après l'ouverture (par exemple, certains paramètres d'URL peuvent changer) ou soient redirigées vers une URL totalement différente. La nouvelle fonctionnalité d'ajout d'une URL d'entrée d'origine dans Octoparse 8.5 résout parfaitement ce dilemme ! Voyons comment utiliser cette fonction.

Quelle est l'URL d'origine qu'Octoparse ajoute en tant que champ ? Pour cette fonction, Octoparse ajoute l'URL d'origine que vous avez saisie dans Octoparse pour commencer la tâche.

C'est quoi l'URL originale qu'Octoparse ajoute comme champ ?

Pour cette fonction, Octoparse ajoute l'URL originale que vous avez entrée dans Octoparse pour démarrer la tâche.

  • URL unique. Si vous démarrez la tâche avec une seule URL, vous obtiendrez l'URL que vous avez indiqué dans l'action Aller à la page Web.

mceclip5.png

  • Listes d'URL dans l'élément de boucle. Si vous extrayez des données d'une liste d'URL, vous obtiendrez la liste d'URL que vous avez saisie dans les URL de boucle en utilisant l'URL d'entrée d'origine.

mceclip2.png

Comment ajouter l'URL d'origine ?

Ouvrez ce lien dans votre navigateur et vous remarquerez que l'URL est redirigée vers une autre : https://en.azimutyachts.com/

mceclip4.png

ÉTAPE 1 : Saisissez votre (vos) URL dans Octoparse pour commencer une tâche

start_a_task.jpg

ETAPE 2. Allez dans la section Aperçu des données et sélectionnez l'URL d'entrée originale dans Ajouter un champ personnalisé.

mceclip0.png

Vous verrez qu'un champ nommé Original_URL a été créé et que sa valeur est la suivante

mceclip2.png

Conseil : vous pouvez également récupérer l'URL après la redirection, ce qui signifie que vous obtiendrez https://en.azimutyachts.com/ mais pas https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1

Avez-vous trouvé la réponse à votre question ?