Ir al contenido principal

Scrapear datos de restaurantes de Tripadvisor España

Actualizado hace más de 2 años

En este tutorial, te presentamos dos soluciones de extraer datos de restaurantes de Tripadvisor España con Octoparse.

Nota: Hacemos una demo sobre cómo extraer los detalles del restaurante comenzando con una URL de listado. Ten en cuenta que comenzar con palabras clave o URLs también es factible con Octoparse.

Estos son los pasos principales de la configuración de tarea para extraer datos de restaurantes de Tripadvisor:

1. Ir a la página web - abrir la página web de destino

  • Ingresa la URL de ejemplo y haz clic en "Empezar"

mceclip0.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip1.png
  • En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en ¨Más¨ y luego elegir ¨Suprimir¨

mceclip2.png
  • Desmarca la casilla "Agregar un desplazamiento de página".

  • Elige "Crear workflow" en el panel de Tips.

mceclip4.png

Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Configurar el tiempo de espera - disminuir la velocidad de raspado. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.

3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información

  • Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s) en el panel de Tips

Hacer_clic_en_enlaces_para_ir_a_la_p_gina_de_detalles.gif

Octoparse iría automáticamente a la primera página de detalles.

4.Extraer datos - extraer datos de la página de detalles

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

Extraer_datos_en_la_p_gina_de_detalles.gif
  • Edita el nombre del campo de datos haciendo doble clic en el nombre si te es necesario

mceclip4.png

5.Configurar el tiempo de espera - disminuir la velocidad de raspado

Tripadvisor podría bloquear tu IP si la raspas demasiado, por lo tanto, debemos controlar la velocidad de raspado.

  • Haz clic en abrir la configuración de acción de la acción "Extraer datos1"

  • Configura el tiempo como 5s-10s

Esperar_antes_de_la_acci_n.gif

6. Modificar XPath del paso "Hacer clic en las URLs de la lista"

La acción autogenerada "Hacer clic en las URLs de la lista" no siempre puede localizar y hacer clic en la URL del título, por lo que debemos modificar el XPath de esta acción. (Para saber más sobre lo que es XPath, consulta aquí)

  • Haz clic en el paso "Hacer clic en las URLs de la lista"

  • Ingresa el XPath //div[@class="OhCyu"]//a

  • Haz clic en "Aplicar" para confirmar

mceclip5.png

7. Iniciar la extracción - ejecutar la tarea y obtener los datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)

mceclip0.png
¿Ha quedado contestada tu pregunta?