En este tutorial, te mostraremos cómo scrapear información de hoteles en Trip.com con Octoparse.
Scrapeamos datos, incluido el nombre del hotel, la ubicación, la distancia, el precio y la clasificación del metro de la página de listado de hoteles con Octoparse.
Para continuar, necesitamos esta URL en el tutorial:
El sitio web aplica un desplazamiento infinito junto con un "Mostrar más" para cargar más reseñas. Después de desplazar la página hacia abajo como 2 veces, se revelaría un botón "mostrar más" y si queremos seguir cargando reseñas, tenemos que seguir haciendo clic en el botón.
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas de demostración aquí]
"Cargar más" - hacer clic en el botón "mostrar más" para cargar más hoteles
1. "Ir a la Página Web" - abrir la página web de destino
Ingresa la URL en la página de inicio y haz clic en "Iniciar"
2. Detectar automáticamente los datos de la página web - crear un básico flujo de trabajo de tareas
Puedes continuar con la función "Detectar automáticamente datos de páginas web" en el panel de Tips.
Haz clic en "Detectar automáticamente los datos de la página web" en el panel de Tips
Espera hasta que se complete la detección automática (puede llevar un poco más de tiempo ya que esta página aplica un desplazamiento infinitivo hacia abajo para cargar)
Haga clic en "Editar" debajo de "Agregar un desplazamiento de página" y configura el tiempo de espera en 5-7 s.
Ve a "Vista previa de datos" para ver si estás de acuerdo con la salida actual de datos
Si estás de acuerdo con la vista previa de datos actual, haz clic en "Crear flujo de trabajo"
Tips!
El desplazamiento de página se ha aplicado ampliamente en diferentes sitios web. Para lidiar con este tipo de sitio web, puedes usar la función "Detectar automáticamente" para ayudar o configurar un desplazamiento de página por tu cuenta haciendo doble clic en el paso "Ir a la página web" en el flujo de trabajo.
Verifica los detalles en los siguientes tutoriales:
|
3. "Cargar más" - hacer clic en el botón "mostrar más" para cargar más hoteles
Selecciona "Hacer clic en un botón 'Cargar más'" en el panel de Tips.
Elige el botón "Buscar más hoteles" en la página web
Configura el "Número de clics" según tus necesidades. Aquí lo configuramos como 5.
Extiende el tiempo de espera de AJAX a 7 segundos
4. Iniciar extracción - ejecutar la tarea y obtener datos
Haz clic en "Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Run task on your device
" para ejecutar la tarea en tu computadora, o selecciona "Run task in the cloud
" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Aquí tienes una muestra de datos.