Ir al contenido principal

Cómo scrapear la página de listado y la página de detalles al mismo tiempo?

Actualizado hace más de un año

Cuando hacemos la extracción de datos en los sitios web de comercio electrónico, es muy común que queramos extraer datos tanto de páginas de listado como de páginas de detalles de productos. Con Octoparse, se puede hacerlo de manera muy fácil y rápida. En este artículo, le enseñaremos cómo crear un crawler para scrapear informaciones de la página de listado y la de detalles al mismo tiempo.

mceclip7.png

Principalmente, Octoparse ofrecemos dos maneras

1. Utilizar la detección automática para crear el workflow

2. Crear el workflow manualmente


1. Utilizar Auto-Detectar para crear el workflow

La detección automática de Octoparse 8.X es más avanzada y fuerte. Podemos hacer la extracción aprovechando la función con unos clics en unos segundos.

Paso1: Hacer clic en "autodetectar los datos de la página web" en el panel "Tips".

Paso2: Cambiar los resultados para obtener los campos de datos que desee (resultado 1 en este caso).

mceclip9.png

Paso 3: Modificar los campos de datos en la "Vista previa de datos" cambiando los nombres o suprimiendo los que no quiere. (Puede cambiar nombre de los campos de datos haciendo doble clic en sus nombres.)

mceclip10.png

Paso 4: Hacer clic en "Revisar" para ver si Octoparse localiza con éxito el botón de paginar

mceclip11.png
mceclip12.png

Paso 5: Luego hacer clic en "Crear workflow"

Octoparse ha creado un bucle en el workflow, que ayuda a scrapear datos de la página de listado. Ahora pasamos a las páginas de detalles con los pasos siguientes.

mceclip13.png

Paso 6: Haz Clic en ¨ Seleccionar dirección de página ¨ para entrar y scrapear la página de detalles(el producto)

mceclip15.png

Ahora estamos en la página de detalle del producto.

Paso 1:Hacer clic en cualquier elemento que quiere extraer

Paso 2:Hacer clic en "Extraer el texto del elemento"

Paso 3:Cambiar nombres de los campos de datos.

mceclip16.png
mceclip17.png

Paso 4: Hacer clic en "Guardar" y "Ejecutar".

mceclip18.png
mceclip0.jpg


2. Crear el workflow manualmente

A veces autodetectar falla para unos sitios web, así que podría crear una tarea por su cuenta con los pasos siguientes.

Si quiere extraer datos de varias páginas, primero podría configurar la paginación.

Paso 1: Hacer clic en el botón de paginar

mceclip6.png

Paso 2: Seleccionar "Hacer clic en bucle"

Paso 3: Seleccionar el primer producto en la primera página

mceclip3.png

Paso 4:Hacer clic en "Seleccionar todos" en el panel Tips.

mceclip2.png

Paso 5:Hacer clic en "Extraer texto del elemento seleccionado".

Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos los subelementos".

mceclip4.png

Paso 6: Hacer clic en "Extraer datos" después de modificar los campos de datos en la "Vista previa de datos"

Así que ha extraído los datos de la página de listado con éxito.

mceclip5.png

Paso 7: Seleccionar el primer título en la página de listado.

Paso 8: Hacer clic en "Seleccionar todos". (Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos".)

mceclip8.png

Paso 9: Seleccionar "Hacer clic en bucle cada elemento".

Luego estamos en a las páginas de detalles.

mceclip9.png

Paso 1: Hacer clic en los datos que quiere extraer y seleccionar "Extraer el texto del elemento".

mceclip11.png

Paso 2 : Hacer clic en “Guardar" y "Ejecutar".

mceclip1.png
¿Ha quedado contestada tu pregunta?