Cuando hacemos la extracción de datos en los sitios web de comercio electrónico, es muy común que queramos extraer datos tanto de páginas de listado como de páginas de detalles de productos. Con Octoparse, se puede hacerlo de manera muy fácil y rápida. En este artículo, le enseñaremos cómo crear un crawler para scrapear informaciones de la página de listado y la de detalles al mismo tiempo.
Aquí tomamos los datos de "gafas" de eBay como ejemplo: https://www.ebay.es/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313&_nkw=gafas&_sacat=0
Principalmente, Octoparse ofrecemos dos maneras
1. Utilizar la detección automática para crear el workflow
2. Crear el workflow manualmente
1. Utilizar Auto-Detectar para crear el workflow
La detección automática de Octoparse 8.X es más avanzada y fuerte. Podemos hacer la extracción aprovechando la función con unos clics en unos segundos.
Paso1: Hacer clic en "autodetectar los datos de la página web" en el panel "Tips".
Paso2: Cambiar los resultados para obtener los campos de datos que desee (resultado 1 en este caso).
Paso 3: Modificar los campos de datos en la "Vista previa de datos" cambiando los nombres o suprimiendo los que no quiere. (Puede cambiar nombre de los campos de datos haciendo doble clic en sus nombres.)
Paso 4: Hacer clic en "Revisar" para ver si Octoparse localiza con éxito el botón de paginar
Paso 5: Luego hacer clic en "Crear workflow"
Octoparse ha creado un bucle en el workflow, que ayuda a scrapear datos de la página de listado. Ahora pasamos a las páginas de detalles con los pasos siguientes.
Paso 6: Haz Clic en ¨ Seleccionar dirección de página ¨ para entrar y scrapear la página de detalles(el producto)
Ahora estamos en la página de detalle del producto.
Paso 1:Hacer clic en cualquier elemento que quiere extraer
Paso 2:Hacer clic en "Extraer el texto del elemento"
Paso 3:Cambiar nombres de los campos de datos.
Paso 4: Hacer clic en "Guardar" y "Ejecutar".
2. Crear el workflow manualmente
A veces autodetectar falla para unos sitios web, así que podría crear una tarea por su cuenta con los pasos siguientes.
Si quiere extraer datos de varias páginas, primero podría configurar la paginación.
Paso 1: Hacer clic en el botón de paginar
Paso 2: Seleccionar "Hacer clic en bucle"
Paso 3: Seleccionar el primer producto en la primera página
Paso 4:Hacer clic en "Seleccionar todos" en el panel Tips.
Paso 5:Hacer clic en "Extraer texto del elemento seleccionado".
Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos los subelementos".
Paso 6: Hacer clic en "Extraer datos" después de modificar los campos de datos en la "Vista previa de datos"
Así que ha extraído los datos de la página de listado con éxito.
Paso 7: Seleccionar el primer título en la página de listado.
Paso 8: Hacer clic en "Seleccionar todos". (Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos".)
Paso 9: Seleccionar "Hacer clic en bucle cada elemento".
Luego estamos en a las páginas de detalles.
Paso 1: Hacer clic en los datos que quiere extraer y seleccionar "Extraer el texto del elemento".
Paso 2 : Hacer clic en “Guardar" y "Ejecutar".