Ir al contenido principal

10 Trucos de Octoparse para sacarle todo el partido

Actualizado hace más de un año

Aquí tienes algunos consejos que te ayudarán a empezar más rápido con Octoparse.


1. Mode de Navegar

El navegador incorporado en Octoparse tiene dos modos: modo Selección y modo Navegar.

Por defecto, el navegador está en modo Selección. Cuando mueva el cursor sobre los elementos de la página, los verá resaltados en azul. Si hace clic en un elemento, Octoparse mostrará Tips

El Modo Navegar convierte el navegador incorporado en un navegador normal, lo que significa que no verás el resaltado azul y que si haces clic en un elemento, se completará una acción de clic real.

El modo Navegar se activa haciendo clic en el botón Navegar de la esquina superior derecha. Puedes utilizarlo para cerrar cualquier ventana emergente no deseada (como las de cookies) o para resolver problemas de captcha.

2. Mostrar página web

Si está ejecutando localmente en tu dispositivo, el proceso de scarping se puede ver en tiempo real. Mostrar página web.

Esta función también se puede combinar con Pausar para omitir manualmente algunos anuncios,cookies o captcha.

Puedes activar esa opción en la configuración.


3. Registros de ejecución

Cuando una tarea se ejecuta localmente o en la nube, se registra cada paso de tu ejecución. Puedes encontrar registros de eventos en la ventana de extracción. Estos registros pueden ayudarte a averiguar qué pasos no se están ejecutando bien. También ayudar Soporte de entender tu problema en el flujo.


4. Regenerar Xpath

Cambios en la estructura del sitio pueden resultar en que elementos detrás de algunas instrucciones no sean localizadas. En este caso, necesitamos actualizar XPath, y aquí hay una pequeña herramienta rápida para hacerlo.

Haz clic en este icono detrás de la caja XPath.

Al hacer clic en la página web, selecciona el elemento y XPath para actualizar.


5. Personalizar campo

Octoparse puede extraer texto, URLs, código HTML o valores de atributos de un elemento.

¿Cómo cambiamos la información capturada de texto a código HTML?

Podemos ir a Más -> Personalizar Campos -> Seleccionar lo que quieras


6. Entrar sub-página

Entrar una sub-página es entrar la página de detalles normalmente. Como desde listados a detalles de cada listado.

Una vez que hayas configurado el flujo para raspar los listados, puedes hacer clic en la sub-página para seleccionar el enlace que deseas abrir (cuando no puedas encontrar la opción desde Tips.) Octoparse te enseñará pasos de obtener el enlace para entrar sub-página.

Sub-página también es URL.


7. Añadir pasos(instrucciones) desde el flujo

Además de seleccionar elementos y elegir acciones de Tips, puedes añadir cualquier paso directamente desde el flujo de trabajo.

Mueve el cursor sobre la flecha del flujo de trabajo y aparecerá un botón +. Haz clic en este botón para seleccionar el paso que deseas añadir.


8. Expandir el área de selección

Si no puedes seleccionar un área completa moviendo el cursor sobre los elementos de la página, puedes intentar hacer clic en un elemento dentro de esta área y, a continuación, hacer clic en el botón Expandir área de selección.


9. Dividir la tarea en 2 tareas

En muchos casos, te sugerimos que divida una tarea en dos para acelerar o raspar mejor los datos.

Por ejemplo, si necesitas raspar una página de resultados de búsqueda de comercio electrónico y deseas hacer clic en cada enlace de producto para obtener información. Puedes crear una tarea para raspar primero todos los enlaces de productos y luego crear otra tarea para raspar los datos de los enlaces de productos.

Estas son algunas situaciones comunes en las que puedes intentar dividir la tarea en dos.

  • Necesitas hacer clic en cada enlace de producto para obtener los datos y la cantidad de datos es bastante grande. Si raspas primero los enlaces, te resultará más fácil raspar los productos que faltan, puesto que ya tienes los enlaces de los productos.

    Esto es especialmente útil cuando el sitio web utiliza scroll infinito o carga más.

  • El sitio web utiliza la carga AJAX cuando se hace clic en el enlace directamente.

  • Si el proceso de scraping es largo, puedes considerar dividir la tarea para asegurarte de que funciona bien.


10. Hacer clic en cada paso(instrucción) para verificar si se fluya bien el proceso

  • Haz clic en un Elemento de Bucle después de que se haya cargado la página de la lista

  • Haz clic en "Hacer Clic en" y espera a que se cargue la nueva página

  • Haz clic en el Elemento de Bucle de nuevo para ver si Octoparse muestra la página del listado

Si puedes ver la página del listado, significa el flujo configurado funcionando. De lo contrario, tendrás que modificar el flujo de trabajo para que funcione.

¿Ha quedado contestada tu pregunta?